美團一站式機器學習平台的啟示:從煙囪到平台化的演進
近年來,AI技術在各大互聯網公司中幾乎成為標配,無論是老牌巨頭還是新興勢力,都在積極投入相關研發。以外賣配送為例,如何提升配送效率與用戶體驗,已經成為競爭的核心。隨著訂單量激增、場景日益複雜,背後的算法也面臨著「更快、更好、更準」的壓力。這讓美團開始思考:如何讓算法團隊專注於創新,而不是被工程細節拖累?
業務背景與挑戰
以美團外賣為例,2019年單日訂單量突破三千萬,背後支撐的是一套極其複雜的即時配送網絡。這不僅需要解決 ETA 預測、智能調度、動態定價等多個機器學習問題,還要在效率、體驗和成本之間取得平衡。
平台化的必要性
隨著業務規模擴大,單靠各業務線各自為政的「煙囪式」開發,會導致重複造輪子、特徵口徑混亂等問題。這不僅拖慢了算法的迭代速度,也讓協同變得困難。因此,建設一個統一、易用的機器學習平台,成為提升效率的關鍵。
美團的演進路徑
MVP 階段:靈活但分散
最初,各 BU 為了快速支持業務,自己搭建機器學習工具,雖然靈活,但也帶來了重複開發和標準不一的問題。
平台化階段:統一與標準化
隨著問題暴露,美團組建了專門的小組,開始推動平台化。這個平台不只整合了多種主流機器學習框架(如 Spark ML、XGBoost、TensorFlow),還提供了可視化的訓練界面、統一的模型管理、特徵平台和 AB 測試平台等,極大降低了算法開發人員的門檻。
觀察與思考
平台化的本質與價值
平台化的最大價值在於「標準化」與「解耦」。當每個業務線都在重複造輪子時,實際上浪費了大量人力和時間。統一的平台能讓算法工程師專注於模型創新,而不是被各種工程細節和重複性工作拖慢腳步。這種分工,讓專業的人做專業的事,效率自然提升。
特徵平台與數據一致性
特徵工程往往是機器學習項目中最耗時、最容易出錯的部分。美團通過離線和實時特徵平台,保證了線上線下特徵的一致性,這點非常值得借鑒。否則,模型在測試和實際運行時表現差異大,會嚴重影響業務決策。
AB實驗的設計思路
做AB實驗時,容易忽略業務場景的特殊性。美團針對即時配送設計了分時間片的AB分流,這種做法能最大程度減少外部干擾,讓實驗結果更科學。這提醒我,做實驗不能只套用標準方法,而要根據實際業務特點靈活調整。
平台建設的挑戰
雖然平台化帶來很多好處,但推動過程中也會遇到阻力,比如不同團隊的協作、歷史遺留系統的整合等。這需要有強有力的推動者和明確的目標,否則容易半途而廢。