李飛飛團隊嘗試將模型成本「打下來」的背後,開源、資料與技術的突破都是關鍵環節。
近日,有消息指出,華裔科學家、「AI 教母」李飛飛的團隊研究人員以不到 50 美元的費用訓練了一個能力比肩 DeepSeek-R1 的 s1 模型。記者從相關人士處了解到,這個 s1 模型的訓練並非從零開始,而是基於阿里雲通義千問(Qwen)模型進行監督微調。
李飛飛團隊發表的公開論文顯示,基於 Qwen2.5-32B-Instruct 語言模型進行監督微調後的 s1-32B 模型,在競賽數學問題上的表現超過了 o1-preview,最高提升了 27%(MATH 和 AIME24),取得了與 OpenAI 的 o1 和 DeepSeek 的 R1 等尖端推理模型在數學及編碼能力上相當的效果。這個過程中,李飛飛團隊主要使用了一個包含 1000 個問題及其推理軌跡的小型資料集 s1K 並開發了預算強制(budget forcing)技術延長模型思考,以超低成本構建了一個高品質模型。
如何用最簡單的方法實現模型測試時擴展(即允許人工智慧模型在回答問題之前進行更多思考)和強大推理性能?李飛飛團隊嘗試將模型成本「打下來」的背後,開源、資料與技術的突破都是關鍵環節。
如何實現?
從技術的角度來看,李飛飛團隊證明的是資料樣本的高品質以及簡單的測試時間擴展可能帶來的模型訓練效率大幅提升。
根據公開論文,研究團隊首先構建了一個由 1000 個經過精心篩選的問題組成的 S1K 資料集,這些問題配有從 Gemini Thinking Experimental 提煉出的推理過程和答案。基於這個資料集,對 Qwen2.5-32B-Instruct 語言模型進行監督微調,李飛飛團隊僅在 16 個 H100 GPU 上花 26 分鐘完成了模型訓練。
事實上,這僅包含 1000 個問題的資料集遠低於業界通常的大模型訓練資料量,李飛飛團隊印證的是高品質、高難度和多樣性資料所帶來的強大「張力」。研究人員首先遵循品質、難度和多樣性三個原則從 16 個不同的來源收集來 59029 個問題,包括現有的數學問題資料集、以及研究人員自己創建的概率問題集、腦筋急轉彎問題集,再進行樣本檢查、篩選掉格式不佳的資料集,選擇推理鏈路長的問題,才最終創建了這個包含 50 個不同領域的小資料集。
2024 年,李飛飛曾在接受媒體採訪時反駁「人工智慧模型正在耗盡用於訓練的資料」這一觀點,她認為當前 AI 訓練資料並不存在短缺的問題,仍有大量的差異化的資料等待挖掘。她強調的是,高品質資料正變得前所未有的重要,創建高品質的資料集是人工智慧研究的核心。
另一方面,李飛飛團隊還在 S1 模型的訓練中開發了一項 「預算強制」 技術來控制模型在測試時所花費的計算量,來影響模型的推理深度和最終答案。
簡單來說,這個「預算強制」分為兩種情況:若模型生成的推理 token 超過設定的上限,則強制結束推理過程,並附加思維結束(end-of-thinking)token,促使模型進入答案生成階段。若希望模型在問題上投入更多測試時計算資源,則抑制思維結束 token 的生成,並在推理軌跡中追加 「Wait」,鼓勵模型進行更深入的推理探索。研究團隊表示,他們驗證了這種方法還可以使模型重新檢查其答案,通常能修正錯誤的推理步驟,提高推理性能。
目前,s1 模型及其訓練資料和程式碼已在 GitHub 上開源,研究團隊表示,他們希望能夠激發未來關於簡單推理的研究。
開源大模型的進擊
隨著大模型「燒錢」的降溫,如何用更低的成本訓練高效能模型,正在成為業界的關注重心之一。
與李飛飛團隊所做的「監督微調」不同的是,此前,DeepSeek 在發布 DeepSeek-R1 時,還通過 DeepSeek-R1 的輸出,蒸餾了 6 個小模型開源給社區。DeepSeek 表示,基於 Qwen-32B 和 Llama-70B 蒸餾的模型,在多項能力上實現了對標 OpenAI o1-mini 的效果。
一位業內人士對記者表示,無論是李飛飛團隊提煉精華資料在 Qwen 上做監督微調,還是 DeepSeek 的蒸餾,即將 DeepSeek-R1 作為教師模型,把 Qwen 作為學生模型,將教師模型的能力蒸餾給學生模型,都實現了新模型的高效能。這是兩種不同的技術路線,但都降低了高效能模型的訓練成本。
伴隨著 DeepSeek 的火爆和 s1 模型基於通義千問監督微調的低成本訓練,開源大模型對產業格局的影響正在加深。根據開源社群 HuggingFace 的數據統計,海內外開源社群中 Qwen 的衍生模型數量已突破 9 萬,2024 年,僅視覺理解 Qwen-VL 及 Qwen2-VL 兩款模型全球下載量就突破 3200 萬次。大模型開源生態正在迅速發展中。
在模型訓練「性價比」受關注的當下,開源大模型正在給閉源大模型帶來持續挑戰。廣發證券研究指出,隨著 DeepSeek 全球下載量登頂,基於 R1 的完全開源,API 服務定價遠低於 OpenAI,海外市場總體認為,訓練和推理成本下降可能帶來更快的創新、模型的普及,以及更多推理需求。同時,算力的敘事會受到一定影響,開源和閉源模型效能差距的縮小可能對基礎模型開發公司(閉源)帶來挑戰,因為更便宜的開源選項會吞噬市場需求。
而隨著更多開源大模型的發展以及模型訓練技術、資料品質提升的探索,產業的更多玩家也將受到影響。廣發證券同時提到,未來,大模型成本、效率的提升可能給 AI 應用類公司帶來利好,因為這類公司正在尋求機會在 LLM(大語言模型)以及新模型的基礎上開發產品,因此成本效率提升會帶來這些公司資本回報率的回升。此外,雲端廠商間的競爭也在加速關注 DeepSeek 等開源大模型的生態服務,搶食開源大模型算力需求。
在這場大模型技術「普惠」與技術升級的多徑賽跑上,更多 DeepSeek、s1 般的故事正被業界期待,也將有更多快速迭代、追趕的壓力給到從業者。