當前位置:文學樓>都市言情>重生之AI教父> 438. 思維鏈路
閱讀設定(推薦配合 快捷鍵[F11] 進入全屏沉浸式閱讀)

設定X

438. 思維鏈路 (2 / 2)

透過大量類似的高質量資料監督大模型學習推理的過程,這才有了第一個強智慧的推理模型o1。

在這樣的領先優勢之下,自然不可能詳細開放o1的推理過程給使用者。

若是如此,其他公司獲取思維鏈路資料以蒸餾自己AI模型的成本就會遠低於自己,孟繁岐不可能做這樣的傻事。

坐擁這樣的先發優勢,孟繁岐又可以藉助使用者的反饋,來獲取和調整新的思維鏈路資料。

因此在他看來,自己在大模型思維推理這方面的優勢是巨大的,擁有堅不可摧牢不可破的壁壘。

然而,DeepSeekR1zero狠狠地擊碎了他自說自話的夢想。

“R1zero可以直接在DeepSeekV3的版本上做強化學習,不需要大量高質量監督資料就能夠探索出比較好的思維推理,增強了模型回覆的長度、邏輯性和準確度。唯一的問題是這種方式獲取的模型思維對於人類來說可讀性不強。”孟繁岐繼續閱讀著R1zero和R1的相關報告。

與各種自媒體所宣傳的不需要思維鏈資料不同,R1系列顯然還是需要這些高質量資料的,這讓孟繁岐內心稍稍安寧了一些,只要這部分資料還有價值,他總不至於淪落到過去一年多的投入變為一場空。

真正的R1還是需要優質思維鏈路資料來冷啟動的,雖然從結果上看,R1並沒有比R1Zero準確很多,不過它的思維邏輯和方式人類更加容易讀懂了。

可以說,比起現在人人都搶著試用的R1,R1Zero版本給孟繁岐的震撼要大很多。

R1Zero成為了一種合成高質量思維鏈資料的方式,比起孟繁岐刀耕火種的標註和確認,大模型合成的規模和效率顯然存在千萬倍的潛力。

“有R1Zero獲取大規模的鏈路資料,針對思維鏈的每一個步驟再去分析計算,也就不大必要了。”孟繁岐終於理解了,為什麼DeepSeek的成本低到令人髮指。

孟繁岐一直以為,DeepSeek對外開放的API呼叫價格這麼低,只是因為母公司不差錢,沒準備用這個服務賺錢。

由於他們沒有網際網路大廠天然的使用者基礎,低價API和免費網頁試用,都只是積累使用者的前期投入。

而今細讀DeepSeek在引數低bit訓練,高倍率權重稀疏,以及批次資料合成等方面的成就。孟繁岐這才明白,原來他們真的已經將成本降低了一個數量級。

“DeepSeekR1雖然已經來到了一流級別,但距離現在滿血的o1還有一定的差距。我們正在研發的新版本在效能上也更具有領先優勢。”

DS的熱度在持續攀升,孟繁岐很快接到了團隊的報告。對於這種“我還沒輸”的分析,他並不認可。

“效能指標只是紙面上的,如今階段,兩三個點的差距使用者在使用的時候已經難以察覺。並且,拋開成本談效能,實在是耍流氓了。”

孟繁岐進行過實驗性質的超大模型訓練,效能確實屢創新高,但推理一個問題的成本就能到幾十塊乃至上百元。

試問這樣的使用價格,只是幾個點的提升又有什麼實際的意義呢?

“DeepSeek的低成本訓練大大降低了加入AI領域的門檻,我想很多還在觀望的公司都會有所動作。我們應該將策略從技術壟斷調轉方向,開始側重為大企業進行實際應用的適配。”

孟繁岐在歷史的轉折點做出了重大的決定。

上一頁 目錄 +書籤 下一章