當前位置:文學樓>都市言情>重生之AI教父> 437. 傲慢的代價
閱讀設定(推薦配合 快捷鍵[F11] 進入全屏沉浸式閱讀)

設定X

437. 傲慢的代價 (2 / 2)

在稀疏這一方向上,孟繁岐選擇了細粒度,矩陣層面的稀疏。

DS則選擇了通道層面的MoE,混合專家模型。

簡單來說,DS選擇把模型拆分為16/32個專家,就像是把一塊蛋糕均分切成16/32塊。

每一塊都是不同的味道,每一個專家更加專注於不同的知識。

根據具體的情況,會有一個門控系統,來決定哪些專家參與計算。

而孟繁岐的野心更甚,他想要從根本上將整個模型在原子級別拆分,細粒度地對所有權重進行大刀闊斧地裁減,直到原本大小的16/32分之一。

從理論上說,這種方式的上限更高,MoE的稀疏更顯得粗糙。

另一方面,孟繁岐也有願景,想要增強國內硬體的競爭力。

因為英偉達的裝置,是無法支援這種細粒度稀疏計算的。

倘若能夠先發展國內計算裝置,適配這種技術,就能夠在製程等諸多硬體技術落後的情況下,達到更快的推理效果。

換言之,孟繁岐又一次將希望寄予了發展週期更長的硬體廠商,那麼在這方面被其他人趕上,倒也不是什麼奇怪的事情了。

雖然具體實現上稍顯不同,但總體來說,DS完成了孟繁岐在技術上的兩點宏觀展望。

從其餘的許多技術細節當中,孟繁岐可以很強烈地讀到,他們的開發之路走得也並不順利。

比如說混合專家MoE,很容易讓一兩個專家變成懂王,什麼都要參與,很多其他的專家漸漸變成了掛件,貌似在參與,其實完全就是圍觀的觀眾。

如果增加額外的損失函式去調整它們,既增加了大量計算量,又極有可能影響到訓練的主要目標本身。專家們的排程問題這個小問題影響到模型的能力這個主要問題。

DS最終完美地解決了這個問題,既沒有額外增添損失計算最佳化,又使得各專家實現了負載均衡。

孟繁岐相信,這個最終簡潔優雅的技術方案背後一定存在許多努力與艱辛。

而現在的closeai對這種付出是越來越排斥的。

比起花費許多的努力在某一個運算元上最佳化2030%的速度,他們更願意多用一些顯示卡,多花一些時間。

既然英偉達暫時不直接支援FP8做這樣的操作,那就先等等吧。

諸如此類的事情持續累積,使得後來者已經實質上實現了相當數量的技術超越,甚至是在孟繁岐較為關注的技術方向上。

而DeepSeek的坦率開源,也讓孟繁岐動搖了closeai是否繼續閉源的想法。

“若是我適當裁減一些已經沉迷安樂的技術人員,逐漸走向開源,對比海對面的OpenAI倒也算是奇景了。”孟繁岐想到這裡也是笑出了聲。

自從兩國關係逐漸微妙,CloseAI的在美使用就收到了限制。原本標榜開源的OpenAI逐漸走向閉源,而最初就閉源盈利的CloseAI反而在考慮擁抱開源盛世。

這倒也稱得上是另一種雙向奔赴了。

同一時刻,比起一直在關注技術細節的孟繁岐,普通人更為在意的,則是R1這個模型,首次揭露了前沿高效能智慧思考問題的邏輯脈絡。

上一頁 目錄 +書籤 下一章