437. 傲慢的代價（2 / 2）

在稀疏這一方向上，孟繁岐選擇了細粒度，矩陣層面的稀疏。

DS則選擇了通道層面的MoE，混合專家模型。

簡單來說，DS選擇把模型拆分為16/32個專家，就像是把一塊蛋糕均分切成16/32塊。

每一塊都是不同的味道，每一個專家更加專注於不同的知識。

根據具體的情況，會有一個門控系統，來決定哪些專家參與計算。

而孟繁岐的野心更甚，他想要從根本上將整個模型在原子級別拆分，細粒度地對所有權重進行大刀闊斧地裁減，直到原本大小的16/32分之一。

從理論上說，這種方式的上限更高，MoE的稀疏更顯得粗糙。

另一方面，孟繁岐也有願景，想要增強國內硬體的競爭力。

因為英偉達的裝置，是無法支援這種細粒度稀疏計算的。

倘若能夠先發展國內計算裝置，適配這種技術，就能夠在製程等諸多硬體技術落後的情況下，達到更快的推理效果。

換言之，孟繁岐又一次將希望寄予了發展週期更長的硬體廠商，那麼在這方面被其他人趕上，倒也不是什麼奇怪的事情了。

雖然具體實現上稍顯不同，但總體來說，DS完成了孟繁岐在技術上的兩點宏觀展望。

從其餘的許多技術細節當中，孟繁岐可以很強烈地讀到，他們的開發之路走得也並不順利。

比如說混合專家MoE，很容易讓一兩個專家變成懂王，什麼都要參與，很多其他的專家漸漸變成了掛件，貌似在參與，其實完全就是圍觀的觀眾。

如果增加額外的損失函式去調整它們，既增加了大量計算量，又極有可能影響到訓練的主要目標本身。專家們的排程問題這個小問題影響到模型的能力這個主要問題。

DS最終完美地解決了這個問題，既沒有額外增添損失計算最佳化，又使得各專家實現了負載均衡。

孟繁岐相信，這個最終簡潔優雅的技術方案背後一定存在許多努力與艱辛。

而現在的closeai對這種付出是越來越排斥的。

比起花費許多的努力在某一個運算元上最佳化2030%的速度，他們更願意多用一些顯示卡，多花一些時間。

既然英偉達暫時不直接支援FP8做這樣的操作，那就先等等吧。

諸如此類的事情持續累積，使得後來者已經實質上實現了相當數量的技術超越，甚至是在孟繁岐較為關注的技術方向上。

而DeepSeek的坦率開源，也讓孟繁岐動搖了closeai是否繼續閉源的想法。

“若是我適當裁減一些已經沉迷安樂的技術人員，逐漸走向開源，對比海對面的OpenAI倒也算是奇景了。”孟繁岐想到這裡也是笑出了聲。

自從兩國關係逐漸微妙，CloseAI的在美使用就收到了限制。原本標榜開源的OpenAI逐漸走向閉源，而最初就閉源盈利的CloseAI反而在考慮擁抱開源盛世。

這倒也稱得上是另一種雙向奔赴了。

同一時刻，比起一直在關注技術細節的孟繁岐，普通人更為在意的，則是R1這個模型，首次揭露了前沿高效能智慧思考問題的邏輯脈絡。

437. 傲慢的代價 （2 / 2）