“從根本上來看,硬體裝置對我的限制其實遠超軟體演算法。”孟繁岐此前一直認為自己失去先知優勢後,無法繼續軟體上的突破將會是最大的問題。
如今看來並非如此,隨著與孟繁岐關係親近的那個男人下臺,拜老登政府限制英偉達的計算裝置出口中國。
這讓一心想要走在演算法技術最前沿倍感壓力。
雖然以他和老黃以及英偉達的關係,可以透過諸多方式繞開此禁令。可不論如何,這都稱得上是巨大的困擾。
倍感無奈的孟繁岐開始向內尋求演算法突破,以期待能夠降低自己對顯示卡裝置的需求。
可原本孟繁岐比較看好的兩個技術方向,都沒有取得預期的成功。
其一,孟繁岐很早就意識到,早期深度學習模型大多依賴於FP32(32位浮點數)的高精度計算,雖然結果準確,但計算量和儲存需求巨大。
根據前世的經驗,孟繁岐早早就推動了FP16(16位浮點數)訓練和推理。這種格式可以節約一半的計算資源,雖然會稍稍影響模型的效能,但在針對性的最佳化下幾乎可以忽略不計,這也是前世的主流訓練模式。
如今,被計算裝置所限制的孟繁岐被迫探索準確度更差的FP8(8位浮點數)。
前世的通識是,該模式計算效率極高,但精度損失更大,適用範圍非常有限。
往往是在訓練完成之後,進行FP8的格式轉換,以節約模型的推理使用成本。直接在訓練的時候採用這種格式是從未被證實過的。
為此,黃仁勳甚至在顯示卡的硬體設計上對FP8提供了一定的最佳化可支援,但半年的時間過去了,孟繁岐並沒有看到自己預期的效果。
另一方面上,孟繁岐同時在尋求“稀疏”這一概念。這一條技術路線開啟得更早,(見368369章。畢竟他很早就知曉,隨著AI技術的發展,兩個超級大國之間勢必會因為世界地位的爭奪而脫鉤。
一旦形成對抗,硬體裝置無疑將會被限制封鎖。
可若要孟繁岐從根本上助力中國的硬體發展......他卻也沒有那個本事。
能做的,唯有投資點錢罷了。
國內的晶片技術,顯然不可能跳過幾代的製程,直接趕上英偉達。
換句話說,孟繁岐清楚國內硬體廠商所能提供的算力必然不如英偉達,這才提議了模型“稀疏”這一概念,以求節省資源。
模型稀疏與神經網路一樣,都是對大腦行為的模仿。
從生物角度上說,大腦中的神經元連線並非全連線,而是高度稀疏的。每個神經元只與少數其他神經元相連,這種稀疏性使得大腦能夠在低能耗下高效處理資訊。
這給了大腦極高的能量效率,大腦在極低的能耗下完成複雜任務,部分得益於其稀疏的連線方式。
人體的總功耗才70300w,其中大腦才僅僅只有1530w。顯示卡動輒就300500w,卻完全無法與人腦的能力相比擬。
孟繁岐認為這是對計算資源的極大浪費,也已經取得了一定的成果證明稀疏方向的概念,可以在不怎麼影響效能的情況下成倍地減少計算消耗。
但這件事情,卻又被硬體的發展大大減緩了。
傳統硬體常年來僅僅只針對密集計算最佳化,難以高效處理稀疏資料。
孟繁岐開發並證明技術的可行性,僅僅只用了兩個多月的時間,可想要硬體良好支援,批次生產,不再等個一年,卻是不大可能。
正在這AI領域逐漸陷入沉寂,總是隻有小修小補的時刻,DeepSeekR1的釋出像是巨石入水,掀起了巨浪。
而令孟繁岐極為懊惱的事情是,DeepSeek取得巨大成功所依賴的技術方向,竟與他本人設想相差無幾。