第43章又雙叒叕突破啦（1 / 2）

孟繁岐的這番話，聽起來讓人覺得不是那麼舒服。

言下之意，給人一種華國AI技術就是不如國外的感覺。

這是李彥弘不大喜歡的，畢竟他這麼早就關注AI技術，就是為了研發最前沿最先進的技術。

孟繁岐大概猜到了他的想法，前世他也曾被早期華國大量發表的AI論文所迷惑。

覺得在這個新崛起的技術上，華國已經可以和美國分庭抗禮，不落下風。

雖然AlphaGO震驚了世人，但畢竟有些華而不實。

直到上千億級別的語言大模型出現，這種純硬核實力的比拼，讓孟繁岐不得不甘拜下風。

實際上，並非是技術手段和演算法層面上相差太遠。

更多的還是因為優質資料的數量不足。

白度的文心一言，出圖的時候甚至會將使用者的中文輸入翻譯成英文，再去作圖。

很多較真的網友故意測試了中英文差異很大的詞彙，比如匯流排(Bus，滑鼠(mouse。

文心一言繪出的影象竟然是大巴車和老鼠，這從中文上是完全說不通的事情。

可見即便不是全部，文心一言這個所謂的專注中文的超級大模型，也在相當程度上藉助了英文基礎的模型權重和技術。

究竟為何要這麼做，說到底還是基礎不夠紮實牢靠。

整理資料，清洗資料，給資料打上高質量的標籤。

這些都是髒活累活，見效慢的工作。

把別人公開的資料拿過來跑一跑訓一訓，多麼方便快捷？

以國內996大廠的內捲風氣，很難容下長回報週期的基礎建設。

早些時候看看不出區別，只覺得國內大廠頻繁在XX榜單上露面，刷榜，又是超過這個，又是超過那個。

直到語言大模型階段，基礎語料數量和質量上的劣勢才暴露無遺。

“其實這也不能完全怪華國的大廠風氣，美國的網際網路起步要早，並且很多領域的文獻材料歸檔做得特別好。”孟繁岐也曾仔細思索過這方面的問題。

“像github，arxiv這樣的大型公開社群，裡面都是非常優質的外文程式碼或者論文。這些也不只是美國人自己的積累。而是透過免費公用的形式，收割了全世界的資料。”

“華國人在github上貢獻的程式碼行數也不在少數，反過來看看華國的論文社群，就比如知網，純純就是毒瘤。裡面屯點碩博生的論文，還要論頁數收費。就連下載之後的閱讀器，甚至都需要專門的....”

此消彼長之下，差了多少珍貴的資料啊...

只是此時此刻，李彥弘應該還沒有想到這麼大規模的資料用於訓練。因而孟繁岐也不急於一時和他討論後面語言類的技術，以及生成式的大模型。

第43章 又雙叒叕突破啦 （1 / 2）