孟繁岐的這番話,聽起來讓人覺得不是那麼舒服。
言下之意,給人一種華國AI技術就是不如國外的感覺。
這是李彥弘不大喜歡的,畢竟他這麼早就關注AI技術,就是為了研發最前沿最先進的技術。
孟繁岐大概猜到了他的想法,前世他也曾被早期華國大量發表的AI論文所迷惑。
覺得在這個新崛起的技術上,華國已經可以和美國分庭抗禮,不落下風。
雖然AlphaGO震驚了世人,但畢竟有些華而不實。
直到上千億級別的語言大模型出現,這種純硬核實力的比拼,讓孟繁岐不得不甘拜下風。
實際上,並非是技術手段和演算法層面上相差太遠。
更多的還是因為優質資料的數量不足。
白度的文心一言,出圖的時候甚至會將使用者的中文輸入翻譯成英文,再去作圖。
很多較真的網友故意測試了中英文差異很大的詞彙,比如匯流排(Bus,滑鼠(mouse。
文心一言繪出的影象竟然是大巴車和老鼠,這從中文上是完全說不通的事情。
可見即便不是全部,文心一言這個所謂的專注中文的超級大模型,也在相當程度上藉助了英文基礎的模型權重和技術。
究竟為何要這麼做,說到底還是基礎不夠紮實牢靠。
整理資料,清洗資料,給資料打上高質量的標籤。
這些都是髒活累活,見效慢的工作。
把別人公開的資料拿過來跑一跑訓一訓,多麼方便快捷?
以國內996大廠的內捲風氣,很難容下長回報週期的基礎建設。
早些時候看看不出區別,只覺得國內大廠頻繁在XX榜單上露面,刷榜,又是超過這個,又是超過那個。
直到語言大模型階段,基礎語料數量和質量上的劣勢才暴露無遺。
“其實這也不能完全怪華國的大廠風氣,美國的網際網路起步要早,並且很多領域的文獻材料歸檔做得特別好。”孟繁岐也曾仔細思索過這方面的問題。
“像github,arxiv這樣的大型公開社群,裡面都是非常優質的外文程式碼或者論文。這些也不只是美國人自己的積累。而是透過免費公用的形式,收割了全世界的資料。”
“華國人在github上貢獻的程式碼行數也不在少數,反過來看看華國的論文社群,就比如知網,純純就是毒瘤。裡面屯點碩博生的論文,還要論頁數收費。就連下載之後的閱讀器,甚至都需要專門的....”
此消彼長之下,差了多少珍貴的資料啊...
只是此時此刻,李彥弘應該還沒有想到這麼大規模的資料用於訓練。因而孟繁岐也不急於一時和他討論後面語言類的技術,以及生成式的大模型。