當前位置:文學樓>都市言情>重生之AI教父> 第43章 又雙叒叕突破啦
閱讀設定(推薦配合 快捷鍵[F11] 進入全屏沉浸式閱讀)

設定X

第43章 又雙叒叕突破啦 (1 / 2)

孟繁岐的這番話,聽起來讓人覺得不是那麼舒服。

言下之意,給人一種華國AI技術就是不如國外的感覺。

這是李彥弘不大喜歡的,畢竟他這麼早就關注AI技術,就是為了研發最前沿最先進的技術。

孟繁岐大概猜到了他的想法,前世他也曾被早期華國大量發表的AI論文所迷惑。

覺得在這個新崛起的技術上,華國已經可以和美國分庭抗禮,不落下風。

雖然AlphaGO震驚了世人,但畢竟有些華而不實。

直到上千億級別的語言大模型出現,這種純硬核實力的比拼,讓孟繁岐不得不甘拜下風。

實際上,並非是技術手段和演算法層面上相差太遠。

更多的還是因為優質資料的數量不足。

白度的文心一言,出圖的時候甚至會將使用者的中文輸入翻譯成英文,再去作圖。

很多較真的網友故意測試了中英文差異很大的詞彙,比如匯流排(Bus,滑鼠(mouse。

文心一言繪出的影象竟然是大巴車和老鼠,這從中文上是完全說不通的事情。

可見即便不是全部,文心一言這個所謂的專注中文的超級大模型,也在相當程度上藉助了英文基礎的模型權重和技術。

究竟為何要這麼做,說到底還是基礎不夠紮實牢靠。

整理資料,清洗資料,給資料打上高質量的標籤。

這些都是髒活累活,見效慢的工作。

把別人公開的資料拿過來跑一跑訓一訓,多麼方便快捷?

以國內996大廠的內捲風氣,很難容下長回報週期的基礎建設。

早些時候看看不出區別,只覺得國內大廠頻繁在XX榜單上露面,刷榜,又是超過這個,又是超過那個。

直到語言大模型階段,基礎語料數量和質量上的劣勢才暴露無遺。

“其實這也不能完全怪華國的大廠風氣,美國的網際網路起步要早,並且很多領域的文獻材料歸檔做得特別好。”孟繁岐也曾仔細思索過這方面的問題。

“像github,arxiv這樣的大型公開社群,裡面都是非常優質的外文程式碼或者論文。這些也不只是美國人自己的積累。而是透過免費公用的形式,收割了全世界的資料。”

“華國人在github上貢獻的程式碼行數也不在少數,反過來看看華國的論文社群,就比如知網,純純就是毒瘤。裡面屯點碩博生的論文,還要論頁數收費。就連下載之後的閱讀器,甚至都需要專門的....”

此消彼長之下,差了多少珍貴的資料啊...

只是此時此刻,李彥弘應該還沒有想到這麼大規模的資料用於訓練。因而孟繁岐也不急於一時和他討論後面語言類的技術,以及生成式的大模型。

上一章 目錄 +書籤 下一頁