未來的網際網路市場,歸根結底是內容為王。
誰有內容誰就有制霸權。
包括未來的人工智慧大語言模型也是。
就比如ChatGPT、文心一言這類的AI產品,想要有令人驚人的智慧表現,就一定得經過無數資料內容的訓練才行。
可是,資料是不能亂用的,只有公開資料或者開源資料,才能免費地供全球的開發者使用。
全球有一個超大型的免費的資料庫。
什麼語言都有,90%以上都是英文的語料庫,中文語料資料也就是2%左右。
全球幾乎所有的AI模型,想要訓練都要依靠著這些公開的資料內容才行。因為都是英文資料,所以這些AI模型,一定都是以英文為核心。
所以當百度的文心一言推出之後,就會出現很多令人難以理解的事……其實原因很簡單,文心一言使用的是英文資料,中文語料的資料實在是太少了。
別看國內人多,但網路上真正有價值的內容實在不多,稍微出格一點,這些有價值的語料就要按法律法規給刪除了。
就剩下了一堆沒法訓練AI的垃圾內容。
就比如,《大時代之巔》到底是一本怎樣的書?
如果有人說好,有人說不好,這些內容就都是有價值的內容,AI模型經過一番的訓練和評估,從而給出比較客觀公正的評價。
如果作者想要維護評論區的和諧,把所有說好的內容都留下了,說差的內容都刪除了,最後只剩下了一片讚歌,那麼即便這些讚歌都是對的,這也是垃圾資訊。
因為對AI模型來說缺少了多元化的評判。
從出發點到終點,有一萬條路,AI模型的訓練就是把這一萬條路都走一遍,然後選出最合適的那條路,這才是AI的價值。
就像生物製藥,有一萬種選擇,AI幫忙給出最好的那幾個選擇,就會大大地縮減研發經費、提高研發成功率。
要是一開始就只提供一條路,那還訓練個屁啊,不給AI選擇、評判、思考和分析的機會,就只告訴他一個標準答案,AI就會毫無意義。
德文、法文、日文、韓文的資料量太少,中文的資料量很大,可是因為環境的限制有價值的資料也很少。
所以,想訓練出世界級的AI模型,就只能用英文語料來訓練。
這就需要一些弱勢語言的AI模型,要有語言轉換能力,去轉換成英文。
就像使用文心一言,讓他畫一個起重機的圖片。
結果畫的是鶴。
這就很讓人費解。
其實很簡單,起重機的英文是crane,而crane在英文裡主要是指鶴。所以AI模型就畫出了鶴的圖片。
又比如“可樂雞翅”這種,放在中文語境裡,其實很好理解,就是一道菜。可是,這裡面有一道翻譯的手續,把“可樂雞翅”翻譯成英文,在翻譯過程中就造成了資訊離散,導致畫出來的可樂和雞翅。
ChatGPT一樣會遇到這樣的困境。
用英文向ChatGPT提問,回答的速度會非常快,而且準確度極高;如果用中文、日文、韓文、法文、德文等其他語言來提問,反應速度就會很慢,給出的答案也會錯誤百出。