第113章意外的邀請（1 / 2）

相比效果顯著，非常出色的老虎演算法，移動端最佳化排序演算法的效果要稍差一些。

因而孟繁岐並沒有急著推動上線測試，而是等待結合AI語言解釋模型的那一個更新準備一起推動。

目前針對語言問題所採用的通常是迴圈神經網路(RNN和長短期記憶辦法(LSTM，這兩個工作都是上個世紀末的老辦法了。

這兩種方法簡明好用，因而一直興盛到2017年左右。

&ner，也就是ChatGPT的T方法出現。

通常來說，大家都認為Transformer方法之所以能夠迅速取代RNN和LSTM，主要是因為它更方便並行進行。

在多個裝置上容易做到並行，這件事最核心的意義便是讓規模龐大的版本成為可能，這也為後來ChatGPT這樣的究極巨無霸模型奠定了基礎。

“其實老版的RNN也有辦法可以把並行做得很好，領域內對這件事有很大的誤解。”孟繁岐皺著眉頭思索道。

&ner出來之後，所有人都放下了手頭老方法的研究，擁抱了T方法。

可18年實際上有人專門做了RNN的高度並行，只可惜已經太遲了。

如果這個發現可以早一年的時間，可能RNN會長期作為T辦法的競爭對手，我們也有可能看到ChatRNN的出現。

“早期的T方法需要很多資料，各種引數比較難調整，需要的計算能力也很龐大。”孟繁岐即便根據後來成熟的許多方法做了一個改進的版本，T方法在早期仍舊比較麻煩。

“好在谷歌的資料和算力都不缺，而我也比較熟悉各種經典的引數設定。”孟繁岐先寫了一個雛形版本的T方法，進行了一下測試。

“不過，受限於現在顯示卡的視訊記憶體，模型沒有辦法做得很大，除非我專門再去開發DeepSpeed這樣的高階並行方式。”

在多張卡上訓練模型，可能是為了追求速度，也可能是因為一張卡上放不下了。

其中，資料並行是最簡單的，也就是不同的卡都在做同樣的事情，每張卡上都會存放一個模型。

只不過輸入的資料不一樣，不同的卡做完運算之後，再一起整合更新。

就像是所有人都拿了同樣的刀切不同的菜，最後把切好的食材堆在一起。

可有的時候，一張卡上根本就放不下模型，這樣的情況就比較麻煩了。因為一個人根本拿不動這把刀了，需要多人協作。

可以把每一層拆分到不同的卡上，也可以把不同層分配到不同的卡上，如此一來，其實是用多卡實現了類似單卡訓練的效果。

顯然，前者會比後者容易非常多，前者只需要在不同卡上覆制這些模型，分別讀取資料做運算就好。

而後者則需要根據不同的情況和設定拆分合並，一個不小心就會搞錯。

看了下谷歌大腦的伺服器，裡面有好幾批2013款的GTX泰坦，這東西著實價值不菲。

考慮到當時的其他產品，6G的視訊記憶體還是鶴立雞群的。

比起孟繁岐自己重金購置的4G旗艦款，多出的2G視訊記憶體，足夠做很多其他的事情了。

用速度換視訊記憶體，孟繁岐又做了許多引數和資訊在Cpu和Gpu上反覆轉移的操作。

因為在正式入職之前，谷歌大腦分配給他的顯示卡就已經有16張泰坦，這部分卡撥給孟繁岐獨享，隨時都可以使用。

除此之外，還有32張在不同節點上的Gpu可以申請佔用。

“這時候的谷歌顯示卡還沒有那麼多，這個配置已經相當大方了。”

第113章 意外的邀請 （1 / 2）