2013年的暑假,距離比賽開始時間還有大約一個月的時間。
“模型的訓練過程需要將所有的權重,資料和許多中間過程都放入GPU中進行處理。因而GPU的視訊記憶體大小格外重要。”孟繁岐嘆了口氣,“即便是我們購買的旗艦690,也太小了,只有4G大小。”
比起後來被美國禁止賣給華國的A10080G,690不說其他效能,單視訊記憶體就少了20倍。孟繁岐如今只能可憐巴巴地每次使用16張圖片對模型進行迭代。
“一次十六張,一次迴圈要接近一百萬次才能更新完整個資料集。而想把模型收斂好,上百次迴圈又是少不了的。”
孟繁岐估算了一下,這個版本出一次結果要接近20天,最後的訓練過程確實大概消耗了三週左右以收斂到現在的這個效能。
好在IMAGENET在後來基本成為了每個演算法工程師必調參的練手資料集,孟繁岐自己就曾無數次刷榜,自然是輕車熟路,清楚各類引數的大概設定。
這為他至少節省了一兩個月的珍貴時間。
即便一次訓練需要三週之久,孟繁岐卻仍舊趕在比賽開始之前就已經準備好了一版模型。
看著訓練出來的模型最終效能達到了預期,孟繁岐心中的一塊大石總算落地了。
這幾個月來,他唯一擔心的一件事情就是多年前的老框架會出一些他意料之外的問題,導致最終的結果不能和理論預期吻合。
一旦這種事情發生,找到問題所在並測試解決的代價就太大了。倘若不能夠及時解決,會很大影響到他初期的規劃。
眼下的結果大約在4.9%的top5錯誤率,這個版本比後世論文中的效能要稍差了一丁點,但好在仍舊強於賽事方給出的人類標準了。
一般來說,比賽前是不會公佈比賽所使用的具體資料的。只是IMAGENET比賽比較特殊,一千多萬量級的圖片,總不可能辦一兩次比賽就捨棄掉,不再使用。
因而每屆比賽所用的資料是變化很小的,只是具體賽道,所競爭的內容和評判的方式常會有所調整。
雖說IMAGENET休賽的時期其實也可以提交結果,孟繁岐現在就可以把這個結果上傳上去,奪取第一的位置,但關注度畢竟不可與賽時的激烈競爭同日而語。
與此同時,唐璜也終於開始意識到事情的走向已經遠遠偏離了他的預料。
“我記得之前查到AlexNet在這上面的準確率不到85吧,你現在這個已經特麼超過95了啊。”唐璜第一次來檢視結果的時候完全不敢相信這個事實。
“你確定沒搞錯?別忽悠兄弟啊。兄弟書讀的少,很容易被騙的。”唐璜此刻的心態很複雜,很希望這是真的,但由於事情實在顯得太美好,反而很難相信。
“是假的,我騙你的。”孟繁岐翻了個白眼,“我加了特技,裡面都是化學的成分。”
“不會吧,我親眼看這效能一路上收斂上來的。”唐璜又翻了翻模型訓練的日誌,聲音之中帶了三分委屈。他剛剛已經在腦補自己抱緊大腿,走上人生巔峰的場景了。
這就是患得患失的可憐人啊,不敢相信,卻又害怕是假的。
“雖然我沒有測試集的真實答案,但是我從訓練集裡劃了百分之5出來沒有使用,作為驗證的辦法。”孟繁岐對這個資料集的方差可以說是瞭然於胸,95%的資料用於訓練,5%的資料用於測試已經是相當穩妥而保守的比例了。