“你這裡說的深度神經網路指的應該是你自己提出的那種上百上千層的神經網路,而不是目前業界的深度網路吧?”付院長轉過頭來,微笑問道。
“付院長您是怎麼..”孟繁岐先是愣了一下,然後猛地反應過來,目前只有那個女生看到過自己提前準備的殘差網路草稿。“是那個女生跟您說的?”
“哈哈哈,她是我的小師妹。”付院長笑道,“前段時間來這裡,也順便來拜訪了我一下,提到了我們學校有個學生在研究什麼深百層千層的神經網路,研究得像模像樣的。”
“說實在的,這也不是我的領域,如果不是以前的老師讓我關注一下這方面,我還真是一竅不通。這兩天我還在查詢資料呢,我說這哪有什麼上百層的神經網路,去年年底那個奪冠的AlexNet不也才8層的深度嗎。”
“我也只是剛剛有一些想法。”孟繁岐連忙解釋道。
“你不用緊張,我只是稍微有些好奇,想看看咱們學校到底是不是出了個這方面的天才。若是真的,我肯定大力支援。”
孟繁岐連忙先請付院長坐下,先為他大概介紹了一下背景,原理和現階段難題。
付院長本身是純數學出身,此前又在老師的指示之下對這個領域稍稍瞭解過一些,因此孟繁岐沒說太多,他就已經掌握了大概。
“你認為深度網路難訓練的問題本質上是梯度問題,所以你想使用殘差的形式。”付院長喃喃自語,左手握拳,撐住了自己的下巴。
“如果不去深究神經網路本身的變換,而只是將其的變換理解為一個未知的高維函式的話,f(x的多次累加會比x+f(x的殘差形式要不穩定太多。”孟繁岐後世主要以理解演算法的流程,瞭解幾種對比方法的優缺點為主。
對於其具體的內在原理,數學推導,平心而論,他的關心遠遠不足。現下正是彌補這部分短板的大好機會。
“如果我們討論一個函式的多次巢狀,f(f(f(f(..f(x..的話,不管是否是殘差的形式,都是相當難以分析的。從數學上直觀來看,兩個相同次數的巢狀,有殘差與否,不應當會改變該函式的實際表達能力。也就說,你構建的模型其對函式擬合的能力是與原本相當的。”
“倘若真的可以觀察到明顯的改善,那說明這種殘差的形式只是能夠讓你所說的模型更容易被最佳化。換言之,以我的視角來說,該函式的求解變得更加精確了,從這個角度來看,殘差是一種簡潔的尤拉前向形式。”
付德清說著,拿起了紙筆開始了一些推演。孟繁岐疏於數學上的推演,但他很熟悉這種形式構建的網路有什麼特性,因而越聽越覺得驚奇。付院長的數學分析竟然相當接近不少後來的實驗結果。
只可惜自己看他親自上手推論,卻稍微有些吃力了。
此時此刻和他一樣一頭霧水的還有附近豎起耳朵吃瓜的幾名高年級學長學姐。