第一個真正意義上將深度學習技術應用到目標檢測上的,應當是這個月剛剛提出來的RCNN,也就是區域檢測神經網路。
&nAP值止步於3040,不再繼續提升的情況下,RCNN基於神經網路,一舉突破了60的mAP值。
它的R指得便是區域,檢測任務說白了,就是指出物體在圖片中的位置/區域。
而即便在1415年,RCNN系列作為領先的高效能演算法,他的推理時間也是奇慢無比的。
採用14年牛津大學的VGG網路作為結構的骨幹,需要整整幾十秒才能處理一張影象。也就沒有了任何實時的可能,只做學術研究之用,難以投入業界。
即便是一兩年後,屢次更新,升級迭代的快速版本Fast RCNN系列,也只有0.5和個位數的FPS。
而孟繁岐給出的演算法:YOLO。即便在448 x 448大小的影象上,速度也超過了80FPS。
如果採用最小的模型版本進行推理,速度甚至可以達到驚人的200幀。
多少人直到十年後,玩遊戲的時候顯示器都顯示不了100幀?
原本的初版YOLO技術其實在精確程度上還有所不足,畢竟,作為專注於速度的檢測技術,在效能上有所犧牲也是在所難免。
但孟繁岐開始接觸YOLO技術的時候,都已經出到V4了,等到2023年的時候,甚至都已經到了V7,V8。
很多細節上的問題,孟繁岐就是想犯錯都不知道該怎麼犯。
最開始記得的就是最佳化之後的技術。
此時此刻,比較常用的檢測技術是DPM,30FPS效能26.1&nAP,100FPS效能僅為16.0&nAP。
而這個月剛剛出來的RCNN技術,效能雖然有一個質的突破,來到了5060,但FPS已經到小數點後幾位去了,根本用不了。
孟繁岐交出的結果則是,69.5&nAP,82FPS,58.3&nAP,200FPS。
這已經不能說是普通的超越了,簡直是完爆中的完爆。
不過除了在這方面有所疏忽之外,孟繁岐實際上還是在有意識地想要做高這個效能。
縱觀自己掌握的所有AI技術,唯有檢測是現在階段變現最快的。
這個功能直接粗暴好理解,易於展示。
只需要接上攝像頭,給觀眾們實時地演示,這項AI技術可以流暢絲滑地檢測出螢幕中的桌椅,人物,動植物等常見物體,就能夠給觀眾最為直接的震撼。
像影象生成,語言對話等技術,還需要一定的時間,海量的資料和計算資源來支撐,自己才能夠實現這些技術。
而在實際的應用前景上,檢測技術不僅是現階段最容易落地的技術,它的未來前景也非常遼闊。
兩三年後搞自動駕駛的企業那是不計其數,如過江之鯽,數不勝數。
在檢測上盡力做出誇張的突破,很有助於此後自己在這個方向上的歷史地位,說白了其實就是更容易忽悠到錢。
只是他第一次把握刀法,經驗不足,沒有切好。不慎導致比較專業的人士對此有所誤會。