第50章 You Only Look Once: YOLO （2 / 2）

第一個真正意義上將深度學習技術應用到目標檢測上的，應當是這個月剛剛提出來的RCNN，也就是區域檢測神經網路。

&nAP值止步於3040，不再繼續提升的情況下，RCNN基於神經網路，一舉突破了60的mAP值。

它的R指得便是區域，檢測任務說白了，就是指出物體在圖片中的位置/區域。

而即便在1415年，RCNN系列作為領先的高效能演算法，他的推理時間也是奇慢無比的。

採用14年牛津大學的VGG網路作為結構的骨幹，需要整整幾十秒才能處理一張影象。也就沒有了任何實時的可能，只做學術研究之用，難以投入業界。

即便是一兩年後，屢次更新，升級迭代的快速版本Fast RCNN系列，也只有0.5和個位數的FPS。

而孟繁岐給出的演算法：YOLO。即便在448 x 448大小的影象上，速度也超過了80FPS。

如果採用最小的模型版本進行推理，速度甚至可以達到驚人的200幀。

多少人直到十年後，玩遊戲的時候顯示器都顯示不了100幀？

原本的初版YOLO技術其實在精確程度上還有所不足，畢竟，作為專注於速度的檢測技術，在效能上有所犧牲也是在所難免。

但孟繁岐開始接觸YOLO技術的時候，都已經出到V4了，等到2023年的時候，甚至都已經到了V7，V8。

很多細節上的問題，孟繁岐就是想犯錯都不知道該怎麼犯。

最開始記得的就是最佳化之後的技術。

此時此刻，比較常用的檢測技術是DPM，30FPS效能26.1&nAP，100FPS效能僅為16.0&nAP。

而這個月剛剛出來的RCNN技術，效能雖然有一個質的突破，來到了5060，但FPS已經到小數點後幾位去了，根本用不了。

孟繁岐交出的結果則是，69.5&nAP，82FPS，58.3&nAP，200FPS。

這已經不能說是普通的超越了，簡直是完爆中的完爆。

不過除了在這方面有所疏忽之外，孟繁岐實際上還是在有意識地想要做高這個效能。

縱觀自己掌握的所有AI技術，唯有檢測是現在階段變現最快的。

這個功能直接粗暴好理解，易於展示。

只需要接上攝像頭，給觀眾們實時地演示，這項AI技術可以流暢絲滑地檢測出螢幕中的桌椅，人物，動植物等常見物體，就能夠給觀眾最為直接的震撼。

像影象生成，語言對話等技術，還需要一定的時間，海量的資料和計算資源來支撐，自己才能夠實現這些技術。

而在實際的應用前景上，檢測技術不僅是現階段最容易落地的技術，它的未來前景也非常遼闊。

兩三年後搞自動駕駛的企業那是不計其數，如過江之鯽，數不勝數。

在檢測上盡力做出誇張的突破，很有助於此後自己在這個方向上的歷史地位，說白了其實就是更容易忽悠到錢。

只是他第一次把握刀法，經驗不足，沒有切好。不慎導致比較專業的人士對此有所誤會。