最終形成了一個比較成熟的壓縮、擴散、和隱空間再擴散三步走的系統。
這種整體做法的實驗、討論和最終確定,耗費的時間甚至比正式訓練還要久。
“也不知道量子計算機這種計算效能數量級提升的東西什麼時候能弄出來,如果算力夠快,其實能省事不少。”孟繁岐想起這件事情還是覺得疲倦。
之所以要拆分出這麼多模組,其中最大的原因就是計算資源消耗的問題。
影象的解析度是平方,T方法內的運算又有維度上平方的操作,使用者覺得256和512解析度的圖片差不多,可反應到全域性則往往會是一個數量級的提升。
為此,只得將擴散模型的學習步驟放到低緯度空間裡進行取樣。
說直白點,就是先把解析度搞低,從而極大地減少擴散前後步驟的計算量。
“這樣做會不會有損效能?使得生成的圖片效果不夠好?”決定釋出這版本算力上有所閹割的擴散模型,CloseAI內部也提出了這樣的擔憂。
畢竟演算法方面其實可以做得更好,雖然代價會大一些。
“這裡也不僅僅是計算時間的問題,同時也是視訊記憶體的問題。不做這種拆分和影象解析度的閹割,相同的一張卡不僅運算速度變慢一個數量級,能夠同時進行的任務也少了好幾倍。”孟繁岐堅持先解決使用者數量的問題,效能和效果可以慢慢去最佳化。
這就像是一個巨大的胖子來吃飯,不僅用餐時間是別人好幾倍,他一個人還能坐四個座位。
在孟繁岐看來,ControlNet提出之前,首先發布的繪圖AI也只是一個玩具。
其效能有所上下波動無傷大雅,因為早期優質出圖的成功率本來也不高,往往是需要大量測試後挑選一個能看的。
這主要是因為不管是文生圖還是圖生圖,在早期都缺乏一個特別好的控制手段。
“我們現在推出的這款擴散模型,具體的用法還是大量的文字輸入去控制影象的產出。但是文字想要清楚地描述一張具體的影象是非常困難的,即便大批次的嘗試加上大量的生成,未必就能得到自己想要的結果。”
“這種生成模式,也要用圖文結合的方式。我們還要找到具體的辦法,透過額外的條件新增來控制擴散模型的行為,告訴它什麼要調整,什麼不要調整。做到生成影象內容的儘量可控,要遠遠比影象似乎更加精美好看一點要更重要,優先順序更高。”
孟繁岐很清楚早期AI繪圖的最大問題,那就是生成影象像是在吟唱黑魔法。
為了得到一張心滿意足的圖片,很可能需要詠唱一百來個關鍵詞。
當時不少人都笑稱,玩AI繪圖搞得跟賽博邪教一樣,嘴裡嘟囔著一大堆別人似懂非懂的話。
甚至還有打包了大量優質圖片關鍵詞,直接拿去售賣的。