陸道升總算趕在出發去北京之前完成了對hao123爬蟲系統的改造。在原有流程上做了一些最佳化,以及新增了一個線上的評審系統。
前世hao123創始人李興平是透過個人的全身心投入來保持hao123的不斷更新和迭代,每天要花十多小時在人力檢查連結是否失效或者被移花接木的問題上。
失效的問題對陸道升來說很好解決,就是網站打不開了而已,可能是暫時的網路問題,也可能是確實網站停止服務了。
總之就是寫程式透過網址來請求網站內容,分時段多試幾次,如果都請求不成功,那就是失效了。
最多再加一個每個時間段內失效網址數量的監控,佔比不超閾值,那麼就確認這是失效網址,如果超過閾值,可能是網路問題造成網站集體訪問失敗,傳送報警到陸道升郵箱但不做處理,等過段時間再次檢測即可。
網址被移花接木就很麻煩了,想透過技術手段對比會很費事,投入產出嚴重不值得,大頭還是靠人工。
有很多網站運營一段時間後難以為繼,就會關張大吉,其擁有的網址往往會被其他人買走另作他用。
這個另做他用對陸道升來說就很頭疼。
比如之前做遊戲的網址被換成做娛樂,那就應該從遊戲分欄裡轉移到娛樂分欄。更頭疼的是還有的網址直接被買走搞成了涉黃網站,這就根本不能留了,得直接幹掉。
而要做以上判斷,就需要人工審閱。
為了減少審閱工作量,陸道升特意寫過一個對比過濾的流程,即把網站上一次的文字內容快取下來,下一次爬取時進行一個對比,如果網頁結構和內容變化比例沒超過閾值,則直接略過,認為可以保持原有判斷,如果超過閾值,那就整理起來輸出為列表,再由人工來一條條對比稽核。
陸道升本以為針對不同的網址分類,可以透過設定不同的差異度閾值來進一步減少需要人工稽核的資料量,結果發現同網址分類下各個網址的更新強度天差地別,很難得到一個大分類適用的數值,只得作罷。
另一個雪上加霜的情況就是新網站越來越多,新網站的加入都需要人工處理以確定是否有收錄的價值,以及如何分類、排序。
雖然透過技術手段已經壓縮了絕大部分的工作,但是hao123帶來的時間開銷在不斷攀升,陸道升有些擔心自己哪怕加上左文杏的時間精力都不足以在保障好網咖管理系統開發的同時做好hao123的維護工作。
而在hao123帶來正向的廣告收入之前,這段時間股市的收益也沒有兌現,陸道升手裡的可用資金並不多,招不起人。
也不是說招不起幾個臨時工,或者找幾個網管就當給他們個機會賺賺外快,但是這樣的人的責任心很難保障,錢不怕多花,事兒不能做岔了,寧可等手頭充裕了挑幾個合用的。
現階段,就只能依靠技術優勢暫時壓住增長的運營人力開銷了。
另一個線上的評審系統,則是陸道升在浦外聽到人議論自己時臨時想到的,那就是能不能把hao123的稽核工作給改造一下,然後變成可以分發的小塊任務,透過郵件分發給不同的人來處理,處理完成後進行結果的集中處理。
聯想的過程大概如下,聽到有人議論自己,覺得自己好厲害,心中先暗爽一會兒。