第768章爬蟲（2 / 3）

在大方向的理論上，周大老闆比一些專業人士還強。

王小船深以為然，“是啊，大資料的處理。百度和谷歌的差距，微點和百度的差距，最主要的就是體現在我們在資料處理時的效率問題。按理來說，透過爬蟲技術，可以抓取到網際網路上所有資訊。可相關資訊太多了，資料量太大了。怎麼才能在短時間內把想要的資訊抓取並展示出來，是搜尋引擎最大的技術難題。”

周不器打了個響指，笑道：“巧了，我這次過來，就是想問問你爬蟲的事。”

王小船有些費解。

周大老闆這個技術外行，怎麼還關心起技術細節來了？

就緩緩的解釋道：“爬蟲是搜尋的基礎工具，爬蟲搜資訊……嗯，就跟使用瀏覽器上網差不多，都是先向伺服器傳送請求，獲得返回的頁面，然後篩選出有價值的內容。如果時間足夠長計算量足夠大，使用爬蟲工具，就可以把網際網路上的所有資訊都搜尋一遍。”

見周大老闆似乎很感興趣的樣子。

王小船就拿過紙筆，很快速的寫下了一行程式碼，“假如說我們要爬取微知網的資訊，用這行程式碼就可以實現了。”

周不器拿過程式碼一看，嗯，是很簡單。

headers={‘UseAgent’:‘ChaiknowsThebot’，}

r=(“

=xt

print(

難怪說3月份的時候，北科有兩個計算機系的大學生被開除了。

這技術好像是不太難。

因為大四寫論文，可用谷歌、百度、微點等搜尋引擎，卻搜不到別人寫的相關論文。怎麼辦？就有計算機系的學生，自己寫了段爬蟲演算法。

然後成功的爬取到了幾百篇相關論文。

接下來就好辦了，摘抄、重組、整合。

如果查重不過關，也簡單，用谷歌翻譯，先漢譯英、再英譯漢。再人工地把句子整理通順，查重就順利透過。

可能是北科的創業環境被周不器給帶起來了，那倆大學生就有了透過技術牟利的心思，玩起了幫同學寫論文的生意。

被發現後，倆人都被開除了。

要不是周不器出面力保，上繳了非法所得，並安排到了校內網工作，他倆說不定就要蹲監獄了，前程就全毀了。

王小船接著說：“這是靜態網站的爬取，如果是優酷、朋友網的這種動態頁面，演算法會相對複雜。可不管怎樣，這都是很基礎的工具。我們做搜尋引擎，難點已經從複雜性變為規模量了。”

周不器皺皺眉，“老馬……就是阿里的那位。他跟我說，要遮蔽百度對淘寶的爬蟲，怎麼回事？”

王小船笑道：“這事也簡單，爬蟲和網站之間有一個爬取協議，業內叫Robot協議。這個協議會宣告，該網站的哪些內容可以爬取，哪些內容不能爬取，並規定白名單裡的爬蟲可以爬取主頁內容。淘寶如果要遮蔽百度，只需要把百度的爬蟲加到黑名單裡就行了。”

“嗯！”

周不器點了點頭。

這就是他想要的答案。

第768章 爬蟲 （2 / 3）