當前位置:文學樓>都市言情>大時代之巔> 第768章 爬蟲
閱讀設定(推薦配合 快捷鍵[F11] 進入全屏沉浸式閱讀)

設定X

第768章 爬蟲 (2 / 3)

在大方向的理論上,周大老闆比一些專業人士還強。

王小船深以為然,“是啊,大資料的處理。百度和谷歌的差距,微點和百度的差距,最主要的就是體現在我們在資料處理時的效率問題。按理來說,透過爬蟲技術,可以抓取到網際網路上所有資訊。可相關資訊太多了,資料量太大了。怎麼才能在短時間內把想要的資訊抓取並展示出來,是搜尋引擎最大的技術難題。”

周不器打了個響指,笑道:“巧了,我這次過來,就是想問問你爬蟲的事。”

王小船有些費解。

周大老闆這個技術外行,怎麼還關心起技術細節來了?

就緩緩的解釋道:“爬蟲是搜尋的基礎工具,爬蟲搜資訊……嗯,就跟使用瀏覽器上網差不多,都是先向伺服器傳送請求,獲得返回的頁面,然後篩選出有價值的內容。如果時間足夠長計算量足夠大,使用爬蟲工具,就可以把網際網路上的所有資訊都搜尋一遍。”

見周大老闆似乎很感興趣的樣子。

王小船就拿過紙筆,很快速的寫下了一行程式碼,“假如說我們要爬取微知網的資訊,用這行程式碼就可以實現了。”

周不器拿過程式碼一看,嗯,是很簡單。

headers={‘UseAgent’:‘ChaiknowsThebot’,}

r=(“

=xt

print(

難怪說3月份的時候,北科有兩個計算機系的大學生被開除了。

這技術好像是不太難。

因為大四寫論文,可用谷歌、百度、微點等搜尋引擎,卻搜不到別人寫的相關論文。怎麼辦?就有計算機系的學生,自己寫了段爬蟲演算法。

然後成功的爬取到了幾百篇相關論文。

接下來就好辦了,摘抄、重組、整合。

如果查重不過關,也簡單,用谷歌翻譯,先漢譯英、再英譯漢。再人工地把句子整理通順,查重就順利透過。

可能是北科的創業環境被周不器給帶起來了,那倆大學生就有了透過技術牟利的心思,玩起了幫同學寫論文的生意。

被發現後,倆人都被開除了。

要不是周不器出面力保,上繳了非法所得,並安排到了校內網工作,他倆說不定就要蹲監獄了,前程就全毀了。

王小船接著說:“這是靜態網站的爬取,如果是優酷、朋友網的這種動態頁面,演算法會相對複雜。可不管怎樣,這都是很基礎的工具。我們做搜尋引擎,難點已經從複雜性變為規模量了。”

周不器皺皺眉,“老馬……就是阿里的那位。他跟我說,要遮蔽百度對淘寶的爬蟲,怎麼回事?”

王小船笑道:“這事也簡單,爬蟲和網站之間有一個爬取協議,業內叫Robot協議。這個協議會宣告,該網站的哪些內容可以爬取,哪些內容不能爬取,並規定白名單裡的爬蟲可以爬取主頁內容。淘寶如果要遮蔽百度,只需要把百度的爬蟲加到黑名單裡就行了。”

“嗯!”

周不器點了點頭。

這就是他想要的答案。

上一頁 目錄 +書籤 下一頁