win7系統(tǒng)下載
當前位置: 首頁 > 網(wǎng)絡技術(shù)教程 > 詳細頁面

不好的搜索引擎屏蔽辦法

發(fā)布時間:2022-09-03 文章來源:深度系統(tǒng)下載 瀏覽:

網(wǎng)絡技術(shù)是從1990年代中期發(fā)展起來的新技術(shù),它把互聯(lián)網(wǎng)上分散的資源融為有機整體,實現(xiàn)資源的全面共享和有機協(xié)作,使人們能夠透明地使用資源的整體能力并按需獲取信息。資源包括高性能計算機、存儲資源、數(shù)據(jù)資源、信息資源、知識資源、專家資源、大型數(shù)據(jù)庫、網(wǎng)絡、傳感器等。 當前的互聯(lián)網(wǎng)只限于信息共享,網(wǎng)絡則被認為是互聯(lián)網(wǎng)發(fā)展的第三階段。

一大堆 robot

Google, Yahoo 的搜尋引擎之所以可以搜尋到很多資料,是因為他們時時刻刻都派著 “robot” 在網(wǎng)路上巡邏,Google 的叫 googlebot, MSN 叫 msnbot, Yahoo! 叫 Yahoo Slurp 等等,任務就是捉新的網(wǎng)頁或更新的網(wǎng)頁回去資料中心. 為了隱私之類的原因,國際組織訂有規(guī)則,規(guī)范 robot 的行為 — 基本上是 robot 要先參考網(wǎng)站根目錄的一個 robots.txt 的檔案,內(nèi)容寫著 robot 的名稱及禁止捉取的目錄或檔案,例如:
User-agent: abc
Disallow: /not_for_abc/
User-agent: *
Disallow: /secret/
   
意思是禁止 abc 這個 robot 捉 /not_for_abc/ 目錄,及禁止所有的 robots 捉 /secret/ 目錄. 網(wǎng)站管理者理論上可以將不喜歡的 robot,或是禁止 robot 捉取的目錄或檔案,寫在這個檔案中.

但是這個只防君子不防小人,碰到網(wǎng)路壞爬蟲就沒轍了,有些搜尋引擎的 robot 根本不看網(wǎng)站的robots.txt,就一路抓下去,實在另人發(fā)指. 網(wǎng)路壞爬蟲是什么,就是這些不遵守游戲規(guī)則,到處亂捉別人網(wǎng)站的內(nèi)容的壞蛋,這樣會造成網(wǎng)站的流量增加,也就是費用的增加,或是不想被搜尋的資料也被捉走了,侵犯網(wǎng)站的隱私. 很可惡是吧. 下面是幾個例子:
   
iaskspider 是「愛問」屬於新浪網(wǎng)的 robot,完全不管 robots.txt

QihooBot,也是來自「奇虎網(wǎng)」,浪費帶寬,

另有 larbin,iearthworm,yodaoice,lanshanbot,Outfoxbot 等等一堆,這些不是什么好東西,還有一個 WebClipping.com 不知是好人壞人…


電腦知識學習論壇為電腦初學者的疑難雜癥提供最佳解決方案。電腦基礎知識學習QQ群:81158926 歡迎電腦愛好者加入。


碰到這種網(wǎng)路壞爬蟲,說實在的也沒什么積極的辦法,不能叫網(wǎng)路警察把它捉起來...不過消極的辦法還是有的,把網(wǎng)站門戶看好 — Apache 可以擋住特定 IP,但因為 robots 大多有多重 IP,過濾壞蛋的姓名比較有效,可以用 BrowserMatchNoCase 來過濾,用法像是:

〈directory “/wwwroot“〉
Order allow,deny
Allow from all
BrowserMatchNoCase “iaskspider“ badguy
BrowserMatchNoCase “QihooBot“ badguy
BrowserMatchNoCase “larbin“ badguy
BrowserMatchNoCase “iearthworm“ badguy
BrowserMatchNoCase “Outfoxbot“ badguy
BrowserMatchNoCase “lanshanbot“ badguy
BrowserMatchNoCase “Arthur“ badguy
BrowserMatchNoCase “InfoPath“ badguy
BrowserMatchNoCase “DigExt“ badguy
BrowserMatchNoCase “Embedded“ badguy
BrowserMatchNoCase “EmbeddedWB“ badguy
BrowserMatchNoCase “Wget“ badguy
BrowserMatchNoCase “CNCDialer“ badguy
BrowserMatchNoCase “LWP::Simple“ badguy
BrowserMatchNoCase “WPS“ badguy
deny from env=badguy
〈/directory〉
  
#如此,它們就會收到 Apache 丟回 403 碼:Forbidden

如此,它們就會收到 Apache 丟回 error 403 碼:Forbidden

但是,有些更沒品的還會隱姓埋名,不敢用真面目見人的 ,…

------------------------

另外
asp 識別
Agent=Request.ServerVariables(“HTTP_USER_AGENT“)
 ’識別搜索引擎
Dim botlist,i,IsSearch
Botlist=“Google,Isaac,SurveyBot,Baidu,ia_archiver,P.Arthur,FAST-WebCrawler,Java,Microsoft-ATL-Native,TurnitinBot,WebGather,Sleipnir,yahoo,3721,yisou,sohu,openfind,aol“
Botlist=split(Botlist,“,“)
For i=0 to UBound(Botlist)
If InStr(Agent,Botlist(i))〉0 Then
server.transfer “simple.asp“
IsSearch=True
Exit For
End If
Next


網(wǎng)絡的神奇作用吸引著越來越多的用戶加入其中,正因如此,網(wǎng)絡的承受能力也面臨著越來越嚴峻的考驗―從硬件上、軟件上、所用標準上......,各項技術(shù)都需要適時應勢,對應發(fā)展,這正是網(wǎng)絡迅速走向進步的催化劑。

本文章關(guān)鍵詞: 搜索引擎屏蔽