剛在網路爬文,發現到,影響主機負載過重與頻寬傳輸量最有可能的原因就是 Robots 機器人作祟,而其中又以 百度(Baidu) Spider 為最。再看看我的 Blog 系統的管理畫面,其中在 User-agents 方面,還真的百度就給我佔據了 96% 之多!
既然也有眾多網站的站長們對 百度 Spider 沒有好感,我想乾脆就先把它給關掉,禁止該機器人搜尋本站。關掉的方法有兩種:
- 在網站根目錄上新增 robots.txt
- 在網站根目錄的 .htaccess 直接 deny 掉
第一種方法,是國際通用的,禮貌上,凡是 Robots 看到 robots.txt 的內容有擋掉它的 User-agens,那麼它會跳過不搜尋;不過又有網友說 google, yahoo 等可以,但是百度好像不理會? robots.txt 內容如下:(以文書編輯器新增以下內容後上傳至網站根目錄即可)
User-agent: baiduspider Disallow: /
若是第一種方法無效,則採取第二種方法,直接在根目錄下的 .htaccess 編輯新增內容如下:
# SetEnvIf User-Agent ^Baidu baidu Deny from env=baidu
我先用第一種方法看看,若還是造成負載與頻寬過重,則直接就在 .htaccess 把它給擋掉。至於利用 IP Ban 掉,可能不是一個好方法,因為百度的搜尋引擎的 IP address 似乎不是固定的。
※ 延伸參考:
o 禁止搜索引擎收錄的方法(百度幫助中心)
o 擋掉 Baidu Spider
o 【轉貼】建議大家把百度搜尋機器人封鎖,免得浪費頻寬和流量
Hi Dotjum:
我是使用 Apache 喔,不過仍謝謝您的技術心得分享。 ^^
IIS 設定還蠻簡單
可以看我這篇圖文介紹
IIS Block 擋特定 IP (封鎖特定IP)
http://www.dotblogs.com.tw/dotjum/archive/2008/03/10/1313.aspx
點部落-專屬於IT技術的Blog http://www.dotblogs.com.tw/
Hello JEFF:
我也不知道耶,透過 google 找不到解決方案嗎?
您好!
您寫的是在UNIX 下, 但WINDOWS 下IIS 要如何檔下它呢.. 感謝告知~
被百度玩的快掛的管理員 求救~
dear halenna:
希望是 Baidu Spider 的問題,我已把它給 Ban 掉了,看是否真的能降低流量。 !^^
96%..哇…比例真得太高了
難怪你要解決!!^^