擋掉搜尋引擎機器人的方法

剛在網路爬文,發現到,影響主機負載過重與頻寬傳輸量最有可能的原因就是 Robots 機器人作祟,而其中又以 百度(Baidu) Spider 為最。再看看我的 Blog 系統的管理畫面,其中在 User-agents 方面,還真的百度就給我佔據了 96% 之多!

b2evolution_user_agents_20070515

既然也有眾多網站的站長們對 百度 Spider 沒有好感,我想乾脆就先把它給關掉,禁止該機器人搜尋本站。關掉的方法有兩種:

  1. 在網站根目錄上新增 robots.txt
  2. 在網站根目錄的 .htaccess 直接 deny 掉

第一種方法,是國際通用的,禮貌上,凡是 Robots 看到 robots.txt 的內容有擋掉它的 User-agens,那麼它會跳過不搜尋;不過又有網友說 google, yahoo 等可以,但是百度好像不理會? robots.txt 內容如下:(以文書編輯器新增以下內容後上傳至網站根目錄即可)

User-agent: baiduspider
Disallow: /

若是第一種方法無效,則採取第二種方法,直接在根目錄下的 .htaccess 編輯新增內容如下:

#
SetEnvIf User-Agent ^Baidu baidu
Deny from env=baidu

我先用第一種方法看看,若還是造成負載與頻寬過重,則直接就在 .htaccess 把它給擋掉。至於利用 IP Ban 掉,可能不是一個好方法,因為百度的搜尋引擎的 IP address 似乎不是固定的。

※ 延伸參考:
o 禁止搜索引擎收錄的方法(百度幫助中心)
o 擋掉 Baidu Spider
o 【轉貼】建議大家把百度搜尋機器人封鎖,免得浪費頻寬和流量

文章導覽

   

共有 6 則迴響

  1. 您好!
    您寫的是在UNIX 下, 但WINDOWS 下IIS 要如何檔下它呢.. 感謝告知~

    被百度玩的快掛的管理員 求救~

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *