robots.txt的常見寫法
禁止所有搜索引擎訪問網站的任何部分:
User-agent: *
Disallow: /
允許所有的robot訪問
User-agent: *
Disallow:
或者你也可以建一個空文件:robots.txt
禁止所有搜索引擎訪問網站的幾個部分(如下例中的cgi-bin、tmp、private目錄)
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/
禁止某個搜索引擎的訪問(下例中的BadBot)
User-agent: BadBot
Disallow: /
只允許某個搜索引擎的訪問(下例中的WebCrawler)
User-agent: WebCrawler
Disallow:
下面是一些著名站點的robots.txt,你也可以參考他們的寫法。
http://www.google.com/robots.txt
http://www.ibm.com/robots.txt
http://www.sun.com/robots.txt
http://www.baidu.com/robots.txt
常見搜索引擎Robots名字
Baiduspider http://www.baidu.com
Googlebot http://www.google.com
Scooter http://www.altavista.com
ia_archiver http://www.alexa.com
Inktomi Slurp http://www.yahoo.com
FAST-WebCrawler http://www.alltheweb.com
MSNbot http://search.msn.com