关于Spider的一些问题
Sosospider很烦人,就封掉吧。
在服务器里进行封杀
BrowserMatch Sosospider a_robot=1
BrowserMatch libwww a_robot=1
中间添加如下
Order allow,deny
Allow from all
Deny from env=a_robot
统计中还出现BSpider,搜索一下,标识没有BSpider。
原来他用libwww呀。封杀之
http://www.robotstxt.org/db.html
http://www.robotstxt.org/db/bspider.html
封杀完成,测试
curl -A “libwww” http://www.myweb.com
curl -A “Sosospider” http://www.myweb.com
403了,大功告成。
curl的详细参数见下面链接
http://curl.haxx.se/docs/manual.html