关于 robots.txt 这个文件格式疑问问题 :

2017-05-06 02:31
首先robots.txt里面写了
DisUser-agent: *
Disallow: /douban.php?*
作用到底是禁止蜘蛛抓取还是禁止收录(可抓取只是搜索结果不对外展示?),
我写了但每天这个ip106.120.173.81还是来抓我上面那个地址60~100次,我查了下好像是搜狗的ip,
还是上面格式对搜狗无效,那搜狗的Disallow格式又是什么啊?

2,下面这种蜘蛛名字的多个User-agent写法有效吗:
User-agent: 360Spider
Allow: /douban.php?*

User-agent: *
Disallow: /search.php?*
Disallow: /douban.php?*

上面的 Disallow: /search.php?* 对360Spider有效吗,还是360Spider当它发现存在 User-agent: 360Spider 这个时就只匹配它的名字内规则,后面的User-agent: *就不去匹配了?



还有下面禁止收录某个目录文件夹写法格式是什么啊,比如禁止收录 123 这个文件夹
是这样吗 Disallow: /123/*
还是这 Disallow: /123/

我觉得应该是前面那种吧,后面那个只是禁止收录123目录的index.php主页吗?


这是百度的禁止目录说明,但是baidu它前后说的不一样啊:到底不加 * 只是禁止目录内index默认页还是所有页?

Disallow:以Disallow项的值开头的URL不会被 robot访问。例如"Disallow:/help"禁止robot访问/help.html、/helpabc.html、/help/index.html, 而"Disallow:/help/"则允许robot访问/help.html、/helpabc.html,不能访问/help/index.html。"Disallow:"说明允许robot访问该网站的所有url,在"/robots.txt"文件中,至少要有一条Disallow记录。


关于 robots.txt 这个文件格式疑问问题 :0


回复讨论(解决方案)

这个只是君子协定
其实这个没啥用,人家要抓你根本不看你协议