robots.txt文件的目的是告诉搜索机器人(搜索引擎蜘蛛)哪些文件应该被它们索引,哪些文件不应该被它们索引。大多数情况下,它用于指定你不想被搜索引擎索引的文件。
要允许搜索机器人抓取你网站的全部内容并将其编入索引,请在你的robots.txt文件中添加以下几行(允许所有):
User-agent: *
Disallow:
Disallow后面是空白的,表示没有任何限制,搜索引擎蜘蛛可以抓取网站的所有内容,如果你想阻止一部分规则的页面被搜索引擎抓取,你可以进行设置。例如:我不想搜索引擎蜘蛛抓取/search开头的所有网页,只需要这样:
Disallow: /search
另一方面,如果你希望禁止将你的网站完全编入索引,请使用以下几行(禁止所有):
User-agent: *
Disallow: /
要获得更高级的结果,你需要了解robots.txt文件中的部分。“ User-agent:
”行指定设置应该对哪些机器人有效。你可以使用“ *
”作为值来为所有搜索机器人创建规则或你希望为其制定特定规则的机器人的名称。
“ Disallow:
”部分定义了不应被搜索引擎索引的文件和文件夹。每个文件夹或文件都必须在一个新行上定义。例如,以下几行将告诉所有搜索机器人不要将public_html文件夹中的“
private ”和“ security ”文件夹编入索引:
User-agent:*Disallow:/privateDisallow:/security
请注意,“ Disallow:
”语句使用你的网站根文件夹作为基本目录,因此你的文件路径应该是/sample.txt而不是/home/user/public_html/sample.txt(本地磁盘目录)。
版权声明:本网站为个人原创网站,所发表的所有作品的著作权均为本人所拥有,本人保留所有法定权利,禁止一切复制和转载行为,违者必究。无脑复制抄袭转载的人我并不会阻止,但我会问候你全家今天是否还安康出门有没有被车撞?我从来不骂人,我骂的也都不是人。网络上发现博文被大量转载,出此下策,抱歉。这条声明只针对那些无脑复制粘贴我文章的人。
没有评论: