admin 于 2023-04-05 发表在 SEO技术大约1970个字

什么是robots协议？robots.txt文件怎么写？

作为一个SEO人员，你知道什么是robots协议？robots.txt文件怎么写吗？下面就来告诉大家什么是robots协议以及robots.txt文件的写法！

一、什么是Robots协议？

Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”，robots.txt是搜索引擎访问网站时第一个查看的文件，当我们网站有部分内容不希望收搜索引擎抓取时，就可以通过Robots协议来告诉搜索引擎哪些页面是不能抓取的，大多用来保护网站的隐私，以及一些死链、重复页面等等。

二、、Robots.txt文件怎么写？

基本语法

User-agent:指定对哪些爬虫生效！*号代表全部搜索引擎，百度(Baiduspide)、谷歌(Googlebot)、360(360Spider)

Disallow:不允许抓取

Allow:允许抓取

#:注释

　全站屏蔽所有蜘蛛

新站上线前或网站改版之前，为了避免蜘蛛抓取错误或临时的链接，可以采用全站屏蔽蜘蛛的操作，在根目录建立robots.txt，添加如下内容：

User-agent:*

Disallow:/

屏蔽某个目录、文件

屏蔽所有蜘蛛抓取根目录下的seo文件夹及里面的所有内容，根目录下的seo1目录下的1.html文件,robots.txt文件添加如下内容：

User-agent:*

Disallow:/seo/

Disallow:/seo1/1.html

　屏蔽某个目录，但抓取目录下的文件或文件夹

屏蔽所有蜘蛛抓取网站根目录下的seo文件夹，但抓取里面后缀名为html的文件

User-agent:*

Disallow:/seo/

Allow:/seo/*.html

注意：上面的写法，seo带“/”代表根目录下的seo目录下的内容。并不会禁止比如根目录下seotest的文件夹及文件夹所有内容。

禁止抓取根目录下所有前面带“seo”字符的文件夹及文件

User-agent:*

Disallow:/seo

禁止了如：/seo/，/seo/12.html，/seotest/，/seoabc.html

　屏蔽动态URL

网站有些动态页面可能会和静态页面相同，造成重复收录,用robots屏蔽动态URL

User-agent:*

Disallow:/*?*

仅允许访问“.html”为后缀的URL

User-agent:*

Allow:.html$

Disallow:/

　屏蔽死链接

网站改版、删除文章后，原来的URL如果已经被搜索引擎索引，出现404错误。一般的做法如下：

①查看网站日志，找出这些死链，用百度提交死链工具提交，慢慢的会删除这些死链；

②如果这个链接已经更换，也可以用301跳转到新的链接，301跳转后原页面和新页面处理办法；

③robots禁止蜘蛛抓取死链，写法同上，最好带完整路径

User-agent:*

Disallow:http://www.hnanseo.com/1.html

屏蔽不参与排名的页面链接

比如会员中心、登陆界面、联系我们等。这些虽然有实际用途，蜘蛛一样会爬取这些页面链接，这些页面也会分权，因此为了集中权重，一些完全不参与排名的页面应该用robots屏蔽。也可以在该页面的</head>之前添加<meta>声明，指向该页面的链接加上nofollow标签。

sitemap索引在robots.txt的位置

sitamap索引的位置最好放在robots.txt的最下面，蜘蛛先遵循前面的原则，再按照网站地图爬取。

Sitemap: http://www.hnanseo.com/sitemap.xml

Sitemap: http://www.hnanseo.com/sitemap

这些内容是采集的,我们尊重原作者的所有版权.站内发布该内容仅供大家学习，请勿商用.如果有疑问请联系手机:[15736771259]

您阅读本篇文章共花了：

# SEO技术

什么是robots协议？robots.txt文件怎么写？

暂无评论

发表评论取消回复

标签列表

什么是robots协议？robots.txt文件怎么写？

暂无评论

发表评论 取消回复

标签列表

发表评论取消回复