位置:首页 > 资讯大全 > 网络营销> 干货!SEO优化上线前的准备,robots写法

干货!SEO优化上线前的准备,robots写法

发布时间:2018-10-30 13:27:04

文章来源:www.ziyuanm.com

访问次数:

我相信SEO的朋友们,都知道机器人文件的根目录,要写好协议才上网。

robots是什么呢?

当百度蜘蛛访问一个网站时,它将首先检查站点根目录下是否有一个名为robots.txt的纯文本文件(蜘蛛爬行的第一个文件)。此文件用于引用网站上蜘蛛爬行的范围。

如果不对robots.txt文件进行任何更改,蜘蛛将在爬行时在后台爬行。包括你的JS和CSS文件就等于在蜘蛛面前说你的网站是透明的。

在后台爬行,后果是什么?一些不明白的朋友可能会问。

如果蜘蛛爬行你的网站后台,然后包括网站的后台地址。

那么在百度搜索,搜索引擎可能是你的背景搜索出来,后果是可以想象的。一个小小的黑客技术朋友,几分钟后进入你的后台,这不可怕吗?

robots一般格式

用户代理:*定义被禁止的搜索引擎名称。百度(百度)、谷歌(Googlebot)、360(360天)等等。

*号代表全部搜索引擎

Disallow:不允许抓取收录

例子:背景名是Dede,所以我不希望蜘蛛访问就像这样:/dede/

“/“ “/ “精准匹配

“/ “ 广泛匹配

“$“ 匹配行结束符

“*“ 匹配0或多个任意字符

允许(允许抓取,一般不写,默认是好的,当然有特殊的要求写)

#:注释

升级知识

屏蔽目录禁止抓取

屏幕蜘蛛抓取Inc文件夹下的根目录和index.html文件下WAP目录下根目录的所有内容。

robots.txt写法:

User-agent: *

不允许:/inc/(防止从Inc文件夹中获取内容)

禁用:/wap/index.html(禁止WAP目录中的index.html文件)

屏蔽某个目录,但要抓取目录下的某个文件

1.屏蔽所有蜘蛛以获取根目录中的wap文件夹,但获取带有后缀html的文件。

robots.txt写法:

User-agent: *

不允许:/wap/(防止从wap文件夹中获取内容)

允许:/wap/*。HTML(允许在wap下获取html文件)

2.禁止获取根目录中所有带有“wap”字符的文件夹和文件,我们需要在这里使用这些字符(/WAP)。

User-agent: *

不允许:/wap(一个“/”)

3.保护隐私文件夹或文件

同时,它还公开了网站的目录结构,并对后台管理系统、后台等进行了猜测。(这基本上不适用于网站),我们可以用一个宽的文本来保护重要的文档。

例如:禁用爬行/inli,可以按如下方式编写,当然,如果在根目录中没有这些字符在文件夹中或文件中供蜘蛛抓取。

User-agent: *

Disallow:/inli

屏蔽动态URL

有时,动态页面可能与静态页面相同,从而导致重复包含。(影响蜘蛛的友好性)

屏蔽动态URL

User-agent:*

Disallow:/*?*

仅允许访问“.html”为后缀的URL

User-agent:*

Allow:.html$

Disallow:/

屏蔽死链接

向提交百度站长平台提交死链

机器人禁止蜘蛛抓取死链。

User-agent:*

Disallow:(网站域名)

屏蔽不参与排名的页面链接

写法:

向不需要排名的页面的链接中直接添加NOWELW注释

<a rel=“no追随者”href=Address</a>

Sitemap指数在robots.txt中的定位

Sitamap最好放在robots.txt的底部,蜘蛛遵循前面的规则。

Sitemap:“网站地址”+“sitemap.xml”

Sitemap:“网站地址”+“sitemap.html”

关于文章《 干货!SEO优化上线前的准备,robots写法》特别声明

《 干货!SEO优化上线前的准备,robots写法》更新日期为:2023-12-22 09:45:39;目前浏览的小伙伴达到资源猫所有作品(图文、音视频以及网站收录)均由用户自行上传分享,仅供网友学习交流,想了解查找更多资源网站可以直接搜索查询。若您的权利被侵害,请联系 1989984319@qq.com