-
06-26
-
06-26
-
06-26
-
06-30
-
11-25
干货!SEO优化上线前的准备,robots写法
发布时间:2018-10-30 13:27:04
文章来源:www.ziyuanm.com
访问次数:
我相信SEO的朋友们,都知道机器人文件的根目录,要写好协议才上网。
robots是什么呢?
当百度蜘蛛访问一个网站时,它将首先检查站点根目录下是否有一个名为robots.txt的纯文本文件(蜘蛛爬行的第一个文件)。此文件用于引用网站上蜘蛛爬行的范围。
如果不对robots.txt文件进行任何更改,蜘蛛将在爬行时在后台爬行。包括你的JS和CSS文件就等于在蜘蛛面前说你的网站是透明的。
在后台爬行,后果是什么?一些不明白的朋友可能会问。
如果蜘蛛爬行你的网站后台,然后包括网站的后台地址。
那么在百度搜索,搜索引擎可能是你的背景搜索出来,后果是可以想象的。一个小小的黑客技术朋友,几分钟后进入你的后台,这不可怕吗?
robots一般格式
用户代理:*定义被禁止的搜索引擎名称。百度(百度)、谷歌(Googlebot)、360(360天)等等。
*号代表全部搜索引擎
Disallow:不允许抓取收录
例子:背景名是Dede,所以我不希望蜘蛛访问就像这样:/dede/
“/“ “/ “精准匹配
“/ “ 广泛匹配
“$“ 匹配行结束符
“*“ 匹配0或多个任意字符
允许(允许抓取,一般不写,默认是好的,当然有特殊的要求写)
#:注释
升级知识
屏蔽目录禁止抓取
屏幕蜘蛛抓取Inc文件夹下的根目录和index.html文件下WAP目录下根目录的所有内容。
robots.txt写法:
User-agent: *
不允许:/inc/(防止从Inc文件夹中获取内容)
禁用:/wap/index.html(禁止WAP目录中的index.html文件)
屏蔽某个目录,但要抓取目录下的某个文件
1.屏蔽所有蜘蛛以获取根目录中的wap文件夹,但获取带有后缀html的文件。
robots.txt写法:
User-agent: *
不允许:/wap/(防止从wap文件夹中获取内容)
允许:/wap/*。HTML(允许在wap下获取html文件)
2.禁止获取根目录中所有带有“wap”字符的文件夹和文件,我们需要在这里使用这些字符(/WAP)。
User-agent: *
不允许:/wap(一个“/”)
3.保护隐私文件夹或文件
同时,它还公开了网站的目录结构,并对后台管理系统、后台等进行了猜测。(这基本上不适用于网站),我们可以用一个宽的文本来保护重要的文档。
例如:禁用爬行/inli,可以按如下方式编写,当然,如果在根目录中没有这些字符在文件夹中或文件中供蜘蛛抓取。
User-agent: *
Disallow:/inli
屏蔽动态URL
有时,动态页面可能与静态页面相同,从而导致重复包含。(影响蜘蛛的友好性)
屏蔽动态URL
User-agent:*
Disallow:/*?*
仅允许访问“.html”为后缀的URL
User-agent:*
Allow:.html$
Disallow:/
屏蔽死链接
向提交百度站长平台提交死链
机器人禁止蜘蛛抓取死链。
User-agent:*
Disallow:(网站域名)
屏蔽不参与排名的页面链接
写法:
向不需要排名的页面的链接中直接添加NOWELW注释
<a rel=“no追随者”href=Address</a>
Sitemap指数在robots.txt中的定位
Sitamap最好放在robots.txt的底部,蜘蛛遵循前面的规则。
Sitemap:“网站地址”+“sitemap.xml”
Sitemap:“网站地址”+“sitemap.html”