大家好,我是冯耀宗,今天百度资源平台官方直播了一节公开课,主要是和大家说说网站抓取和收录的一个原理,这里我给大家做了详细的笔记(一字不漏),看完以后,可以说做收录基本上不是什么大问题了。如果说文字版的笔记你看不懂,没关系,加我微信(394062665),我有录制视频的。

百度爬虫工作原理

首先百度的抓取器会和网站的首页进行交互,拿到网站首页之后会对页面进行理解,理解包含(类型、价值计算),其次会把网站首页的所有超链接提取出来。如下图所示,首页的超链接被称为“后链”,等到下一轮抓取的时候,抓取器会继续和这些超链接的页面进行交互,拿到页面进行提炼,依次不断一层一层的抓取,这就构成了抓取环路。

网站收录及抓取建设指南(百度官方公开课)  第1张网站收录及抓取建设指南(百度官方公开课)  第2张网站收录及抓取建设指南(百度官方公开课)  第3张网站收录及抓取建设指南(百度官方公开课)  第4张网站收录及抓取建设指南(百度官方公开课)  第5张网站收录及抓取建设指南(百度官方公开课)  第6张网站收录及抓取建设指南(百度官方公开课)  第7张网站收录及抓取建设指南(百度官方公开课)  第8张

首先用简单的方法,我们可以通过百度的UA来识别出百度爬虫,那么目前来讲百度PC、移动、和小程序是三个不同的UA,那么通过简单的识别方法,有出现有第三方的爬虫模拟百度爬虫,导致你识别不出来。那么这个时候,咱们可以通过双向DNS解析认证来区分,具体参考《轻松两步:教你快速识别百度蜘蛛》。

问答环节

Q:新站会不会有一个的抓取限制?

A:对于任何一个新站来讲,都没有抓取限制,不过去年开始,我们已经开始对新站有一个扶持,让你的网站,先在百度上收录起来。然后再进行一个价值判断,那么如何让百度知道你是一个新站,有两个捷径,第一个是去百度资源平台提交,第二个点是去工信部做ICP的备案,我们可以从工信部拿到ICP备案的数据,备案之后我们就知道有人建了一个新的站点,这样就可以给新站一个基础的流量扶持。

Q:每个站点蜘蛛抓取的配额都会有调整,大概多久调整一次?

A:确实会有调整,对于新资源会与你抓取频率相关,对于旧资源会与你内容质量相关,如果说新资源的质量有变化,那么抓取频率也会有变化,网站的规模有变化,那么抓取的频率也会有变化,如果说有很大的改版,那么抓取频率相对而言也会有变化。

Q:网站降权能不能恢复?

A:网站降权恢复的前提是我们会对网站进行重新评估,查看网站是不是有整改,如果有整改是不是做了404,并且有提交到资源平台,如果说完全符合要求后,搜索引擎会经过评估后,对没有违规的网站进行恢复。

Q:新站点是不是有考核期?

A:对我们来讲是没有一个考核期这么一个东西,我们前面也讲到了,竟可能会对新站的一个流量扶持,假设一个新站点流量扶持1-2个月以后,发现网站继续保持这种状态,那么就不会有一个太大的调整,当发现网站质量有明显的提升,那么我们也会相应的提升百度排名。

Q:百度对外国的服务器和国内的服务器有没有区别对待?

A:策略角度上来件,没有硬性区别对待,但是很多外国的服务器对国内部分区域封禁,以及国外服务器网站备案的角度上来讲,国内的服务器都具有优势。

Q:新站旧域名是不是更有优势?

A:如果说老域名和新站是相同的内容,确实在起步阶段有一定的优势,但仅仅是起步阶段,后期还是要看内容的质量,特别要注意的是,如果说老域名的行业和你新网站的内容不相关,即使是所谓高权重的老域名,也会适得其反。百度会认为你今天做这个,明天做那个,效果还不如重新做一个新域名。

Q:蜘蛛是不是有权重之分,比如220和116这种高权重蜘蛛?

A:蜘蛛是没有权重之分的,网站的排名最主要是取决于网站的质量。