- N +

百度人员的一些回答

文章目录 [+]

百度内部产品的网页收录,不是由百度爬虫进行抓取,而是直接提交结构化数据。


百度产品也想要从其它搜索引擎获取流量。


2. From PM@百度知道


百度的几个流量产品,其流量的SEO占比极其高。


百度的产品也想方设法从百度搜索获取更多流量。


之所以目前SERP上多数百度知道的结果下面都有相关问题链接,这和一些人想象当中相反,是百度在打压百度知道。因为本来百度知道很多时候在SERP可以占据多条搜索结果,现在很多情况下被并为一条。



3. From RD@大搜索-基础排序


百度判断网页的层级关系,主要依赖于面包屑导航。


竞价与自然搜索是完全分开的两块,彼此拿不到对方的数据。


百度的流量产品想获取更多百度SEO流量十分简单,只要内部调整一下权重值。


在基础排序的角度看来,多数页面的相关性都一样——标题有关键词、内容有关键词...所以在这种情况下会依赖于站点的权重、用户行为数据来决定最终排名。



4.From RD@大搜索-爬虫(通过他人间接沟通)


对于单IP多子域名,百度会提取一个子域名作为核心,重点抓取。其余均视为*.xxx.com,近似平均分配抓取。


抓取限制的策略比较复杂,总体而言抓取以抓取总量为上限。



6. From RD@大搜索-爬虫(另一人)


哪怕总体而言抓取以抓取总量为上限,因为规则不是单一的,因此加快网页加载速度让每个页面抓取更快的话,总抓取量还是会上升。


作者:huchao
未来永远在它该来的路上,能够把握的只是此时此刻——万折必东
返回列表
上一篇:
下一篇:
评论列表 (暂无评论,共482人参与)参与讨论

还没有评论,来说两句吧...

发表评论中国互联网举报中心

快捷回复: