• 欢迎来到老丁学习笔记

解决页面不收录方法:爬虫页上线效果记录

python与seo laoding 2年前 (2017-09-21) 784次浏览 0个评论

爬虫页上线已有两周时间。

此前网站每天产生的新页面几乎不收录,此后针对搜索引擎爬虫单独为站点某一个类目下的页面做了一套爬虫页。几分钟前查询这个类目下的最近新页面的收录情况,惊喜地发现该类目下的页面竟然有日收!

本次查询页面总数:9783

收录的页面总数:480

收录率为:4.9%

虽然效果依然不理想,不过说明此前的猜想方向是正确的,可以继续后续操作。之后将本次查询页面的标题采集下来,发现一个非常严重的问题:标题重复度非常高!并且有一批页面标题竟然是一模一样的。

解决页面不收录方法:爬虫页上线效果记录

之后的优化流程,按照上图所示,一步步实验、观察、调整、再观察。


老丁笔记,如未注明 , 均为原创,欢迎转载丨转载请注明解决页面不收录方法:爬虫页上线效果记录
喜欢 (0)
发表我的评论
取消评论
表情 贴图 加粗 删除线 居中 斜体 签到

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址