• 欢迎来到老丁学习笔记

记录页面不收录原因排查的过程

python与seo laoding 2年前 (2017-09-20) 645次浏览 0个评论

每天产生的新页面收录一直很不理想,尝试了很多办法寻找原因,本文特地整理了一下整个排查原因的流程,如下图所示:

记录页面不收录原因排查的过程

如上图所示,排查主要分为两个方面:1、爬虫抓取情况;2、页面自身问题;

一、对于爬虫抓取情况。

如果排查下来这方面出现问题的话,增加相应的页面的入口即可,这个相对来讲比较好解决;

(相应的过程都可以写爬虫处理,日志统计可参考此前的文章:使用python进行网站日志分析。大体都相同,只是查询新页面url路径)

二、页面本身问题较为复杂了。

1、标题/内容重复度过高。

如果标题/内容重复度过高,可以和内容部商量如何调整标题/内容格式来降低相似度。

(如何计算标题/内容的相似度,可参考此前的文章:计算页面相似度(jieba分词+余弦相似度公式)

2、页面质量?!

这过于玄乎,也无法用来度量。只能根据百度搜索引擎官方发布的有关页面质量的要点来调整自身的页面质量(参见之前的文章:百度搜索研发部:浅谈互联网页面价值),这就看老天爷了。

——————华丽的分割线—————-

想来想去也就这几点,或许以后会想到其他原因导致页面不收录,在更新吧。


老丁笔记,如未注明 , 均为原创,欢迎转载丨转载请注明记录页面不收录原因排查的过程
喜欢 (0)
发表我的评论
取消评论
表情 贴图 加粗 删除线 居中 斜体 签到

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址