• 欢迎来到老丁学习笔记

标签:SEO

python数据分析

利用gensim计算两个中文文档/字符串的相似度

利用gensim计算两个中文文档/字符串的相似度
背景:网站标题重复度非常严重,需要将重复标题提取出来,然后进行统一修改。 步骤: 1、从数据库中导出某个类目下的所有标题,title.txt; 2、从title.txt文件中,找出相似度为0.6以上的标题; 流程图: 结果如下所示: 注意:有重复值的出现。需要去重。 完整代码如下: Python ……继续阅读 »

laoding 2年前 (2017-10-05) 2个赞

python与seo

采集文章标题处理

采集文章标题处理
1、事先准备好一份类目的特征词表,这些特征词是需要加到新标题当中,例如:      语文ppt课件类目的特征词有:      年级:一年级、二年级、三年级….      高中、高一、高二、高三、高考      初中、初一、初二、初三、中考      版本:人教版、苏教版、浙教版….      (特征词可以选取更多类型) 2、从采集过来……继续阅读 »

laoding 2年前 (2017-09-27) 2个赞

python与seo

百度链接如何解码

百度链接如何解码
从日志“访问来源”中获取来自百度方面的链接,这些链接完全看不懂,并且有重定向和编码,如下图所示: https://www.baidu.com/baidu.php?sc.p13K00afhoYcwjS7PwEuRDTtBBQzVa51heijQ1uzSauZJMav29kdM4EkLSli5mrgtm_TETFo56t2GOxB7m_vowAoasyRftNF……继续阅读 »

laoding 2年前 (2017-09-26) 0个赞

python与seo

解决页面不收录方法:爬虫页上线效果记录

解决页面不收录方法:爬虫页上线效果记录
距爬虫页上线已有两周时间。 此前网站每天产生的新页面几乎不收录,此后针对搜索引擎爬虫单独为站点某一个类目下的页面做了一套爬虫页。几分钟前查询这个类目下的最近新页面的收录情况,惊喜地发现该类目下的页面竟然有日收! 本次查询页面总数:9783 收录的页面总数:480 收录率为:4.9% 虽然效果依然不理想,不过说明此前的猜想方向是正确的,可以继续后续操作。之后将……继续阅读 »

laoding 2年前 (2017-09-21) 0个赞

python与seo

记录页面不收录原因排查的过程

记录页面不收录原因排查的过程
每天产生的新页面收录一直很不理想,尝试了很多办法寻找原因,本文特地整理了一下整个排查原因的流程,如下图所示: 如上图所示,排查主要分为两个方面:1、爬虫抓取情况;2、页面自身问题; 一、对于爬虫抓取情况。 如果排查下来这方面出现问题的话,增加相应的页面的入口即可,这个相对来讲比较好解决; (相应的过程都可以写爬虫处理,日志统计可参考此前的文章:使用pyth……继续阅读 »

laoding 2年前 (2017-09-20) 0个赞

python与seo

[Python与SEO]日志分析:404状态码检测流程

[Python与SEO]日志分析:404状态码检测流程
上周网站突然间出现大量的404状态码(如下图所示),初步对这些404状态码表示怀疑,可能是冒充百度爬虫的再大量抓取,造成404。 今天开始对这几天的404状态码ip进行检测,整个流程图如下: 最后得到三个文本文件,分别记录404日志记录、百度爬虫404记录以及非百度爬虫404记录,如下图所示: 从文件大小看出,非百度爬虫访问记录占了巨大多数。然后将这些……继续阅读 »

laoding 2年前 (2017-09-12) 0个赞

python与seo

[SEO词库怎么建立]关于词库建设的问题整理

[SEO词库怎么建立]关于词库建设的问题整理
摘自:光年社区 一、词库的筛选与建立 建立一个几十万的词库很好说,但是针对这些词你是如何处理的呢?分类,去重,筛选,没有用的高频词,停止词,杂词,相似度,等等,你都是如何解决的? 道哥: 分类通常不做,因为精度不是很让人满意,分出一堆碎片分类看着头疼建立词库的过程中不断维护一个白名单和黑名单,抽取出强特征用于过滤高频词还有词性等通常不过滤,尤其是不需要抽取q……继续阅读 »

laoding 2年前 (2017-09-11) 0个赞