• 欢迎来到老丁学习笔记

laoding的文章

python数据分析

在excel表中随机抽取4000行数据

在excel表中随机抽取4000行数据
在excel表中随机抽取4000行数据,假设excel表中sheet1中有8000行数据,从A列到C列,操作步骤: 1、在sheet2中A列中,输入 =rand(),向下填充8000行; 2、在sheet2中b列中,输入 =rank(a1,$a$1:$a$8000),向下填充4000行;(需要随机抽取多少行数据,就向下填充多少行) 3、在sheet2中c列……继续阅读 »

2年前 (2017-10-16) 2个赞

python数据分析

利用gensim计算两个中文文档/字符串的相似度

利用gensim计算两个中文文档/字符串的相似度
背景:网站标题重复度非常严重,需要将重复标题提取出来,然后进行统一修改。 步骤: 1、从数据库中导出某个类目下的所有标题,title.txt; 2、从title.txt文件中,找出相似度为0.6以上的标题; 流程图: 结果如下所示: 注意:有重复值的出现。需要去重。 完整代码如下: Python ……继续阅读 »

2年前 (2017-10-05) 3个赞

python数据分析

windows下python3安装scipy总是失败

windows下python3安装scipy总是失败
安装scipy,总是提示:Failed building wheel for scipy。(解决方法转自知乎)原因是scipy要依赖于numpy和其他的很多库(如LAPACK/BLAS),但这些库在windows下并不是可以简单获取的。 解决方式: 1、卸载此前安装好的numpy(如果此前安装的是包括MKL库的numpy,这不就跳过) 卸载命令是:pip u……继续阅读 »

2年前 (2017-10-05) 0个赞

python数据分析

jieba中文分词词性/解释对照表

jieba中文分词词性/解释对照表
使用jieba中文分词之后,获取每个词的词性发现有些字母简写的词性不认识,搞不清楚是什么意思?下面是转来的中文分词词性/解释对照表,粗粗地看了下,基本上涵盖了jieba分词后得到的词性,如下表: 词性编码 词性名称 注 解 Ag 形语素 形容词性语素。形容词代码为 a,语素代码g前面置以A。 a 形容词 取英语形容词 adjectiv……继续阅读 »

2年前 (2017-10-02) 0个赞