• 欢迎来到老丁学习笔记

在excel表中随机抽取4000行数据

在excel表中随机抽取4000行数据
在excel表中随机抽取4000行数据,假设excel表中sheet1中有8000行数据,从A列到C列,操作步骤: 1、在sheet2中A列中,输入 =rand(),向下填充8000行; 2、在sheet2中b列中,输入 =rank(a1,$a$1:$a$8000),向下填充4000行;(需要随机抽取多少行数据,就向下填充多少行) 3、在sheet2中c列……继续阅读 »

laoding 2年前 (2017-10-16) 1个赞

利用gensim计算两个中文文档/字符串的相似度

利用gensim计算两个中文文档/字符串的相似度
背景:网站标题重复度非常严重,需要将重复标题提取出来,然后进行统一修改。 步骤: 1、从数据库中导出某个类目下的所有标题,title.txt; 2、从title.txt文件中,找出相似度为0.6以上的标题; 流程图: 结果如下所示: 注意:有重复值的出现。需要去重。 完整代码如下: Python ……继续阅读 »

laoding 2年前 (2017-10-05) 2个赞

windows下python3安装scipy总是失败

windows下python3安装scipy总是失败
安装scipy,总是提示:Failed building wheel for scipy。(解决方法转自知乎)原因是scipy要依赖于numpy和其他的很多库(如LAPACK/BLAS),但这些库在windows下并不是可以简单获取的。 解决方式: 1、卸载此前安装好的numpy(如果此前安装的是包括MKL库的numpy,这不就跳过) 卸载命令是:pip u……继续阅读 »

laoding 2年前 (2017-10-05) 0个赞

jieba中文分词词性/解释对照表

jieba中文分词词性/解释对照表
使用jieba中文分词之后,获取每个词的词性发现有些字母简写的词性不认识,搞不清楚是什么意思?下面是转来的中文分词词性/解释对照表,粗粗地看了下,基本上涵盖了jieba分词后得到的词性,如下表: 词性编码 词性名称 注 解 Ag 形语素 形容词性语素。形容词代码为 a,语素代码g前面置以A。 a 形容词 取英语形容词 adjectiv……继续阅读 »

laoding 2年前 (2017-10-02) 0个赞

解决windows下python3安装NLTK扩展包下载很慢出错

解决windows下python3安装NLTK扩展包下载很慢出错
网站上有很多安装nltk的方法,但是基本上都是针对py2的,针对于py3来讲,网上分享的nltk_data包对py3都不兼容。下面分享的nltk_data包最新的,亲测兼容python3。 原分享地址是:https://github.com/nltk/nltk_data,里面的packages就是我们想要找到的nltk_data,将packages下载下来,……继续阅读 »

laoding 2年前 (2017-10-01) 4个赞

[亲测有效]notepad++如何删除去掉空行,有图有真相

[亲测有效]notepad++如何删除去掉空行,有图有真相
使用notepad++过程中,遇到文本中间有非常多的空行,手工去删除太费时,由于notepad++支持正则表达式,所以可以利用正则表达式来替换删除去掉空行; 【亲测有效】方法一: 1、ctrl+h,弹出“替换”框; 2、选择“查找模式”-“正则表达式”; 3、在“查找目标”中输入正则 ^\s+ 4、点击”全部替换“即可; 方法二:删除空行(不包括有空格类符……继续阅读 »

laoding 2年前 (2017-08-17) 0个赞