加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

推荐系统技术之文本相似性计算(三)

发布时间:2021-03-07 09:13:47 所属栏目:大数据 来源:网络整理
导读:今天这篇也比较长,但中间有部分是代码,7,8,9最后三节的信息我认为较为有用。 前面说了两篇了,推荐系统技术之文本相似性计算(一)和推荐系统技术 --- 文本相似性计算(二)分别介绍了 TFIDF 和向量空间的相关东西,然后介绍了 主题模型 ,这一篇我们就
副标题[/!--empirenews.page--]

今天这篇也比较长,但中间有部分是代码,7,8,9最后三节的信息我认为较为有用。前面说了两篇了,推荐系统技术之文本相似性计算(一)和推荐系统技术 --- 文本相似性计算(二)分别介绍了TFIDF和向量空间的相关东西,然后介绍了主题模型,这一篇我们就来试试这两个东西。词向量就不在这篇试了,词向量和这两个关系不大,不好对比,不过我最后也给出了代码。

0. 工具准备

工欲善其事,必先利其器,那么我们先来利其器,这里我们使用的是python的gensim工具包,地址是:https://radimrehurek.com/gensim/index.html,这个工具包很强大,我就不一一介绍了,反正我们需要的功能都有,而且我们用得很简单,它还可以分布式部署,感兴趣可以去官网看具体介绍。为什么不自己写?这个问题....呵呵.....呵呵....我写不出来.....至于安装,需要先安装python 2.6以上(废话),NumPy 1.3以上,SciPy 0.7以上,后两个是python的科学计算的包。easy_install很容易搞定,这里就不废话了,windows上安装可能有点困难,但我很久没用过windows了,我电脑上安装很轻松,三四个命令搞定,可以去看gensim的官方文档,上面也有怎么安装,如果你装都装不上,那就google,百度,总有解决办法。除了gensim,还有个分词的包需要装一下,就是jieba分词,这个也很容易装。1. 数据准备

数据准备可是个技术活,我的职业操守很高,没有用公司的数据,那只能自己找数据了,如果直接找网上的语料,显得太Low了。于是我自己爬了一些数据。首先,我瞄准了目前一个技术网站,然后瞄准了一个汽车网站,于是开始爬数据,自己写了个爬虫开始爬数据,恩,我的爬虫我觉得还可以,调度器+爬取器组成,爬取器插件话,可以使用任意语言做编写,甚至可以直接对接chrome爬取纯JS单页面网站爬取,也支持代理池,如果大家感兴趣我也可以说说爬虫相关的东西,分布式的哦,可以随便加机器增加爬取能力。好了,爬了两个网站,中途各种坑就不表了,可以开始干活了,爬两个类型的网站是为了说明后面LDA主题模型,大家就有个认识了。2. 数据清理

数据爬下来后,要做的就是数据清洗工作了,我之前有一篇搞机器学习要哪些技能说了,数据的清理是一个算法工程师的必备技能,如果没有好的数据,算法怎么好都没用。拿到数据以后,写个脚本

  • 首先把标题,作者,时间之类的提取出来,通过正则也好,xpath也好,都很容易把这些东西提取出来。

  • (编辑:核心网)

    【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读