推荐系统技术之文本相似性计算（三）

发布时间：2021-03-07 09:13:47 所属栏目：大数据来源：网络整理

导读：今天这篇也比较长，但中间有部分是代码，7，8，9最后三节的信息我认为较为有用。前面说了两篇了，推荐系统技术之文本相似性计算（一）和推荐系统技术 --- 文本相似性计算（二）分别介绍了 TFIDF 和向量空间的相关东西，然后介绍了主题模型，这一篇我们就

如果多的话，那只能先调一调主题个数，然后LDA里面有些个参数可以调调（算法工程师的价值所在啊）

还有一条路子就是把输入的数据尽可能的清洗干净，把无用的杂质去掉（算法工程师必备技能耐心和细心）

所以，不同的模型对于不同的场景是很重要的，根据你的场景选择合适的模型才能达到合适的效果。8. 写在后面的话这篇文章只是一个文本相似性的最最基本的文章，可以最直观的了解一下TFIDF模型和LDA模型，同时，也使用了目前最热的机器学习技术哦。其实，像LDA，以及word2vec这种模型，已经是被数学抽象得很强的模型了，和实际场景基本上已经脱离了，已经完全数学化了，所以其实不一定要用在文本处理上，在流量分析，用户行为分析上一样有用，这就是算法工程师要想的事情，一个好的算法如何用在现有的场景中。试想一下，如果我们想给我们的用户分个类，看看哪些用户兴趣比较相似。我们其实可以这么来做：

首先，如果我们有一堆用户的浏览行为数据，每一条数据记录了用户点击某个链接，或者点击了某个按钮。

把这些浏览行为按照用户维度进行合并，那么新数据中每一条数据就是一个用户的操作记录，按顺序就是他几点几分有什么行为。类似于用户A ：[浏览了a页面，点击了b按钮，浏览了c页面....]

好，如果我们发挥算法工程师的必备技能之一----想象力，那么我们把每个用户的行为当成一篇文章，每个行为数据当成一个词语，然后使用LDA.....呵呵这样算出来的主题，是不是就是用户的类别呢？有相似行为数据的用户会出现在相同的主题下，那么这样就把这些用户分类了，那么是不是可以理解为同样类别的下的用户有着相似的爱好呢？如果你觉得可行，可以拿你公司的用户数据试试，看看效果好不好：）9. 后面的后面的话最后，所有代码在github上，点击原文可以看得到，代码相当简单，整个不超过200行，核心的就是我上面列的那些，代码中也有word2vec的代码和使用，这篇文章就没提了，另外，爬取的文章就不放上来了，太大了，如果大家想要语料自己玩，可以上wiki百科，他们开放了他们的所有数据给全世界做语料分析，其中有中文的，地址是：https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2，但维基上中文语料并不多，中文语料多的是百度百科，但看看百度百科，呵呵，不但不开放，防爬虫跟防贼一样，呵呵，不过我也给大家个地址，100G的百度百科原始页面：http://pan.baidu.com/s/1i3wvfil，接头密码：neqs，由亚洲第二爬虫天王梁斌penny友情提供。好了，今天的文章有点长，就到这了，后面会把算法部分放一放，最近工作太忙，等这一段结束了，我会再说说算法部分，因为现在工作中会有一些比较好玩的算法要用，接下来的文章会主要谢谢系统架构方面的东西了，另外我自己的那个搜索引擎目前太忙没时间整，也要等一小段时间了，不好意思：）但放心，不会有头无尾啦。PS：题图是wiki百科，感谢他们无私的提供语料，顺便BS一下百度百科的封闭。

（编辑：核心网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

9/11

首页

尾页

2022年制造业七大趋向	大数据转型方式首推数
孩子的工程思维计算思	重建通天塔 Meta策划建