推荐系统技术之文本相似性计算（三）

发布时间：2021-03-07 09:13:47 所属栏目：大数据来源：网络整理

导读：今天这篇也比较长，但中间有部分是代码，7，8，9最后三节的信息我认为较为有用。前面说了两篇了，推荐系统技术之文本相似性计算（一）和推荐系统技术 --- 文本相似性计算（二）分别介绍了 TFIDF 和向量空间的相关东西，然后介绍了主题模型，这一篇我们就

技术的测试文章TFIDF结果（前10结果中随机选3个）

用golang写一个搜索引擎（0x06）索引那点事[搜索引擎] sphinx 的介绍和原理探索

很明显，结果基本都比较靠谱，第一个基本是说宝马车的，第二个基本都在说搜索引擎和索引。我们再看看LDA的结果，LDA的主要功能是文本分类而不是关键词的匹配，就是看测试文章分类分得对不对，我们这里基本上是两类文章，一类技术文章，一类汽车文章，所以我们通过找和测试文章最相似的文章，然后看看找出来最相似的文章是不是正好都是技术类的或者汽车类的，如果是，表示模型比较好。

汽车的测试文章LDA结果(前10结果中随机选3个)

编辑心中最美中级车一汽-大众新cc25万时尚品质4款豪华紧凑车之奔驰a级iphone手机html5上传图片方向问题解决

技术的测试文章LDA结果（前10结果中随机选3个）

java 多线程核心技术梳理(附源码)springsession原理解析并发中的锁文件模式从结果看，基本比较靠谱，但汽车那个出现了一个badcaseiphone手机html5上传图片方向问题解决，这是篇技术文章，但是出现在了汽车类上面。7. 结果分析我们来分析一下这个结果，对于TFIDF模型，在现有数据集(12000篇文章)的情况下，推荐结果强相关，让人觉得推荐结果很靠谱，这也是TFIDF这种算法简单有效的地方，他把文章中的关键词很好的提取出来了，所以推荐的结果让人觉得强相关，但是他也有自己的问题。

对于比较短的文章(比如微博这类的)，由于文本太短了，TFIDF比较难提取出重要的关键词或者提取得不对，导致推荐结果不靠谱。

单纯以词频来说明这个词的重要性感觉不全面，比如这篇文章，人类来看的话应该是文本相似性最重要，但有可能按TFIDF算出来是模型这个词最重要。

对于纯文本的推荐系统来说，这种文本相关性的推荐可能比较适合垂直类的网站，比如像SegmentFault这种，看某篇文章的人很可能希望看到类似的文章，更深入的了解这个领域，这种算法比较靠谱，不过据我观察，SegmentFault是使用的标签推荐，这种推荐效果更好，但人为因素更多点，要是写文章的时候随便打标签就比较麻烦了。再来看看LDA模型，LDA主要用在文本聚类上，而且他的基础是主题，如果把他作为推荐系统的算法来使用，要看具体场景，他的推荐结果在数据样本不太够的情况下，可能看上去不太靠谱(即便样本大可能也看上去不太好)，显得粒度很粗，但正因为很粗，所以比较适合做内容发现，比如我对数码新闻感兴趣，这种感兴趣不仅仅是只对iphone感兴趣，只要是数码这个主题的我都感兴趣，所以用LDA可以很好的给我推荐数码这个主题下的东西，这比正在看iphone的文章，下面全是iphone的文章要靠谱多了。LDA出现上一节的哪种badcase的时候怎么办呢？因为基本不太可能改模型，那么只能从几个方面入手。

如果只是偶尔的一两个，可以选择忍了。

（编辑：核心网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

7/11

首页

尾页

2022年制造业七大趋向	大数据转型方式首推数
孩子的工程思维计算思	重建通天塔 Meta策划建