加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

推荐系统技术之文本相似性计算(三)

发布时间:2021-03-07 09:13:47 所属栏目:大数据 来源:网络整理
导读:今天这篇也比较长,但中间有部分是代码,7,8,9最后三节的信息我认为较为有用。 前面说了两篇了,推荐系统技术之文本相似性计算(一)和推荐系统技术 --- 文本相似性计算(二)分别介绍了 TFIDF 和向量空间的相关东西,然后介绍了 主题模型 ,这一篇我们就

如果多的话,那只能先调一调主题个数,然后LDA里面有些个参数可以调调(算法工程师的价值所在啊)

  • 还有一条路子就是把输入的数据尽可能的清洗干净,把无用的杂质去掉(算法工程师必备技能耐心和细心

  • 所以,不同的模型对于不同的场景是很重要的,根据你的场景选择合适的模型才能达到合适的效果。8. 写在后面的话 这篇文章只是一个文本相似性的最最基本的文章,可以最直观的了解一下TFIDF模型和LDA模型,同时,也使用了目前最热的机器学习技术哦。其实,像LDA,以及word2vec这种模型,已经是被数学抽象得很强的模型了,和实际场景基本上已经脱离了,已经完全数学化了,所以其实不一定要用在文本处理上,在流量分析,用户行为分析上一样有用,这就是算法工程师要想的事情,一个好的算法如何用在现有的场景中。试想一下,如果我们想给我们的用户分个类,看看哪些用户兴趣比较相似。我们其实可以这么来做:

  • 首先,如果我们有一堆用户的浏览行为数据,每一条数据记录了用户点击某个链接,或者点击了某个按钮。

  • 把这些浏览行为按照用户维度进行合并,那么新数据中每一条数据就是一个用户的操作记录,按顺序就是他几点几分有什么行为。类似于用户A :[浏览了a页面,点击了b按钮,浏览了c页面....]

  • 好,如果我们发挥算法工程师的必备技能之一----想象力,那么我们把每个用户的行为当成一篇文章,每个行为数据当成一个词语,然后使用LDA.....呵呵这样算出来的主题,是不是就是用户的类别呢?有相似行为数据的用户会出现在相同的主题下,那么这样就把这些用户分类了,那么是不是可以理解为同样类别的下的用户有着相似的爱好呢?如果你觉得可行,可以拿你公司的用户数据试试,看看效果好不好:)9. 后面的后面的话 最后,所有代码在github上,点击原文可以看得到,代码相当简单,整个不超过200行,核心的就是我上面列的那些,代码中也有word2vec的代码和使用,这篇文章就没提了,另外,爬取的文章就不放上来了,太大了,如果大家想要语料自己玩,可以上wiki百科,他们开放了他们的所有数据给全世界做语料分析,其中有中文的,地址是:https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2,但维基上中文语料并不多,中文语料多的是百度百科,但看看百度百科,呵呵,不但不开放,防爬虫跟防贼一样,呵呵,不过我也给大家个地址,100G的百度百科原始页面:http://pan.baidu.com/s/1i3wvfil,接头密码:neqs,由亚洲第二爬虫天王梁斌penny友情提供。好了,今天的文章有点长,就到这了,后面会把算法部分放一放,最近工作太忙,等这一段结束了,我会再说说算法部分,因为现在工作中会有一些比较好玩的算法要用,接下来的文章会主要谢谢系统架构方面的东西了,另外我自己的那个搜索引擎目前太忙没时间整,也要等一小段时间了,不好意思:)但放心,不会有头无尾啦。PS:题图是wiki百科,感谢他们无私的提供语料,顺便BS一下百度百科的封闭。


    (编辑:核心网)

    【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

  • 热点阅读