加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

推荐系统技术 --- 文本相似性计算(二)

发布时间:2021-03-06 16:15:27 所属栏目:大数据 来源:网络整理
导读:第一篇地址:推荐系统技术之文本相似性计算(一) 上一篇中我们的小明已经中学毕业了,今天这一篇继续文本相似性的计算。 首先前一篇不能解决的问题是因为我们只是机械的计算了词的向量,并没有任何上下文的关系,所以思想还停留在机器层面,还没有到更高的

用上述的计算出来的话0.0*0.5=0.0,而我们统计出来是0.5啊,这不对,我们再试试别的主题,比如T2,这么算出来0.33*0.5=0.165,也不对啊,但比T1好像要靠谱一点,那我们按照这个调整一下上面两个表格的数字吧,比如把那个0.0改成0.2之类的(具体怎么调?呵呵呵,靠说人话我说不出来了,看后面的链接吧)。

  • 这么一个一个词下来,上面两个表格就在不断更新,然后我们一遍一遍的循环迭代,直到上面两个表格能满足所有文档所有词要求了就结束了。放心,不会死循环的。这么一轮下来,就得到了两个表格了。这两个表格就是我们的LDA模型了。

  • 新来的文章我们要对这篇文章进行分类的话,先统计出P(W(词)|D(文章)),然后用P(W(词)|D(文章))去除以P(W(词)|T(主题)) ,就得到了这篇文章所属的每个主题的概率了。

  • 然后我们还可以把新文章也放进模型中继续训练,然后又得到一个更新了的表格,这样不断有文章进来,表格就不断变化了。好了,说完了,在没有一个公式的情况下我只能说到这了,实际的LDA还是有非常大的差距的,如果大家感兴趣,可以看看下面几篇文章:

  • http://www.52nlp.cn/%E8%BD%AC%E8%BD%BD-topic-modeling-made-just-simple-enough

  • http://emma.memect.com/t/9756da9a47744de993d8df13a26e04e38286c9bc1c5a0d2b259c4564c6613298/LDA 《LDA数学八卦》

  • http://yuedu.baidu.com/ebook/d0b441a8ccbff121dd36839a?pn=3&pa=3 《LDA漫游指南》

  • 如果你看了还是没有懂,或者你完全看不懂上面的文章,那么回头去看看高数,概率论吧,我只能帮到这了,但是不懂没关系,你也可以玩LDA,我后面的文章会有工程化的例子,不用懂也行。主题模型除了LDA还有很多其他的,比如LSI,虽然最后结果也比较靠谱,但是他的可解释性就不强了,我也没法用说人话的方式描述出来了。主题模型这种东西是基于大规模的语料的情况下才有效果,而且主题的设定个数也是个经验值,据传说300个主题是个比较合适的值,但是具体合适不合适需要根据你自己的情况是测试,然后找到一个你认为合适的主题数。2. 词向量 最后简单的说一下目前也用得比较多的词向量,就是word2vector了,光有了主题模型很多人还是不满足,他们还想知道词与词之间的关系,人为的表示也就是近义词了,但是词向量能解决的可远远不是近义词同义词了,比如给一堆微博的语料丢给word2vec来训练,他可以找出来范冰冰李晨这两个词有关系,然后我们发挥一下,如果你有个推荐系统,按照文本相关性去推荐内容,发现没有太相关的推荐结果,这时候你就可以用word2vec扩展你的词了,然后用扩展的词去推荐东西了,比如用范冰冰的新闻推荐出李晨的新闻来,当然这只是举个例子啊,我暂时还没看到有地方这么来做推荐。词向量也就是用一个向量来表示一个词,比如一个词北京,还有三个维度分别是大学,北方,首都,我们把北京用向量表示成[0,9,0.5,1],那么这个词有3个维度,这三个维度的意义是什么呢?可以解释成北京这个词啊是大学的概率是0.6,他在北方的概率是0.5,他是首都的概率是1,是不是和上面的分类很相似啊,如果每个词都可以这么表示的话,那么两个词之间的相似度就是这两个向量之间的距离了,和上一篇的向量空间一样,那么如何来求一个词的向量呢?其实也可以按照上面的LDA的方式分类来求,呵呵,但我们不这么来。还是按照上面那个例子来看看,你看到范冰冰这个词,为什么你觉得他和李晨会相似呢?我们知道的是他们是夫妻所以才相似,为什么知道他们是夫妻呢?因为新闻的文章中这两个词老是出现在一起,要不就是在一句话中或者在一段话中,所以冥冥之中我们觉得他们是有相似性的,好吧,就是这个冥冥之中怎么让机器知道,有个东西叫神经网络,最会冥冥之中,因为他冥冥之中想出来的东西你解释不了,但又好像也能说得过去。好,那么我们来看看机器怎么弄的。

  • (编辑:核心网)

    【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

  • 热点阅读