设为首页 - 加入收藏 华夏网 (http://www.hxwgxz.com)- 云主机,资讯,互联网,人工智能,云计算,大数据,区块链,VR,站长网!
热搜: 2019 google 中国 2020
当前位置: 主页 > 大数据 > 正文

推荐系统技术 --- 文本相似性计算(二)

发布时间:2021-03-06 16:15 所属栏目:[大数据] 来源:网络整理
导读:第一篇地址:推荐系统技术之文本相似性计算(一) 上一篇中我们的小明已经中学毕业了,今天这一篇继续文本相似性的计算。 首先前一篇不能解决的问题是因为我们只是机械的计算了词的向量,并没有任何上下文的关系,所以思想还停留在机器层面,还没有到更高的

第一篇地址:推荐系统技术之文本相似性计算(一)上一篇中我们的小明已经中学毕业了,今天这一篇继续文本相似性的计算。首先前一篇不能解决的问题是因为我们只是机械的计算了词的向量,并没有任何上下文的关系,所以思想还停留在机器层面,还没有到更高的层次上来,正因为这样才有了自然语言处理这门课程了。今天我们稍微说说这个吧,后台留言很多朋友对这方面感兴趣,因为自然语言处理实在不是一篇文章就能说清的,而且我水平也非常有限,我本身是个工程人员,自然语言处理这么高深的东西没怎么弄过,我14年10月左右的时候我老大要我补一下这方面的理论才开始看这方面的东西,后来由于换工作的原因也断了一截,不是时时刻刻都在学这个,还有很多其他工作要做,但也还算比较连续吧,而且有一些朋友同事可以请教,不是一个人瞎搞,这已经比很多人好了。但即使是这样只能说还没有入门,或者说刚刚看到门,还没找到钥匙。下面我说说我尝试过的模型吧,其他更高深的东西我也没用过,要写也能喷一下,但我觉得那就没意义了。

1. 主题模型(Topic Model)

主题模型是目前也比较流行的文本分类的方法了,他主要解决的是文章的分类问题,就是这篇文章属于哪个类别。如何来对文章进行分类呢?如果按照之前的算法,我们可以把每篇文章的关键词都提取出来,然后按照关键词进行分类,把文章分到每个类别中,但是,那样显得不太高端,我们来想想这么一个情况,就是你是如何写这篇文章的?比如我目前写的这篇文章文本相似性的计算,一般的思路是这样的。

  • 首先,你想好题目以后会想一些提纲,比如我想我会写一下主题模型,然后写词向量,这两个就是我的主题了。

  • 然后,我开始写了,写主题模型的时候,我的一些词语都是和主题模型相关的,比如LDA分类主题概率啊等等,然后写词向量的时候也会有这么一些词,这些就是主题下的词语。

  • 最后,我就是按照上面的两条规则把文章写完了。

如何让以计算机的思维来按这个规则写作呢?

  • 首先,定两个主题,然后把每个词都分到某一个主题下

  • 开始写作的时候就是先找个主题,然后在主题下找个词,然后写出来

  • 【免责声明】本站内容转载自互联网,其相关言论仅代表作者个人观点绝非权威,不代表本站立场。如您发现内容存在版权问题,请提交相关链接至邮箱:bqsm@foxmail.com,我们将及时予以处理。

  • 网友评论
    推荐文章