加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

服务产品(商品)评论中的产品特征挖掘方法

发布时间:2021-01-20 09:55:13 所属栏目:大数据 来源:网络整理
导读:也是好久没写博客了,前段时间一直在找工作,没有做什么实质性的工作。最近工作也定下了,百度流量质量控制部的反作弊算法团队,不算是百度的什么土豪团队,但是99%以上的流量收入都是要从这个团队过一遍的,团队资历实力可见一斑。 好了不吹b了,说说这个阶
副标题[/!--empirenews.page--]

也是好久没写博客了,前段时间一直在找工作,没有做什么实质性的工作。最近工作也定下了,百度流量质量控制部的反作弊算法团队,不算是百度的什么土豪团队,但是99%以上的流量收入都是要从这个团队过一遍的,团队资历实力可见一斑。


好了不吹b了,说说这个阶段要做的东西:从服务产品的评论中挖掘服务产品的特征,不理解的话举个例子:

“这饭店环境还真是不错,就是菜码有点太大了!”

很明显,加了高亮部分的文字蕴含着这个服务产品的两个特征,那么我要做的其实就是把这样的特征找出来,可以归结于数据挖掘范畴。


这个事做成了之后要做什么我先不说,因为这是我的毕业课题,透露太多了也不好。博客上我只会放处理的大致流程和遇到的问题,源码部分公开。


做学术研究嘛肯定是要有数据源的,数据源老师给提供了一个,即Yelp Dataset Challenge中的数据源:https://www.yelp.com/dataset_challenge? 感兴趣的朋友可以去看看,数据质量非常高,略强于阿里天池。


(二)英文分词、赋词性

我之前做的都是中文分词,看到是英文分词给我开心坏了,空格不都打好的么。赋词性这块就不行了,因为不可能搞个词典挨个去查,我就用了nltk英文NLP处理包,这玩意以前没用过,具体代码在最后面放着,注释非常全,自己研究就行了。下面我主要说一说nltk的词性标注,这个标注还是挺奇怪的,在官网没有找到词性标注表,跟国内的北大几级标注那些又不一样,去翻了一下http://blog.csdn.net/heyongluoyao8/article/details/43731743#reply这个人的博客,做个归纳,方便以后查找。

1. ? ? CC ? ? ?Coordinating conjunction 连接词
2. ? ? CD ? ? Cardinal number ?基数词
3. ? ? DT ? ? Determiner ?限定词(如this,that,these,those,such,不定限定词:no,some,any,each,every,enough,either,neither,all,both,half,several,many,much,(a) few,(a) little,other,another.
4. ? ? EX ? ? Existential there 存在句
5. ? ? FW ? ? Foreign word 外来词
6. ? ? IN ? ? Preposition or subordinating conjunction 介词或从属连词
7. ? ? JJ ? ? Adjective 形容词或序数词
8. ? ? JJR ? ? Adjective,comparative 形容词比较级
9. ? ? JJS ? ? Adjective,superlative 形容词最高级
10. ? ? LS ? ? List item marker 列表标示
11. ? ? MD ? ? Modal 情态助动词
12. ? ? NN ? ? Noun,singular or mass 常用名词 单数形式
13. ? ? NNS ? ? Noun,plural ?常用名词 复数形式
14. ? ? NNP ? ? Proper noun,singular ?专有名词,单数形式
15. ? ? NNPS ? ? Proper noun,plural ?专有名词,复数形式
16. ? ? PDT ? ? Predeterminer 前位限定词
17. ? ? POS ? ? Possessive ending 所有格结束词
18. ? ? PRP ? ? Personal pronoun 人称代词
19. ? ? PRP$ ? ? Possessive pronoun 所有格代名词
20. ? ? RB ? ? Adverb 副词
21. ? ? RBR ? ? Adverb,comparative 副词比较级
22. ? ? RBS ? ? Adverb,superlative 副词最高级
23. ? ? RP ? ? Particle 小品词
24. ? ? SYM ? ? Symbol 符号
25. ? ? TO ? ? to 作为介词或不定式格式
26. ? ? UH ? ? Interjection 感叹词
27. ? ? VB ? ? Verb,base form 动词基本形式
28. ? ? VBD ? ? Verb,past tense 动词过去式
29. ? ? VBG ? ? Verb,gerund or present participle 动名词和现在分词
30. ? ? VBN ? ? Verb,past participle 过去分词
31. ? ? VBP ? ? Verb,non-3rd person singular present 动词非第三人称单数
32. ? ? VBZ ? ? Verb,3rd person singular present 动词第三人称单数
33. ? ? WDT ? ? Wh-determiner 限定词(如关系限定词:whose,which.疑问限定词:what,which,whose.)
34. ? ? WP ? ? ?Wh-pronoun 代词(who whose which)
35. ? ? WP$ ? ? Possessive wh-pronoun 所有格代词
36. ? ? WRB ? ? Wh-adverb ? 疑问代词(how where when)


(二)挖掘产品特征(10.13 Baseline)

挖掘这些特征就要分析自然语言的结构了,在上面的例子中(分词后):这/ 饭店/ 环境/ 还/ 真是/ 不错,就是/ 菜码/ 有点/ 太大/ 了!我们可以很清楚的发现,表特征的词往往都是名词(NN/NNS),而这些特征的周围必定跟随一个形容词(也可能连带一个或几个程度副词),看了一下Yelp的评论数据也确实如此。根据这个线索就可以编码了。

编码的时候要注意一个问题就是先找形容词(JJ/JJR/JJS)再找特征,但是表程度的这个形容词往往不在这个特征的旁边,那么久要设置一个滑窗,在滑窗范围内寻找这个特征(我暂时设置的是滑窗=5),这种办法个人感觉简单粗暴,但是缺点是只能找单个词的特征,无法寻找一类短语特征(比如dish size),这个问题在以后的探索中慢慢解决。现在先不着急,先搞个baseline看看效果怎么样再说,我把餐饮行业的feature都拿到了,一共92326个,feature出现次数在1000以下的我认为是稀疏特征,直接扔掉,剩下494个特征,我取前50个展示一下吧:

('food',203900)
('place',126807)
('service',110508)
('time',98767)
('restaurant',47986)
('staff',41384)
('menu',36441)
('experience',35822)
('meal',32812)
('thing',32057)
('night',30665)
('sauce',28831)
('bit',28180)
('pizza',26407)
('order',24406)
('bar',24077)
('price',23429)
('chicken',22599)
('bread',21457)
('hour',21134)
('dish',20586)
('side',20291)
('way',20077)
('lunch',19849)
('flavor',19529)
('dinner',19046)
('day',18674)
('server',18649)
('salad',18648)
('rice',18287)
('nothing',17406)
('something',17184)
('selection',16780)
('quality',16727)
('everything',15665)
('meat',15177)
('table',15061)
('location',15022)
('atmosphere',14962)
('cheese',14741)
('steak',14428)
('sushi',14326)
('area',14032)
('taste',13685)
('breakfast',13576)
('visit',13576)
('waitress',12394)
('soup',12300)
('sandwich',12280)
('beer',12261)

个人感觉这种baseline算法还是非常靠谱的,我们能看到的都是真真切切的特征,没有噪音。

(三)有什么改进的地方

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读