加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

推荐 :从大数据中挖掘什么

发布时间:2021-01-17 18:51:25 所属栏目:大数据 来源:网络整理
导读:概要:大数据挖掘中最重要的是决定挖掘什么样的知识,这是在数据的收集、处理、挖掘的整个过程中都需要认真考虑的问题。本文首先提出大数据挖掘的几项策略,即尽量设想挖掘的场景,尽量多方面收集数据,尽量将数据整合,悉心观察数据特征。之后结合自己在互

决定从数据中挖掘什么,首先需要对数据有深入的了解,需要对数据进行认真细致地观察。只有对数据有深刻的认识,才有可能从中挖掘出深层的知识。AOL隐私泄露事件是一个著名的“人肉数据挖掘”成功事例,说明只要细致观察与推理,我们可以从数据中发现许多事情。

? ? ? ?

2006年AOL公司,为了促进研究,发布了搜索查询数据集,包括65万用户三个月中在AOL搜索提交的2千多万查询。为了保护用户隐私,AOL将用户的个人信息删除,对每个用户赋予了一个ID。纽约时报的一个记者对AOL数据进行了观察、分析,利用电话号码簿,很快确定出ID为4417749的用户是居住在佐治亚州的60岁的单身妇女Thelma Arnold[3]。具体地,这位用户提交了“landscapers in Lilburn,Ga”的查询,从此可以推断此人大概住在佐治亚州Lilburn。该用户又提交了多个含有Arnold的人名查询,可以揣测此人大概姓Arnold。该用户又搜了“60 single men”,可以猜想此人可能是60岁左右的妇女,等等。

? ? ? ?

AOL事件说明了数据挖掘中保护用户隐私问题的重要性(本文不讨论隐私保护问题),同时也说明了认真观察数据,可以挖掘到许多深层的信息。


3.大数据挖掘事例

互联网搜索引擎,索引几十亿以上的网页,每天有几十亿次查询,收集几十TB的日志数据。这些数据是典型的大数据。

? ??

下面介绍一个互联网搜索日志数据挖掘例子:查询副主题挖掘。这是与微软前同事等的工作[4]。互联网搜索中的查询,或者表示多个语义,或者表示事物的多个侧面,统称为副主题(subtopic)。前者的例子,如图2所示, 查询“harry shum”意味着用户可能要搜索微软的副总裁,也可能是搜索美国的演员。后者的例子,如查询“xbox”意味着用户可能想找游戏攻略,也可能想购买游戏机。如果能判断查询的副主题,那么可以将该搜索结果进行聚类,把同一个副主题的网页放在一起,帮助用户迅速找到想要找的所有信息。根据副主题对搜索结果聚类是一个热门研究课题。传统的方法根据搜索结果中网页摘要的相似度对网页进行聚类,效果并不理想。我们提出的方法事先从搜索日志数据中挖掘出查询的副主题,用户搜索时,根据挖掘好的副主题,对查询结果进行聚类,效果提升显著。副主题挖掘利用了用户搜索的两个现象。

推荐 :从大数据中挖掘什么


图2.查询“harry shum”有两个副主题(subtopic)


我们观察到的第一个现象是“同一查询同一副主题(one subtopic per search)”。用户每次进行查询时,往往只考虑一个副主题,要搜副总裁的Harry Shum,就不会搜演员的Harry Shum,反之亦然。这一点会反映在用户的日志点击数据上。在同一次搜索中,用户点击的多个网页链接往往集中在同一个副主题上。将某一查询的大量的点击数据汇集起来,根据链接是否常在同一次搜索中被共同点击,可以将它们聚类,就可以挖掘到该查询的副主题,这时,链接的每个类对应一个副主题。

? ??

第二个现象是“加关键词明确副主题(Subtopic Clarification by Additional Keyword)”,也可以用于副主题挖掘。用户在查询时,会主动明确副主题,在主查询词的后面(或前面)加上关键词,如“harry shum microsoft”,“harry shum jr”。属于同一副主题的网页链接往往在被加同样关键词的查询中点击,根据链接是否在加同样关键词查询中被点击,可以将它们聚类,得到的类也对应于副主题。

? ??

我们的方法能够根据以上两个现象挖掘出查询的每个副主题,副主题由网页链接、以及附加关键词表示。利用特殊的数据结构,可以将Bing的三个月日志数据在一天内进行一次高效的挖掘。对于高频查询,可以得到非常精准的挖掘结果(详见[4])。可以看出,大数据确实能够发挥巨大作用。

? ??

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读