加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

数据挖掘中的模式发现(五)挖掘多样频繁模式

发布时间:2020-12-24 20:06:14 所属栏目:大数据 来源:网络整理
导读:挖掘多层次的关联规则(Mining Multi-Level Associations) 定义 项经常形成层次。 如图所示 那么我们可以根据项的细化分类得到更多有趣的模式,发现更多细节的特性。 Level-reduced min-support 使用的是Level-reduced min-support方法来设置最低支持度,即,

例如, P1 P2 的项集内容十分相近,而且他们的支持度也十分接近。但是 P2 P3 的项集内容十分接近,但是他们的支持度相差甚远。

压缩

  • 闭合频繁项集
    我们不能用它来压缩的原因是,闭合频繁项集要求相同的支持计数。
  • 最大频繁项集
    我们当然可以使用,比如,我们可以使用 P3 来表示所有其他的项集,但是,我们可以清楚地知道, P3 会因此损失不少可能挖掘出的规则。

Pattern Distance Measures

定义为

Dist(P1,P2)=1?|T(P1)∩T(P2)||T(P1)∪T(P2)|

δ 聚类:对于每一个模式,找到所有与这个模式距离小于 δ 的模式。

Desired patterns

这一类理想的模式具有较高的意义和较低的冗余度。

图4

  • a图表示深色的模式更有意义,浅色的模式更没有意义;模式聚类成三大块。

  • c图使用的是传统的top-k,则找到的模式全是属于一个聚类的。

  • d图使用的是相关程度,找的是三个聚类的中心。

  • b图使用的是结合了冗余与意义的top-k方法,相比其他几个有着更加全面的考虑。

有种有趣的Maximal Marginal Significance算法可以用于解决这一类的问题。

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读