频繁模式挖掘
在很多时候我们会关注两个或多个对象同时出现的频率,这些相关性往往意味着某种行为特征。例如我们可以根据网站的日志找到网站中某些的网页经常被用户访问到,这些频繁性提供了用户浏览习惯的线索,有助于提高浏览的体验。其中非常典型的应用就是购物篮分析(market basket analysis)可以通过用户经常购买的物品集合找到人们经常一起买的物品集合。之后可以提取出这些物品的关联规则(association rule)比如可以发现啤酒和尿布经常会被人组合购买,从而将这些物品放在邻近的地方销售会有更好的效果。
伯努利变量
伯努利变量其实和one-hot1一样,根据标签的数量建立一个one-hot向量,
m维随机伯努利变量
项繁集和事务标识符集
令
令
一个二元数据库

支撑集和频繁项集
数据集
它是对包含
关联规则
关联规则(association rule)是一个表达式
规则的相对支撑(relative support)定义为
一条规则的置信度(confidence)是一个事务包含
根据规则支撑和置信度的定义,可以观察到,为了生成频繁且高置信度的关联规则,首先要枚举所有的频繁项集及其支撑值。
暴力枚举
首先要做候选生成,因为一个集合
然后要完成支撑计算,这一步计算每一个候选模式

但是这种方式的计算复杂度太大,支撑的计算在最坏的情况下需要
逐层的方法:Apriori算法
根据两个依据进行剪枝:
- 若
是频繁的,则其任意子集 也是频繁的 - 若
不是频繁的,则任意超集 都不是频繁的

Enjoy Reading This Article?
Here are some more articles you might like to read next: