Apriori算法是一种常用的挖掘关联规则的算法,可以在大规模数据中发现频繁项集,进而发现项集之间的关联。
具体实现过程如下:
代码示例如下:
# 初始化数据集
data = [['apple', 'beer', 'rice', 'chicken'],
['apple', 'beer', 'rice'],
['apple', 'beer'],
['apple', 'banana', 'chicken'],
['apple', 'banana']]
# 设置最小支持度
min_support = 2
# 计算单个项的出现次数
def calc_single_item_support(data, min_support):
# 初始化单个项及其计数
item_count = {}
for d in data:
for item in d:
if item not in item_count:
item_count[item] = 1
else:
item_count[item] += 1
# 筛选出满足最小支持度的单个项集
frequent