本文共 738 字,大约阅读时间需要 2 分钟。
时间序列频繁模式挖掘在社交网络中的应用
作为导师课题的一部分,我最近对时间序列频繁模式挖掘有了深入的学习,决定在博客中详细记录我的思考过程。
首先,A→B→D模式的定义需要明确。在社交网络的背景下,这三个事件可以看作是三个用户在同一微博下的留言。A事件发生后,随后发生了B事件,最后发生了D事件。这里的表示B事件可以出现多次,无论是单次还是多次,只要满足A→B→D的顺序,就符合A→B→D的模式。例如,A→B→B→D或A→B→B→B→D都可以归类为A→B→D。
在社交网络中,每个事件的时间点是有先后顺序的,因此传统的频繁模式挖掘方法并不适用。我专注于时间序列的频繁模式挖掘,寻找具有时间顺序的模式。
算法的流程图如下:
[注:此处应添加流程图描述,但因格式限制,已去除]
在实际应用中,事件可以用社交网络中的用户互动数据来表示。目前正在寻找合适的数据集,将其封装到一个类中,以便于与算法中的字母理论一致。数据集的获取正在积极进行中。
算法更新如下:
1.26版本更新说明:
源代码:
#coding:utf-8__author__ = 'ChiXu_15s103144_HIT'import copyimport sys
[注:因格式限制,源代码部分已去除]
目前使用的是一个自己构造的具有代表性的小数据集,这个数据集能够直观地反映算法的运行情况。通过肉眼可以清晰地观察到算法在运行过程中没有问题。
转载地址:http://evgfk.baihongyu.com/