(源码)关于A->B*->D的时间序列频繁模式挖掘的思考 1.26更新-白红宇

(源码)关于A->B*->D的时间序列频繁模式挖掘的思考 1.26更新

阅读量：800 次

发布时间：2023-04-17

本文共 735 字，大约阅读时间需要 2 分钟。

时间序列频繁模式挖掘在社交网络中的应用

作为导师课题的一部分，我最近对时间序列频繁模式挖掘有了深入的学习，决定在博客中详细记录我的思考过程。

首先，A→B→D模式的定义需要明确。在社交网络的背景下，这三个事件可以看作是三个用户在同一微博下的留言。A事件发生后，随后发生了B事件，最后发生了D事件。这里的表示B事件可以出现多次，无论是单次还是多次，只要满足A→B→D的顺序，就符合A→B→D的模式。例如，A→B→B→D或A→B→B→B→D都可以归类为A→B→D。

在社交网络中，每个事件的时间点是有先后顺序的，因此传统的频繁模式挖掘方法并不适用。我专注于时间序列的频繁模式挖掘，寻找具有时间顺序的模式。

算法的流程图如下：

[注：此处应添加流程图描述，但因格式限制，已去除]

在实际应用中，事件可以用社交网络中的用户互动数据来表示。目前正在寻找合适的数据集，将其封装到一个类中，以便于与算法中的字母理论一致。数据集的获取正在积极进行中。

算法更新如下：

1.26版本更新说明：

增加了多重序列识别功能：ABDBDF → A(BD)F

增加了多重序列内的多重序列识别功能：ABBDDBBDDF → A(B)(D)(B)(D)F → A(BD)F

增加了多重序列内重复序列识别功能：ABBBBF → A(BB)F → A(B)F（目的是为了避免重复）

源代码：

#coding:utf-8__author__ = 'ChiXu_15s103144_HIT'import copyimport sys

[注：因格式限制，源代码部分已去除]

目前使用的是一个自己构造的具有代表性的小数据集，这个数据集能够直观地反映算法的运行情况。通过肉眼可以清晰地观察到算法在运行过程中没有问题。

转载地址：http://evgfk.baihongyu.com/

你可能感兴趣的文章