论文部分内容阅读
建立一种基于变长隐马尔科夫模型的维基词条编辑微过程挖掘方法。由于传统的EM算法需要指定隐藏状态的数目,而隐状态数目通常需要通过对实际数据的大量人工观察得到,这就使隐状态数目的设置具有较大的主观性。新方法首先基于张量分解来挖掘维基词条编辑微过程的隐状态数目,通过实际的数据分析结果发现词条编辑微过程可以分成保守和激进两种隐藏状态,并利用提取的特征及具有变长隐状态的Baum-Welch算法来训练隐马尔科夫模型。利用真实词条操作历史数据集进行测试,实验结果表明基于变长隐马尔科夫模型的维基词条编辑微过程挖掘方法能够