论文部分内容阅读
Web使用挖掘研究通常被认为包含两个研究方向,本文的主要研究内容—MD模型属于根据日志数据的特点,建立新模型,实施数据挖掘。
MD模型以马尔科夫模型和有向图为主要的理论依据,研究内容主要分为两个部分:模型建立和预测算法。MD模型的建模算法将训练数据在宏观上按照网站的结构图(有向图)进行重新部署,图中的每个结点存储了经过该结点对应的页面的所有访问轨迹,该建模算法实现了训练数据按照一定的规律初步、有序排放,避免了其他模型建模过程中反复扫描训练数据、大量存储冗余信息,从而导致耗时、耗费存储空间的问题。MD模型的预测算法在训练数据分块、规律存储的基础上,只需扫描局部数据,构造与马尔科夫模型相同的预测模式集合,从而达到与马尔科夫模型等价的预测能力。
从理论上分析,MD模型在建模过程中的时间复杂度、模型的空间复杂度、预测算法的执行时间复杂度、预测的准确度上具有较好的综合性能,后续的实验将MD模型与包括马尔科夫模型在内的3个其他研究模型相对比,同时对MD模型进行了改进实验,得出的结论是MD模型预测准确度等价于马尔科夫模型,复杂度更为合理,具有更好的模型调整灵活性。