论文部分内容阅读
随着网络环境的愈加复杂,用户数量和种类显著增加,网络信息更新频繁。针对文本数据自身较稀疏、不规范等特点,提出了基于改进的局部序列比对算法的用户会话聚类新方法。首先通过计算用户会话集成距离方法衡量会话的相似度;然后,采用改进的基于用户会话距离的序列比对算法对话题进行聚类,该算法改善了传统用户聚类算法的不足。实验表明,该算法较传统聚类算法在召回率和准确率方面有明显改善。