论文部分内容阅读
本文对基于语义过滤的文本和文本流聚类进行了研究。文章首先针对现有模型通用词削弱能力不够强的问题,提出一种改进模型,并把该模型与基于静态文本集的聚类算法相结合,实验表明该算法能大幅度提高现有静态文本聚类算法的聚类精确度。然后在语义过滤技术基础上,提出了一种包含文本语义的聚类信息结构即聚类轮廓,并给出了一种有效的适用于大规模动态文本流环境的在线聚类算法。该算法能有效解决文本流中的语义问题,能极大提高语义文本流的聚类精确度和稳定性。通过多组实验数据比较,进一步证明了算法的有效性和高效性。