论文部分内容阅读
话题发现和跟踪(TDT)技术是国内外研究的一个热点,具有广泛的应用前景。本课题的研究目标是设计和实现一个热点话题发现系统模型,应用一种新的仿生物学的聚类算法——蚁群聚类算法作为发现算法,发现新闻中的热点话题,使用户能够阅读自己感兴趣的话题。本文首先介绍了话题发现技术和它的研究现状,总结出话题发现技术实际上等同于无指导的聚类研究,然后对蚁群算法的发展做了简要介绍。接着,本文阐述了和本研究相关的技术,主要介绍了文本预处理技术和聚类方法,总结了它们的常用技术,并分析了这些技术的优缺点。然后,本文梳理了蚁群聚类算法的发展历史和基本原理,介绍了两个经典蚁群算法,分别给出了它们的数学模型。我们针对热点话题发现的特点和标准蚁群聚类算法的缺点,提出了对标准蚁群聚类算法的改进策略:为蚂蚁增加了“记忆”功能;引入了多种群的蚂蚁;防止算法过早停滞;优化蚂蚁的移动策略。实验结果表明,改进后的算法较基于标准蚁群聚类算法具有更高的准确率。本文最后完成了一个热点话题发现系统模型,使用利用RSS技术的爬虫从网络中抓取文本,并对文本进行一系列的预处理,利用改进的蚁群聚类算法发现热点话题,并将之排序并提取出话题名称。对该模型进行的实验表明,它能够自动发现网络新闻中的热点话题,这样它就能够取代人工操作,节省人力资源。