基于蚁群算法的热点话题发现研究

来源 :南京师范大学 | 被引量 : 0次 | 上传用户:fdsa5218
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
话题发现和跟踪(TDT)技术是国内外研究的一个热点,具有广泛的应用前景。本课题的研究目标是设计和实现一个热点话题发现系统模型,应用一种新的仿生物学的聚类算法——蚁群聚类算法作为发现算法,发现新闻中的热点话题,使用户能够阅读自己感兴趣的话题。本文首先介绍了话题发现技术和它的研究现状,总结出话题发现技术实际上等同于无指导的聚类研究,然后对蚁群算法的发展做了简要介绍。接着,本文阐述了和本研究相关的技术,主要介绍了文本预处理技术和聚类方法,总结了它们的常用技术,并分析了这些技术的优缺点。然后,本文梳理了蚁群聚类算法的发展历史和基本原理,介绍了两个经典蚁群算法,分别给出了它们的数学模型。我们针对热点话题发现的特点和标准蚁群聚类算法的缺点,提出了对标准蚁群聚类算法的改进策略:为蚂蚁增加了“记忆”功能;引入了多种群的蚂蚁;防止算法过早停滞;优化蚂蚁的移动策略。实验结果表明,改进后的算法较基于标准蚁群聚类算法具有更高的准确率。本文最后完成了一个热点话题发现系统模型,使用利用RSS技术的爬虫从网络中抓取文本,并对文本进行一系列的预处理,利用改进的蚁群聚类算法发现热点话题,并将之排序并提取出话题名称。对该模型进行的实验表明,它能够自动发现网络新闻中的热点话题,这样它就能够取代人工操作,节省人力资源。
其他文献
发育在软硬互层结构上的危岩是一种多介质复合结构岩体,呈现出非均质危岩体的各项异性,比单一岩性在荷载作用下的受力、变形、破坏特征要复杂。利用颗粒流离散元方法进行数值
英语写作是学生综合能力运用的一种体现,是听、说、读、写四种技能考查中对学生要求比较高的一环。多年来,如何提高学生的英语写作能力一直是国内研究的重点。Halliday和Hasan(1
目的 探讨血浆DNA在急性ST段抬高型心肌梗死早期的变化,评估其在心肌梗死诊断方面的价值。方法应用实时荧光定量PCR法对28例急性ST段抬高型心肌梗死发生6h内血浆DNA浓度和肌
为贯彻落实党的十八届三中全会和中央农村工作会议精神,现结合河北省实际,就全面深化农村改革提出如下意见:一、新形势下全面深化农村改革的重大意义1、当前已经进入全面深化农
"吐蕃"是一个混合词。因羌藏民族嬗变之故,古羌族岳神名"伯夷"变为藏语中的"蕃(bod)";因藏语和吐谷浑语接触之故,吐谷浑语中表示"高地"意义的"吐"(tüpü)附加于"蕃"前。"吐
14、加快建立农村产权流转交易市场。采取政府引导、财政补助、市场化运作方式,积极推进县级农村产权交易市场建设,把土地经营权、林地使用权、森林和林木所有权等纳入产权交易
河北省迁安市综合经济实力雄厚,已经进入了以工补农、以城带乡和工业化、城镇化、信息化、农业现代化“四化同步”发展的阶段。2008年被农业部列为全国第4批基层农业技术推广