基于动态反馈的Blog话题追踪方法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:aerbinbayaer
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的高速发展,博客作为一种新兴的信息传播手段,发挥着越来越重要的作用。而话题追踪技术是针对已知话题、面向文本信息流的信息处理技术。它在信息抽取和舆情监控方面有很大的实用价值。  目前,专门针对博客数据的话题追踪算法并不成熟,这跟博客自身有不同于普通新闻信息的信息结构有关,博客具有数量庞大和形式多样的特定,切博客更能反映大众的观点,有很大的研究价值。本文利用博客数据,进行话题追踪方法的研究,主要作的工作包括以下几点:  1).对特征选择方式TFIDF的改进。本文结合博客数据特性和文本结构特性,设计了比较合适的话题模型。并改进了TFIDF的特征选择计算方法,得到改进的TFIDF公式,并做了大量的对比实验以验证改进TFIDF的有效性。  2).话题追踪算法的改进。针对传统的增量聚类的缺陷,本文提出基于反馈动态调整的话题追踪算法。该算法由话题追踪器动态调整和新话题模型生成算法组成。追踪器动态调整算法解决了传统增量聚类中动态合并文本信息的盲目性。新话题模型生成算法既巩固话题原始特征,有兼顾了话题中新出现的特征,对话题漂移现象有很好的预防主用。  3).话题阶段特征的提取算法。话题阶段特征的提取,主要包括阶段名称的提取、阶段特征新词和阶段特征变化词组成。话题阶段特征能很好的体现出当前追踪过程在话题的发展过程中所处的阶段,对话题的展示和话题趋势发展有很好的推动作用。  基于以上的研究成果,构建了以本文基于反馈动态调整的话题追踪算法为核心的话题追踪原型系统。该系统主要包含五大模块:数据库交互模块、模型初始化模块、话题追踪模块、话题阶段特征提取模块和话题展示模块。通过编程技术,实现了该话题追踪原型系统,并力求系统设计合理,稳定,易于扩展。该系统为后续话题追踪的更深入研究打下了坚实的基础。
其他文献
现代化工业生产对产品的质量控制提出了严格的要求,基于智能相机的自动视觉检测技术以其高精度、非接触性、高智能等优点,符合现代生产过程中对在线检测和智能控制的要求,应
移动Ad Hoc网络(MANET)是一种重要的通信网络,具有开放的无线信道、动态变化的拓扑结构、无集中化基础结构等特点,与有线网络相比,更适合被应用于会议、学术交流、野外救援通
射频识别技术(Radio Frequency Identification, RFID)是采用无线射频方式进行非接触式通讯,并自动识别和获取物品数据的一种快速识别技术。RFID中间件是RFID系统的重要组成
目前,研究人员对三维编织的研究已经取得了丰富的成果,主要集中在对四步法方型三维编织工艺和携纱器运动规律的分析上。与此同时,计算机可视化技术的应用使得三维编织预制件计算
近年,全世界突发性灾难、事故频发,给人民的生命财产带来严重威胁。仅2010年,全球就发生了50多次5级以上的地震。为降低突发性灾难、事故造成的伤害,高效的应急通信就变的越
随着电信企业的竞争愈演愈烈,电信市场出现的套餐已经令消费者眼花缭乱,客户不知道如何选择更适合自己使用的套餐,而且套餐制定过程中人工经验的参与也给套餐带来一定的盲目
动态规划是求解最优化问题的一种高效的途径和方法,在生物信息学和科学计算中有着广泛的应用。然而,由于求解问题的数据规模的急剧膨胀,传统的串行程序实现在运行时间方面已
入侵检测作为一种积极主动的网络安全技术,已经越来越受到人们的高度重视,成为网络安全研究人员的一个重点研究内容。而基于生物免疫原理的入侵检测技术具有自适应性、自组织
随着Internet技术的成熟以及电子商务的普及,普通的政务活动和商务活动也随之网络化,传统的签名方式就必须在网络中以某种形式得以实现,在此需求下数字签名随之而产生。数字
OpenVG是嵌入式平台矢量图形的开放标准接口,其应用越来越多,但是目前OpenVG的实现方案中由于缺乏高效的图形渲染技术,造成运行性能低下。为了改善OpenVG实现的运行性能,本文主要