论文部分内容阅读
Internet的迅速普及使得网络新闻成为民众掌握时事与获取各类最新信息的重要途径,但是在海量信息中找到自己关注的新闻及新闻话题也绝非易事。为了让人们能够快速地从新闻中获取有意义的知识,迫切需要对网络信息进行挖掘。本文即是面向网络新闻领域,使用话题检测、话题跟踪等技术对话题信息进行挖掘,将相关信息按所表达的主题进行归类,使用户可以在动态变化的环境下查找到自己需要或感兴趣的信息。
本文首先介绍了话题检测和话题跟踪(Topic detection and tracking,TDT)的一些基本理论和技术,如TDT语料、TDT任务、TDT研究体系、文本分类/聚类、搜索引擎、分词及自动摘要技术等。其次,设计了话题检测和跟踪算法,研究了报道和话题的表示模型,重点研究了相似度计算方法,在相似度计算中比对了两种标题相似度算法,提出了采用图片及视频所对应说明的相似度,以及多种相似度与正文相似度相结合的方法,并且在这一相似度计算方法中引入阈值,通过实验分析,验证了相似度计算改进算法的有效性及在系统中实施的可行性。第三,基于上述研究,设计并实现了一个网络新闻管理系统,给出了系统的体系结构以及网页抓取、分析、预处理、聚类和摘要系统的初步实现。最后,对本文的主要研究成果进行了总结和展望。
总之,本文的研究成果对于网络新闻管理具有重要的应用价值,对舆情检测和管理具有很好的借鉴作用。