中文新闻报道的主题检测与追踪研究

来源 :中山大学 | 被引量 : 0次 | 上传用户:liongliong460
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文主要研究了主题检测与追踪技术在中文新闻报道方面的应用。主题检测与追踪技术的研究始于1997年,是一门新兴的信息处理技术,它的研究主要涉及了自然语言处理、信息检索、信息过滤、人工智能、机器学习等多个领域,是一个跨学科跨领域的综合性课题,围绕着信息流当中的主题信息,进行检测、跟踪、分析关联性等智能处理,最终目的是构建高效率、高准确度的实用信息追踪系统。 在本文中,我们首先介绍了主题检测与追踪技术的相关概念,以及近年来的发展动向。然后,我们讨论了一种叫做LDA的语义模型,它是一种产生式模型,通过概率规则来表示主题信息。我们介绍了该模型和其他相关的TF-IDF、LSI、pLSI模型,比较了它们的基本思想以及差异。LDA模型主要引入了一个新的结构层:文集.主题层,通过Dirichlet分布来描述各个主题之间的分布情况,把样本数据的离散分布变为连续概率分布,因此能够有效平滑训练集数据之间的非系统性差异,克服之前几个模型当中存在的零概率问题。 本文还对LDA模型作了进一步的改进。改进模型主要利用了句子间可置换的这一性质,并且假定同一个句子当中的词语应该表达相同的主题。基于此项改进,我们还提出了基于VB-EM的近似算法来求解模型的推演问题和参数估值问题,并作出数学推导。最后,我们按照改进后的语义模型,开发了一个主题追踪的实验系统。我们在文中讨论了系统的结构以及处理流程。我们应用了新浪网上的中文新闻来测试我们系统的有效性,实验证明了我们的系统准确率和召回率达到了一个相对满意的水平。
其他文献
工作流技术在管理、生产等领域得到了非常广泛的应用。在工作流的流转过程中,单个参与者所执行的任务并非是独立的。很多情况下多个参与者会对同一份文档、同一个数据对象进行
目前被广泛使用的超声无损检测设备中,超声发射源为压电陶瓷震源,其辐射功率相对较小,穿透能力差,因此无法适应越来越多的大型桥梁中大体积结构件(如桥台、桥墩、箱梁和T梁等
操作系统作为计算机系统中最基本的系统软件,管理和控制计算机系统中的所有软、硬件资源,保证计算机系统的优异性能,为程序的开发和执行提供良好的环境,是计算机系统的灵魂和核心
本文中我们的工作主要分为两部分,第一部分是构建一个基于身份的多安全群组密钥协商协议;第二部将上述对等群组的协议扩展到树结构,构建一个适用于动态的基于树的群组密钥协商协
针对目前越演愈烈的环境污染问题,本文在经过对相关农药生产企业充分调研的基础上,结合了物联网技术、无线数据传输技术、自动控制技术和信息智能处理技术等多种现代计算机技
时间是自然界无所不在的客观属性,所有信息都隐式或显式地具有相应时态特征。随着计算机应用技术的深入和发展,对时态信息显式处理需求越来越迫切。时态数据库就是显式处理时态
随着Web应用程序的日益复杂化,出现了很多系统化、工程化的Web应用开发方法。这些方法将传统的软件工程技术和Web应用程序的超媒体特性较好的结合起来,取得了一定的成功,如在导
软件水印是一种常见的软件保护手段,它利用一定的算法,将可以表征知识产权的信息嵌入软件之中。出现软件知识产权侵权行为时,软件知识产权人可以提取嵌入软件之中的知识产权信息
自上世纪中旬开始,互联网发展迅速,各种多媒体数据急剧增加。传统的采用人工加注的基于文本的检索方法由于其加注复杂性以及主观性,已经越来越不能满足多媒体检索的需求,因此便出
地理信息系统(GIS)能进行有效的空间数据管理和决策分析,已经在资源环境调查、数字农业、数字海洋和数字地球等多个领域中得到了广泛应用,并已形成海量的地理空间数据。进一步