中文新闻新事件检测方法与处理框架研究

来源 :中山大学 | 被引量 : 0次 | 上传用户:xs0405010154
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
新闻话题检测与追踪技术(TDT)是当前信息检索领域与自然语言处理领域的研究热点。TDT自1996年被首次提出以来,在英文领域已经取得了很大的进展。 然而,由于中文处理的复杂性,TDT 在中文领域的研究成果不多,还处于起步阶段。 本文针对TDT的一个核心子问题,新事件检测 (NED),对中文新闻文档的新事件检测的方法进行了研究,并提出了包含切分,分类,比较的处理框架与流程。 中文文档处理,首先涉及单词切分的问题。新闻文档与其他文档的一个显著的区别是,新闻文档包含的命名实体词,新词特别多,考虑到这样的因素,本文提出了一种结合词语生成,统计规则和词典词识别的新闻文档隐马尔可夫切分系统。 当前的NED的处理方法是将新输入文档与所有文档进行比较,进而识别,这样做的一个突出问题就是识别效率非常低。本文提出了基于SVM分类方法的文档预先分类方法,在不失检索精度的前提下,能大大提高识别效率。 在文档比较阶段,本文提出了一种多文档表示模型,将新闻中命名实体词与非命名实体词区别对待,进一步提高了识别的精度。
其他文献
高校工会作为学校的重要组织之一,在校园文化建设中占发有重要地位,负有重要责任,通过沈阳建筑大学工会工作的具体案例分析表明,高校要充分发挥自身的政治、民主、组织、职能
缺省逻辑适于对协调的知识进行表示和推理:前提中的矛盾导致平凡扩张而缺省规则中的冲突导致扩张不存在。为了保证扩张存在性,一种做法是对缺省理论加以限制,得到各种片断。然而
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
金融风险特别是外汇风险现在已经成为一个热点问题,越来越受到人们的重视。如果可以对外汇风险进行预测并严加防范,将会是一件非常有意义的事情。 本文对中国外汇市场上的汇
本文主要目的在于通过研究微分同胚嵌入向量场产生的流来分析讨论二维微分同胚在双曲不动点附近的光滑等价分类。借助了研究一维微分同胚局部光滑分类的方法,和二维向量场的光
“传话”游戏,又名听说游戏。针对刚升入中班的幼儿,教师组织有效的“传话”游戏,有助于发展幼儿的语言表达、行为意识、自信积累等多方面的能力。勋章是授予有功者的荣誉证
基于人工智能判据(采用信号的机械特征分析方法)的自动诊断系统,可以解决人工诊断柴油机故障这个令人厌倦的耗时问题。阐述柴油机用自动诊断专家系统的开发和实施情况。此系
审视当前的语文教学,无论是阅读教学或是识字教学,也无论是公开课还是常态课,有一种现象不容忽视:课堂上写字指导已经被淡化,取而代之的是,课堂上书声琅琅,以读代讲,学生乐于
本文主要考虑采用迭代收缩阈值类算法来解决压缩感知理论中的信号重构问题.这类算法由于计算的简便性,可以用于解决大规模的信号重构问题.然而,这类算法的收敛速度缓慢.因此,Ami
本文考虑了一类多资产框架下动力学定价模型并研究其不动点的存在唯一性、渐近稳定区域以及发生的分岔现象. 第一章对基于互异信念投资者相互作用的资产定价理论的发展和概