中文新闻事件语义要素抽取关键技术研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:zz123zz123zz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,网络新闻服务迅猛发展。分类、聚类、摘要、检索、推荐等文本挖掘技术得到了广泛应用,以帮助用户筛选新闻文档,为用户提供友好的阅读体验。然而,现有技术关注在文档层次,但认知科学认为人们是以“事件”为单位体验和认知世界的,用户真正关心的并不是新闻文档本身,而是新闻中的事件、参与事件的人、机构等实体。因此,急需一种事件级的新闻处理技术,能够从新闻文本中抽取出事件和参与事件的时间、地点、人物等实体,识别出实体间的关系,在事件粒度以及语义层次理解新闻。这种能够让计算机理解新闻报道的内容,代替人完成事件的检测、提取与集成任务的技术,对缓解“新闻信息过载”,推动对象级信息检索、事件语义层次新闻服务的发展具有重要意义。在这一背景下,本文针对中文新闻事件语义信息的表示、单个新闻文档中关键事件的识别和事件5W1H语义信息的自动抽取三个紧密相关的问题进行了研究。   首先,在自然语言处理、信息检索和信息抽取领域中都有针对事件的研究工作。然而,不同领域中的“事件”概念有很大差别,对使用何种模型表示事件也没有一致的看法。针对这一问题,本文结合研究目标,给出了新闻事件的定义,并提出一种基于本体的新闻事件模型,用于描述单个新闻文档中的关键事件、语义要素以及它们之间的关联。目前已有多种事件表示模型,包括MUC(MessageUnderstanding Conference)的事件模板,ACE(Automatic Content Extraction)的事件结构体,多媒体事件模型E,以及基于本体的事件模型ABC、PROTON、Event-Model-F等。在对上述模型调研分析的基础上,本文针对单个新闻文档中关键事件的抽取和事件之间的关联,设计了一种基于本体的新闻事件模型NOEM(News Ontology Event Model)。NOEM利用事件的类型、时间、空间、结构、因果、媒体六个方面特征描述新闻事件的5W1H(Who,What,Whom,When,Whereand How)要素。与现有事件模型的比较显示,NOEM具有较好的形式化知识表达、应用集成和扩展能力。   其次,目前中文事件抽取主要针对“原子事件”和“主题事件”,在句子和多文档两个层次展开研究。但“原子事件”抽取粒度过细,实用性不足,“主题事件”粒度过粗,事件信息不精确。因此,本文提出在单文档中通过提取主题句以获取关键事件信息的思想和方法。在单文档层次抽取事件,能够添补句子层次和多文档层次事件信息处理之间的鸿沟。一篇新闻报道中通常涉及多个事件,如何识别其中的关键事件是一个重要问题。论文根据新闻的体裁特点,分析了新闻报道与事件的关系,以及新闻标题在内容、形式和语言方面的特征,提出利用标题的提示性信息提取主题句来描述新闻关键事件的TBKEE(Title Based Key EventExtraction)算法。TBKEE首先对新闻标题按信息含量进行分类,然后结合新闻句子的词频、长度、位置、与标题的相似度等特征计算句子的重要性。实验表明,该方法能够准确提取新闻主题句,为进一步抽取事件语义信息打好了基础。   最后,针对中文新闻事件识别、分类、语义要素识别等事件抽取任务进行了研究。事件抽取是信息抽取领域一个重要的研究方向,其目标就是要把人们感兴趣的事件以结构化的形式呈现出来,如什么人,什么地方,什么时间,做了什么事。本文基于语言学资源、命名实体(NE,Named Entity)识别和机器学习技术,提出事件5W1H语义要素的识别与抽取算法CNSEE(Chinese News SemanticElement Extraction)。CNSEE由一系列相关算法构成,具体包括:基于事件触发词表与SVM分类器相结合的事件类型识别方法;基于层叠状态机的时间表达式识别与规范化方法;基于条件随机场(CRF,Conditional Random Field)的中文名词短语(NP,Noun Phrase)识别算法;基于事件触发词配价信息和语法-语义规则的事件论元(事件的施事、受事、与事等角色)识别方法。上述方法能够有效提取事件语义要素五元组和事件的发展过程How。   论文针对在事件级别和语义层次理解新闻文档的问题,研究了基于本体的新闻事件建模及语义要素抽取技术。本文的创新点主要体现在以下几个方面:   1)提出一个基于本体的新闻事件模型,用于描述单个新闻文档中的关键事件、语义要素以及它们之间的关联。   2)提出在单文档中通过提取主题句以获取关键事件信息的思想和方法,该方法能够添补句子层次和多文档层次事件信息处理之间的鸿沟。   3)针对中文新闻事件识别、分类、论元角色赋与等相关子任务进行了研究,提出一系列事件5W1H语义要素的识别与抽取算法。   本文提出的理论框架与相关算法,是对在线新闻服务领域事件级别语义信息处理的有益探索,能够推动多种基于事件的应用以及语义信息服务的发展。
其他文献
策略和策略模型是指导决策的方法,其具有可动态配置、管理效率高等优点,但将其直接应用于桌面管理中则略显不足。本课题结合桌面管理的特点,对互联网工程任务组(IETF)提出的
随着数据存储量呈爆炸性增长,存储系统在大容量、高性能、高可靠和高可用保障以及高空间利用率四方面面临了巨大的挑战。如何为大规模存储系统提供高效(高性能,兼顾高空间利用
随着计算机技术的发展和云计算的兴起,虚拟化技术因其良好独立性、易管理性和服务器整合而备受人们关注。虚拟机在众多领域具备各种用途:如用于系统安全领域、系统开发测试领
在船舶制造与研究领域,船舶故障诊断技术对舰船海上安全运行具有至关重要的意义。船舶故障诊断的研究不仅具有理论价值而且能够产生极大的经济效益。在科学技术日新月异的今
语音是人们之间进行交流时最常用、最重要的一种信息。语音识别技术就是让机器通过识别和理解,把人类的语音信号转变为相应的命令的技术。目前,语音识别正逐步成为信息技术中
随着无线传感器网络应用在军事等数据敏感领域的深入,其安全问题研究成为热点,而虫洞攻击防御是无线传感器网络安全研究的一个重要领域。当前,设计出一种适合传感器网络特点
医疗服务信息化的国际发展趋势加快了我国医院信息化建设的进程。以提高医疗质量为目的的临床信息系统是医院信息化的重要组成部分。目前,我国临床信息系统处于发展阶段,业务
随着英特网的发展,网络安全问题己经成为因特网进一步普及的一个关键问题。信息在网络传输过程中存在安全隐患的原因是制定TCP/IP协议的时候没有考虑其安全问题。后来为了解
信息系统随着社会经济的发展在企业发展和竞争中的重要性不断提高,激烈的竞争导致信息系统结构不断调整,采用工作流技术的工作流管理系统对业务流程进行了统一的管理,已经成
目前,国内外众多机构从不同角度对发布/订阅系统进行了深入的研究,一些基于发布/订阅交互模型的解决方法和系统已经投入使用。早期,在各行各业的众多信息化领域中,已经有很多