基于实体上下文的实体关系发现与支持事件发现的网页文档表示研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:jundy123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体是现实社会中一个具体的事物,而在Web上的网页文本中有大量的有关命名实体的内容。这些内容中有些是描述实体的静态属性信息,例如实体的属性,实体之间的关系。描述实体静态信息的文本一般为较短的包含实体的单个句子,而且其信息内容不会随时间产生明显变化。而另一些包含实体的文本内容描述的是实体的动态信息,主要是描述实体参与到新闻事件中,并且在新闻事件中的行为。包含后一种实体信息的内容较之前一种内容要更长,一般包含若干句子构成一段内容相对统一的文本子段,而且其内容信息也会随时间变化而发生明显变化。本文希望通过采用对网页文本中包含实体的上下文进行分析挖掘这一基本方法,分别解决利用实体共现文本发现实体间关系的问题和以实体为核心的事件发现与追踪的问题。概括而言,本文在这两个研究问题上的主要贡献包括:   (一)Web实体关系实例的提取   实体关系在网页文本中的一种重要体现形式,是处于特定关系的实体对共同出现在一段描述这种关系的文本中。这里我们定义这段描述特定实体关系的文本为web实体关系实例。能否提取足够数量与较高质量的Web实体关系实例是能否有效地发现实体间关系的重要前提工作。   已有的使用命名实体上下文来发现命名实体之间关系的工作,一般是直接使用包含命名实体对的句子作为表示关系对的特征。这种做法存在两个明显的问题:其一,在海量网页文本中包含命名实体共现的句子除了描述实体间关系的Web实体关系实例之外,还可能是描述两个实体同时参与到一个事件这样的动态特征。其二,由于描述实体关系的句子长度比传统文本分类语料的长度要小很多,即使描述相同类型实体关系的文本也可能在词汇特征上有很大差异。本文中的实验也验证了直接使用网页文本中实体上下文作为实体关系对特征会对实体关系发现带来的负面影响。   因此,我们提出了描述实体关系的实体上下文的筛选与扩充这两个新的研究问题。在此基础上,本文提出了一种有效的方法来解决上述两个问题。该方法首先利用对wikipedia和百度百科中描述实体关系的文本进行分析挖掘,学习得到描述实体关系的语言模型,利用贝叶斯公式计算实体共现句子包含实体关系信息的概率并依此对共现句子进行筛选;其次,该方法利用搜索引擎作为媒介,通过将描述实体关系的实体共现文本作为查询投送到搜索引擎,得到在互联网中其他描述同一实体关系对的文本作为描述该实体对的文本的扩充,通过迭代执行实体对上下文的筛选与扩充,最终得到表示每个实体对的文本特征。   (二)基于图扩散的实体关系类型标注方法   通过上述工作,我们将每个实体关系对表示为该实体对在网页中的web实体关系实例,下一步的工作是对这些web实体关系实例标注其所描述的关系类型。在本文的工作中,我们使用NIST举办的ACE(Automatic ContentExtraction)评测中提供的命名实体关系分类体系,这一体系包括三大类实体间关系:人物一人物间关系、人物一机构间关系、人物一地点间关系,以及11个具体关系子类。为了确定每个实体关系对的关系类型,前期研究者所使用的实体关系类型标注方法主要是以一定数量的、有标注类别的、描述各类实体关系文本作为训练集,通过传统的有监督学习方法,例如kNN,SVM等,将待标注类型的实体对的共现文本分类到特定的实体关系类别,并依此来标注实体对的关系类型。由于我们要处理的网页文本的特点是数据量巨大,语言规范性不强,因此在网页文本数据上人工标注、或者自动获取一个足够数量与较高质量的描述各类实体关系的训练集都是一项困难的工作。   因此,我们提出了一种新的利用图扩散的实体关系标注方法,所需的人工干预只是对每种关系类别标注少数几个实体对。该方法以共现的实体对作为顶点,以实体对上下文之间的相似度来建立边,构建一个无向加权图,并利用边上的权重将少数几个已标注类别顶点的类别信息,通过半监督学习的迭代扩散方法将少数已标注结点的类别信息在整个图中进行传播,在传播到达平衡的时候获得图中顶点即所有实体对的关系类型信息。通过实验,该方法在标注数据量很少的情况下效果要明显好于已有研究中使用的有监督学习的方法,实验结果也表明利用这种方法所得的实体关系类型结果并不依赖于前期标注的实体对的集合与数量。   (三)基于多维网页文档特征的新闻网页表示模型   事件是一个可观察、非平凡的现象,一个事件包含的元素可以是事件发生时间、事件发生地点,事件经过和参与事件的实体等重要信息。事件在网页中的反映是新闻网页,新闻网页较之传统的新闻媒体(如报纸、广播等)只包含正文特征,新闻网页具有更多有利于新闻事件发现的特征信息,例如网页的URL、网页的时间、网页中出现的命名实体等。本文的实验结果显示这些特征与其所在网页叙述的新闻事件都有很强的相关性,同时这些特征也可以帮助判断两篇新闻网页是否描述同一新闻事件。因此,是否能够提出一种有效的新闻网页标识模型已经是基于新闻网页的事件发现研究中的一个重要、热点研究问题。   前期研究者的工作已经使用了上述中的一些新闻网页中特有的特征信息,例如网页的时间、网页正文中的命名实体等。但需要指出的是,这些工作只是以向量空间模型(Vector Space Model)为基础,利用新闻网页中的这些特征为网页正文表示模型进行修改。   本文提出一种新的基于网页中多维特征的新闻网页表示模型,在此模型中可以任意添加上述与新闻事件相关的各种网页特征信息,各种维度信息在模型中的表示形式与相互关系是独立的。同时,为了准确测量在此模型下不同新闻网页之间的相似度,我们提出一种使用了支持向量机(Supporting Vector Machine)将网页各维度特征的相似度综合的方法。在此方法下,不同网页特征对新闻网页相似度的影响力度可以自动的通过训练学习得到,而不同于已有工作中人工设定各种特征对网页相似度的贡献比例。通过使用来自实际Web中的中文、英文两组不同新闻网页作为数据,我们在实验中使用了新闻网页的时间、正文中出现的命名实体、网页文本正文、网页中相关新闻链接和网页中的读者评论等特征信息来表示一篇新闻网页。实验结果表明,在利用网页中多维特征的网页表示模型下新闻事件发现的效果要明显好于传统上只使用网页正文特征的方法。   (四)以命名实体为核心的正文分段模型   在新闻网页中与新闻事件内容相关的各类特征中,文档的正文特征仍然是最重要的部分。如何对文档正文进行有效的建模将对新闻事件发现的效果有很大影响。新闻文档的叙述方式是围绕参与到事件中的命名实体为核心进行叙述的,文档中命名实体的上下文为描述该实体的属性或者该实体在事件中的行为。因此在本文中我们对新闻文档正文提出并验证了两个假设:   1.新闻文档正文中,命名实体上下文包含的有关新闻事件的信息要高于正文其它部分所包含的信息。   2.新闻文档正文中,不同的实体上下文分别描述事件的不同侧面的信息,例如描述事件背景、事件进展和对事件的评论等。报道相同事件新闻文档中叙述相同类型的实体上下文具有更高的文本相似度。   根据这两个假设,对新闻网页文本的建模可以划分为两个子问题:以命名实体为核心的正文分段问题和文本子段的分类与排序问题。对第一个子问题,本文分别提出了基于句间相似度的分段方法、基于子段间互信息的分段方法和基于文档子段对齐等三种正文分段方法。对第二个子问题,本文根据子段在正文中的位置,其中包含的实体、实体类型和子段内容对子段进行分类,并且通过子段间相似度引入了两个文本子段重要性指标:子段的一般性得分和子段的新颖性得分来评价一个子段的重要性。事件发现的实验结果也显示对正文采用以实体为核心的分段模型表示的方法要优于使用传统的单一正文特征向量的方法。
其他文献
随着软件应用的日益广泛及其重要性的不断增加,人们对软件质量的要求也越来越高。软件可靠性模型作为可靠性评测的核心和关键,可用于软件生命周期的不同阶段,定量地估计和预
随着互联网的高速发展,越来越多的用户在电商平台上进行消费。作为用户消费时重要的决策依据,用户消费后反馈的用户评论在快速增长。海量的用户评论导致用户评论的质量参差不齐
海量数据存储环境是数据密集型应用的基础设施,而信息基础设施的体系架构的选择和关键技术问题的研究与解决,对整个海量数据存储环境的服务质量和性能至关重要。本文对海量数据
随着媒体种类增加以及IMS商用带来的通信应用越来越丰富,吸引人们注意力的内容越来越多,用户不得不在各种应用之间频繁切换,加之通信服务标准很多,很难进行互联互通,从而造成
学位
软件质量是指软件产品中能够满足给定需求的各种特性的总和,其主要的衡量因素是软件可靠性。软件可靠性具有涉及面广、容易量化等特点,同时作为软件质量的固有特性之一,软件可靠
青海湖在野生鸟类的南北大迁徙中处于重要的地理位置。国家在青海湖地区建立了自然保护区。鸟类的聚集使得青海湖自然保护区成为禽流感爆发与传播的一个焦点。因此,该保护区是
当今的软件开发多数是在己有的一些工作基础上进行的,为了提高软件开发的效率和质量,解决软件设计开发过程中的非功能性问题,采用先进的软件工程方法进行系统开发显得愈加迫
尊重知识产权是发展知识经济,提高民族自主创新能力的关键。软件产业是知识经济的重要组成部分,但由于软件具有高附加值、易复制、复制成本低等特点,软件盗版猖獗,软件产业备
课题研究旨在为汽车变速器装配生产线提供监测控制系统。本文根据汽车变速器装配生产线的现场控制及生产监测要求,以及汽车变速器生产流程,并以上汽金杯变速器厂变速器生产线
学位
科学研究日益深入,科学探测仪器、计算机的性能和精度不断提高,这些都为可视化计算带来了急剧增长的数据量。以往的研究主要集中在怎样基于一些高性能并行计算机或者高端专业图