论文部分内容阅读
随着移动互联网时代的到来,网络使用的便捷性不断提高,终端数量不断增加,使得信息发布的速度加快,信息量飞速增长搜索与特定人物相关的信息是用户在互联网上进行搜索的主要目的之一,而重名现象的普遍性导致互联网文本中人名歧义现象严重通用搜索引擎返回的结果并不能针对歧义现象有效地组织信息,造成了用户耗费大量的时间从许多同名人物中筛选自己感兴趣的人物信息,且有遗漏重要信息的信息的风险因此,如何有效的消除这些歧义,把信息以有组织的形式呈现给用户,就成为一个非常重要的问题为此,本文进行了以下四个方面的工作:第一,本文探讨了人工标注人名歧义语料的过程,并提出了基于自适应共振理论的两阶段消歧策略模仿这一过程:在第一阶段,构建代表人物的类别并对文档进行分类,在第二阶段通过层次凝聚的方法合并相似的类别系统通过类人行为,自动构建目标概念集合并实现歧义消解本文设计实验并验证了两阶段消歧策略的有效性,在两种人名识别结果上,本文的两阶段方法的性能比传统方法提高了0.92%和5.00%第二,本文实现了人机互助的系统,辅助建立识别规则和多种知识词典资源并利用这些资源和规则建立了机构名识别系统,通过与其他两种命名实体识别工具ISLEX和LTP的比较,证明了规则方法在人名消歧任务的识别要求中,具有较高的性能和效率,可以有效适用于人名消歧系统的实际应用第三,本文对搜狗全网新闻语料进行了标注,得到了可用于互联网人名消歧研究的真实网络语料资源;分析了人物属性的对于互联网语料的重要性和各属性的特点;针对网络上的非结构化信息,设计并实现人物属性抽取系统;最后,通过在真实网络语料上的实验,对人物属性特征的有效性进行了验证第四,本文分析了人名消歧系统的任务和功能,设计并实现了基于知识资源人名消歧模块,完成了页面爬取页面分析基于知识资源人名消歧数据存储等模块,实现了直观的消歧结果排序算法,建立了新闻检索结果消歧系统