面向人物搜索的中文人名消岐方法研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:feng211314
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今世界是一个信息爆炸的时代,人们越来越依赖网络来获取信息。如何从海量网络数据中快速、准确的获得有用的信息成为了亟需解决的问题,在这种背景下,搜索引擎的出现在一定程度上解决了这个问题。然而随着互联网的普及,人们对搜索引擎的要求也不断提升,个性化,智能化,人性化的搜索引擎成为了下一代搜索引擎的研究方向。根据各大搜索引擎的搜索日志统计显示,人们对“人物搜索”这一个性化搜索的需求普遍而迫切,然而目前通用搜索引擎在搜索人物上的表现远不能满足人们的这一需求。要构建能够快速而精准的将用户检索的人物信息呈献给用户的人物搜索引擎,首要解决的就是人名消岐问题。近年来人名消歧逐渐兴起并成为热门的研究方向,受到了越来越多国内外研究学者的关注。国际上在英文人名消歧方面已取得了一定的研究成果,但由于中文信息处理的特殊性,中文人名消歧面临着更多挑战,还存在着许多亟待解决的问题。本文在已有的研究基础上,提出一种基于多阶段聚类的中文人名消歧方法。本文的研究内容主要包括以下几个方面:  (1)本文根据人物基本属性的特点,将人物基本属性分为互斥属性和非互斥属性,并基于中文语言表达的特点,设计了一种中文人物基本属性的抽取方法。  (2)本文提出了一种基于多阶段聚类的中文人名消歧方法。首先,根据不同特征在人物区分度上的不同,本文把文档特征分成两类:强特征和弱特征;强特征包括:人物基本属性特征,命名实体特征,维基百科词条特征;弱特征也就是一般文本特征。本文又把这两类特征分成三个层次:人物互斥属性,强特征,弱特征,这三个层次在人名消歧上的优先级依次降低,用于算法的不同阶段中。本文提出的中文分歧算法共包括三个阶段:第一阶段使用人物互斥属性对文档进行互斥判断,得到文档互斥关系集合;第二阶段基于文档互斥关系集合,使用基于强特征的凝聚式层次聚类算法进行初步的人名消歧;第三阶段使用基于弱特征的消歧算法对上一阶段的输出结果继续处理,以期在不降低或较小降低前一阶段消歧精度的前提下,提高消岐的召回率。  我们使用CIPS-Sighan2010的标准数据集对算法的进行了评测,结果表明本文提出的基于多阶段聚类的中文人名消歧算法取得了良好的消岐效果,在Bcubed-F值上达到93.20,比CIPS-Sighan2010中文人名消歧任务第一名的算法高出1.89%。  (3)为了验证本文提出的算法在实际应用中的性能,我们从中文历史网页收藏系统Web InfoMal中抽取数据整理成网络数据集。网络数据集比CIPS-Sighan2010的标准数据集更贴近真实的应用场景。我们最后对本文提出的算法在该网络数据集进行了实验评测,并对实验结果进行了分析和总结。
其他文献
近些年来,在Internet网络的发展研究中,针对网络流量预测方面的研究越来越备受人们的关注和重视,而建立一个好的网络流量预测模型是人们进行网络性能分析、网络拥塞控制、网络设
自动文摘的目的是利用计算机自动地从原始文档或文档集中提取压缩信息(通常为句子集合或段落),同时该信息能够保留原文所涵盖的主要内容。面对互联网信息爆炸式的增长,如何快速有
本文在研究和分析国内外的网络安全及网络攻击的态势感知基础上,一是构建了基于病毒威胁的网络安全态势评估研究模型框架,框架包括数据采集、数据预处理、态势评估、态势预测和
随着当今社会的快速发展,人们的生活越来越数字化,人们可以通过网络来分享和传播东西,例如,文件,视频,音频和图像等等,但是在频繁的网络传播过程中,有一些盗版者对这些资源进行复制、
该文论述了进行火灾初期烟温参数特性探测技术试验研究的试验方案、及研究所必需的软件和硬件设施.对燃烧的有关基础理论进行了探讨和验证,火灾初期烟、温参数及其各个相关参
在中国有大量聋哑人群,手语是他们的第一语言,是他们生活、工作和学习的主要手段。近代以来,随着社会的进步和计算机科学的发展,基于计算机合成的中国手语表达给聋哑人群更好地融
自然界中的花卉种类繁多,准确把握花卉植物的结构特征对农业生产等领域有着重要的作用。但花卉植物的拓扑结构普遍比较复杂,基于传统方法对花卉植物进行建模不仅效率不高,而
随着智慧城市的提出与快速发展,三维城市空间模型应用领域不断扩大,三维城市建模技术逐渐成为人们的研究热点。然而三维城市建模面临着基础数据获取成本高、建模自动化程度低
由于图像拼接技术解决了宽视野和高分辨率之间的矛盾,并被广泛应用于多个领域。如:医学图像的分析,全景视频监控系统,集成大型的航空和卫星照片及虚拟现实场景的构建等。所以,
在日新月异的互联网时代,随着网络视频数量的与日俱增,含有不良信息的网络视频也不断增多。为了保护未成年人和某些特殊人群,网络不良信息过滤刻不容缓。作为网络不良信息过