中文跨文本的人名消解

来源 :北京大学 | 被引量 : 0次 | 上传用户:xlm_7295
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
跨文本命名实体同指是指出现在多个文本中的相同名字指称现实世界中的相同对象。同指消解则是判断相同的名字是否指称相同对象的过程。跨文本同指消解对于多文本摘要和信息融合等与多个文本相关的应用具有重要作用,近几年来受到了越来越多的关注。   本文针对中文中最典型的命名实体-人名进行跨文本的消解研究。   首先,实现了基于上下文文本聚类的人名消解算法。本文讨论了特征的选择,特征权值的计算策略。由于人名实体的数目实现无法确知,本文选用自底向上的聚合式层次聚类方法,同时,详细讨论了聚类停止条件。   其后,提出了一种基于社会网络的人名消解算法。这种方法首先从文本中抽取与待消解人名相关的实体,并利用实体共现信息构建社会网络,再对社会网络进行划分,最后把具有相同社会网络子图的文本聚为一类,代表其指向相同实体。社会网络聚类中使用了谱聚类的图分割方法。   本文用CLP2010的中文人名消歧任务训练数据作为实验测试集,共有32个中文人名的文档集,每个人名的文档集含有100-300个文档。人名消解实验从上下文文本聚类方法和社会网络映射方法分别展开,并用B_cubed指标和P_IP指标对人名消解结果进行评测。   本文的贡献包括如下二点:   提出了基于互信息的特征权值计算方法,提高了系统正确率;并研究了停止条件;   使用谱聚类的方法实现了基于社会网络聚类的人名消歧算法,比较了不同图划分准则对人名消解效果的影响;引入了模块度阈值作为社会网络划分的停止条件。
其他文献
随着电子信息技术的发展,数字信号处理器(DSP)技术得到了广泛的应用,特别是数据采集和处理领域更能突显出DSP的重要作用。在需要实现光谱信号采集的仪器设备中,使用功能强大
学位
RFID(Radio Frequency Identification,射频识别)公共服务体系用于在各个拥有RFID闭环应用的企业之间建立一套可靠高效的信息共享机制,包括物品的信息定位、跟踪与追溯、信息查询
学位
区别于传统的存储服务,P2P存储系统是通过够聚合网络上的空闲存储和带宽资源来提供存储服务,而不是基于数据中心。这使得P2P存储在当今具有重要的应用价值:一方面,随着数据中心规
学位
现代城市是一个影响因素繁多,内部关系极其复杂的系统。由于城市系统中各变量之间影响关系错综复杂,因此挖掘城市运行变量之间的隐含关系是城市规划领域中的一个重要研究方向
随着当代计算机技术和信息技术的不断发展和应用,数据收集手段越来越多,数据存储量越来越大,如何从海量数据中排除一些不会被用户考虑的信息并找出用户最感兴趣的信息,从而为用户
个体活动链包含了个体活动的时间、位置、次序和活动目的等信息,是理解个体时空行为特征的重要基础。从时空角度理解和分析个体活动链能够为城市人口管理、城市规划、交通分析
随着数字技术和因特网的发展,图像、音频、视频等形式的多媒体数字作品纷纷在网络上发布,其版权保护与信息完整性保证逐渐成为迫切需要解决的一个重要问题。隐写技术作为信息
溶解氧是指溶解于水中分子状态的氧,是水生生物生存不可缺少的条件,也是水污染和水体富营养化监测时的一项重要指标,对水质监测、水产养殖业的发展、饮用水安全等都具有非常
学位
科研活动中存在大量文档形式的资料。支持e-Science的协同工作环境不仅要能实现常规的文档共享和管理,还需充分发挥在线协作的优势,能够对大量多种格式的文档进行即时在线浏览
信息技术的飞速发展给数据保护提出了越来越高的要求。传统的数据保护技术无法很好解决备份时间窗口、恢复时间窗口及恢复时间点粒度这三者之间的矛盾关系,持续数据保护(Cont
学位