一种基于BTM主题模型的命名实体链接方法研究

来源 :大连海事大学 | 被引量 : 3次 | 上传用户:guanshui5
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络资源的不断膨胀,信息的不断增多使得人们获取有价值的信息变得越来越困难。而Tweets、微博等短文本的发展和流行,使得人们更加无法从中获取更多感兴趣的内容,拓展命名实体条目的歧义问题成为研究的重点难点,命名实体链接技术是解决该问题的重要方法。命名实体链接是把文档中给定的命名实体链接到知识库中一个无歧义实体的过程,包括同义实体的合并、歧义实体的消歧等。该技术可以提升在线推荐系统、互联网搜索引擎等实际应用的信息过滤能力。本文针对短文本内容简短、语言随意不规范等特性,提出了一种基于BTM主题模型的命名实体链接方法。本文首先使用离线版维基百科来构建命名实体知识库,构建同义词表和歧义词表。本文使用基于规则和统计相结合的方法,识别短文本中的命名实体。由于短文本中出现的命名实体的多样性,根据知识库中的同义词表进行标准化,根据歧义词表获取候选命名实体集合并根据命名实体上下文特性进行剪枝,缩减候选实体集的大小,提高候选实体排序的效率。本文综合考虑词共同出现频率与单个出现频率的情况,改进了 MPM词共现度量只考虑共现频率而不考虑单个词出现频率情况,来计算词共现程度系数。其次,本文基于同一文档下词与命名实体具有相似的主题分布的假设,在语义层面对文档进行建模和实体消歧,提出了一种基于BTM主题模型的命名实体链接方法。该方法使用基于词共现程度系数的BTM模型来对命名实体语义建模,并使用了吉普斯采样的方法求解参数,这使得模型更加简单准确,为后续处理数据提供了理论基础。最后本文根据命名实体所在主题空间的位置向量与候选实体的余弦相似度,把给定文本中的命名实体链接到知识库中一个无歧义的命名实体。
其他文献
随着数据规模不断增加和处理难度增大,大数据(Big Data)变得非常重要。存储系统对图像文件等非结构化的大数据查询服务缺乏有力支持,传统的文件元数据信息没有表达图像文件内容,区
在移动对象数据挖掘领域,移动对象异常检测是一个十分值得研究的方向。本文针对移动对象异常轨迹检测的发展状况,全面总结了该领域中的各种方法,对各种方法的不足进行阐述,从
互联网已经成为人们获取信息的重要来源,如何从互联网海量信息中快速、准确地获得所需要的信息,成为当前亟待解决的问题。然而传统的Web信息抽取方法依赖特定的模板,针对一个模
近年来,大数据、人工智能和物联网技术得到飞速的发展,图像、视频等高维数据正呈现爆炸性增长。在这些海量的高维数据中查找目标数据也随之变得耗时和低效。为了解决上述问题
为推动中国高清光盘产业的发展,中国高清光盘产业推进联盟结合国内蓝光和红光的力量,致力于在光盘物理格式之上建立一致的应用层格式,以提高整体竞争力。光盘应用数据格式规定了
随着三维测量与计算机相关技术的发展,人们可以通过多种数据采集手段来获取现实物体的表面信息,并对其进行处理、加工、分析和应用。由扫描获取的点云数据得到了广泛的研究与
过程化SQL语言是一种集成于数据库服务器中的高级数据库程序设计语言,专门用于各种环境下对数据库中的数据进行快速高效访问处理。过程化SQL语言在程序开发过程中存在语法错
当前,云计算与虚拟化技术发展迅速。云计算的重要意义在于为所有用户提供高性能、高可靠度的计算能力。故在云计算系统中,计算资源的调度是云计算中一个重要的组成部分,资源
发达的移动互联网及移动设备加速了移动产品用户行为的无处不在,传统的基于桌面的研究方法已经不能很好的适用于移动用户体验研究中,需要可以配合实时采集用户数据的远程用户
生活中的知识通常具有不确定性、不一致性和不完全性,这些知识被统称为信念。怎样解决信念间的不一致性是计算机模拟人类推理过程的重要研究内容。目前。信念修正要进行修正