基于实体基因的在线消歧技术研究与实现

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:A2335767
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自web技术出现后不久,互联网就一直是我们活动的中心,从未失宠过。我们在web上以文字、图片、音频、视频等各种形式传递信息,积淀出数量无法想象的数据,其中又以文本数据占绝大多数。如此庞大的文本中隐藏着人物、机构等实体的海量信息,从这些文本中挖掘出有价值的情报是件不容易的事。其中遇到的一个严重问题便是实体歧义性问题,它一般由自然语言表达中的一词多义造成,指的是对于出现在诸多文本中的某个实体指称,如人名“赵薇”,计算机无法直接知道这个词指的哪个人物实体的现象。实体消歧正是为解决实体歧义问题而发展起来的技术。实体消歧技术可被应用于翻译系统、自动问答系统、阅读辅助系统、语义搜索系统、知识库构建过程等等,它在自然语言处理技术体系中扮演者相当重要的角色。实体消歧方法根据是否依赖于预定义的知识库大致分为两类。现有不少方法是基于预定义知识库的,但搜依赖的知识库并不是绝对完备的,有时我们需要在web文本中挖掘某个目标的信息,而这个目标不在预定义的知识库中时,依赖于预定义知识库的方法就显得有些乏力了。本文提出并实现了一种不依赖于预定义知识库的实体消歧方法,它根据实体基因的匹配度进行聚类消歧,主要应用在互联网文本中人物、机构两种类型实体的消歧上。实体基因是本文提出的表示实体信息的一种方式,由实体词基因和实体属性基因构成。实体词基因表征了与目标实体存在某种关联的实体及其关联程度(权重),实体属性即是目标的属性,诸如“生日”、“配偶”等。对于基因的匹配也分为实体词基因匹配和实体属性匹配,前者主要利用词相对于实体的TF-IDF来计算匹配度,后者通过相同属性的加权和得出匹配度。最后将两个匹配模型进行线性组合计算出最终匹配度,若该值达到一定阈值,则认为二者共指一个实体。这是一种无监督算法,在海量文档处理上有着良好的表现,因此适合用作在线实体聚类消歧算法。本文提出的方法能够应用于海量文本中的目标分析、知识库构建等方面。
其他文献
沙飞是我国摄影史上有杰出贡献的摄影家。但从1950年他被枪毙以后,就消声匿迹。直到1986年,他的冤案得到平反,他的名字才重见阳光,他的作品 Shafei is a photographer who
辛亥革命后,“科学救国”思潮成为具有广泛影响的社会思潮。“科学救国”注重科学意识和科学方法,强调科学精神的价值,强调科学的社会功能,重视科学对社会的改造和建设。“科学救
随着全球金融危机的爆发,银行业发展和监管面临严峻挑战。在宏观审慎监管下,实施逆周期监管,以缓解顺周期性对银行的影响。对金融系统顺周期性和银行逆周期监管的相关理论做
目的:检测子宫内膜癌组织中Maspin蛋白的表达,探讨Maspin在子宫内膜癌发生发展中的作用。方法:采用免疫组织化学SP法检测40例子宫内膜腺癌、18例内膜不典型增生及10例正常子宫内
目的运用信息可视化相关理论探究信息可视化设计在运动类APP界面中的应用,结合实际案例分析,探讨如何提升界面的可用性。方法阐述了信息可视化的概念及其研究现状,结合界面设
在配有无线调车机车信号和监控系统(STP)的铁路车站,如果站场存在高建筑物、山体、多隧道、特长隧道等特殊情况,会使车地无线通信出现信号弱或者无信号现象。针对这些特殊站
当前,企业科技档案分类存在不规范不标准问题.这些问题的存在,影响着科技档案检索效率和信息资源的数据共享.本文针对这些问题提出了相应建议,同时讨论了解决这些问题的积极
针对排队模型中因不耐烦而放弃等待的特点,首先针对不耐烦的M/M/S/K+M排队模型,基于马尔科夫理论推导出模型稳态时所满足的方程组,提出矩阵迭代的求解方法对模型求解,得到了
<正> 单纯传授知识,忽视能力培养,也包括忽视智力的发展,是语文教学多年来的弊端。但不能因此得出结论可以不重视语文知识的学习。心理学认为:通过知识的中介作用培养能力,发
脊尾白虾(Exopalaemon carinicauda)是生活在浅海低盐水域的底栖中小型虾类,以其环境适应性广、繁殖率高、生长速度快、食性杂等优点成为沿海滩涂地区的重要的水产养殖品种。