基于实体基因的在线消歧技术研究与实现

来源 :国防科技大学 | 被引量 : 0次 | 上传用户：A2335767

【摘要】

：

自web技术出现后不久,互联网就一直是我们活动的中心,从未失宠过。我们在web上以文字、图片、音频、视频等各种形式传递信息,积淀出数量无法想象的数据,其中又以文本数据占绝

【作者】

：

段炼

【出处】

：

国防科技大学

【发表日期】

：

2004年期

【关键词】

：

实体消歧实体聚类基因匹配知识库构建 TF-IDF

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

自web技术出现后不久,互联网就一直是我们活动的中心,从未失宠过。我们在web上以文字、图片、音频、视频等各种形式传递信息,积淀出数量无法想象的数据,其中又以文本数据占绝大多数。如此庞大的文本中隐藏着人物、机构等实体的海量信息,从这些文本中挖掘出有价值的情报是件不容易的事。其中遇到的一个严重问题便是实体歧义性问题,它一般由自然语言表达中的一词多义造成,指的是对于出现在诸多文本中的某个实体指称,如人名“赵薇”,计算机无法直接知道这个词指的哪个人物实体的现象。实体消歧正是为解决实体歧义问题而发展起来的技术。实体消歧技术可被应用于翻译系统、自动问答系统、阅读辅助系统、语义搜索系统、知识库构建过程等等,它在自然语言处理技术体系中扮演者相当重要的角色。实体消歧方法根据是否依赖于预定义的知识库大致分为两类。现有不少方法是基于预定义知识库的,但搜依赖的知识库并不是绝对完备的,有时我们需要在web文本中挖掘某个目标的信息,而这个目标不在预定义的知识库中时,依赖于预定义知识库的方法就显得有些乏力了。本文提出并实现了一种不依赖于预定义知识库的实体消歧方法,它根据实体基因的匹配度进行聚类消歧,主要应用在互联网文本中人物、机构两种类型实体的消歧上。实体基因是本文提出的表示实体信息的一种方式,由实体词基因和实体属性基因构成。实体词基因表征了与目标实体存在某种关联的实体及其关联程度(权重),实体属性即是目标的属性,诸如“生日”、“配偶”等。对于基因的匹配也分为实体词基因匹配和实体属性匹配,前者主要利用词相对于实体的TF-IDF来计算匹配度,后者通过相同属性的加权和得出匹配度。最后将两个匹配模型进行线性组合计算出最终匹配度,若该值达到一定阈值,则认为二者共指一个实体。这是一种无监督算法,在海量文档处理上有着良好的表现,因此适合用作在线实体聚类消歧算法。本文提出的方法能够应用于海量文本中的目标分析、知识库构建等方面。

其他文献

摄影家沙飞的生死传奇

沙飞是我国摄影史上有杰出贡献的摄影家。但从1950年他被枪毙以后,就消声匿迹。直到1986年,他的冤案得到平反,他的名字才重见阳光,他的作品 Shafei is a photographer who

期刊

摄影家生活星期刊南澳岛石少华上海美术专科学校军区政治部骑兵营晋察冀画报

“科学救国”与民国社会变迁(1911-1936)

辛亥革命后，“科学救国”思潮成为具有广泛影响的社会思潮。“科学救国”注重科学意识和科学方法，强调科学精神的价值，强调科学的社会功能，重视科学对社会的改造和建设。“科学救

期刊

科学救国民国(1911-1936)社会变迁

银行业顺周期形成机理与逆周期监管工具研究

随着全球金融危机的爆发,银行业发展和监管面临严峻挑战。在宏观审慎监管下,实施逆周期监管,以缓解顺周期性对银行的影响。对金融系统顺周期性和银行逆周期监管的相关理论做

期刊

银行业顺周期性逆周期监管形成机理监管工具

子宫内膜癌组织中Maspin蛋白的表达

目的：检测子宫内膜癌组织中Maspin蛋白的表达，探讨Maspin在子宫内膜癌发生发展中的作用。方法：采用免疫组织化学SP法检测40例子宫内膜腺癌、18例内膜不典型增生及10例正常子宫内

期刊

子宫内膜肿瘤腺癌子宫内膜不典型增生Maspin

运动类APP的信息可视化界面设计研究

目的运用信息可视化相关理论探究信息可视化设计在运动类APP界面中的应用,结合实际案例分析,探讨如何提升界面的可用性。方法阐述了信息可视化的概念及其研究现状,结合界面设

期刊

信息可视化运动类APP视觉元素界面设计

无线调车机车信号和监控系统实际应用中无线通信解决方案研究

在配有无线调车机车信号和监控系统(STP)的铁路车站,如果站场存在高建筑物、山体、多隧道、特长隧道等特殊情况,会使车地无线通信出现信号弱或者无信号现象。针对这些特殊站

期刊

双电台中继单电台中继无线移频中继

企业科技档案分类标准化探析

当前,企业科技档案分类存在不规范不标准问题.这些问题的存在,影响着科技档案检索效率和信息资源的数据共享.本文针对这些问题提出了相应建议,同时讨论了解决这些问题的积极

期刊

科技档案分类流水号全宗号档案装具专业档案馆档案分类号

M/M/S/K+M排队模型及应用研究

针对排队模型中因不耐烦而放弃等待的特点,首先针对不耐烦的M/M/S/K+M排队模型,基于马尔科夫理论推导出模型稳态时所满足的方程组,提出矩阵迭代的求解方法对模型求解,得到了

学位

排队论M/M/S/K+M模型不耐烦顾客不确定因素

让学生掌握语文规律性知识,才是发展智力的基础

<正> 单纯传授知识,忽视能力培养,也包括忽视智力的发展,是语文教学多年来的弊端。但不能因此得出结论可以不重视语文知识的学习。心理学认为:通过知识的中介作用培养能力,发

期刊

发展智力刘和珍

脊尾白虾血蓝蛋白大亚基及其变体的克隆及免疫功能研究

脊尾白虾(Exopalaemon carinicauda)是生活在浅海低盐水域的底栖中小型虾类,以其环境适应性广、繁殖率高、生长速度快、食性杂等优点成为沿海滩涂地区的重要的水产养殖品种。

学位

脊尾白虾血蓝蛋白大亚基变体免疫

基于实体基因的在线消歧技术研究与实现

与本文相关的学术论文