大数据环境下实体关系挖掘关键技术研究

来源 :北京交通大学 | 被引量 : 3次 | 上传用户:jrno1213
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实体关系挖掘是具有重要意义的研究课题。实体关系挖掘的根本任务是从文本数据中发现实体与实体之间的关系。随着计算机技术和互联网的不断发展,当今社会已经步入大数据时代。文本数据量的增长在提供了更多实体关系数据的同时,也对实体关系挖掘的研究方法提出了更高的要求。本文对实体关系挖掘相关技术进行了总结,重点研究了在关系挖掘领域内占主导地位的有监督的实体关系挖掘方法。论文在分析了有监督方法中涉及的相关技术的基础上,针对其中的不足和在大数据环境下存在的问题进行了研究。主要工作包括以下几个方面:(1)论文提出了一种基于词性加权的语义序列核函数,用以计算实体关系的相似度。基于词性加权的语义序列核函数对已有的语义序列核函数方法进行了扩充,在保留了原方法在句式结构分析和语义分析等方面的优势的基础上,增加了对应词性知识的影响因子。这使得关系相似度计算更加符合语言特征,相似度计算结果更加准确,进而保证关系挖掘的正确性。(2)分类算法是有监督实体关系挖掘体系的重要组成部分。针对训练样本集较大环境下KNN分类算法的计算效率低的问题和训练样本不均衡对分类准确度造成影响的问题,本文提出了一种基于Fisher准则和层次聚类的KNN样本空间修剪算法。算法在剔除训练样本集中的部分数据的同时,使得样本在各类之间分布趋于均匀。算法在提高KNN分类效率的基础上,保持了良好的分类准确率和召回率。(3)论文结合目前的大数据处理框架MapReduce,针对关系挖掘过程中数据的特点,设计了一种基于MapReduce的关系挖掘处理方案。该方案通过应用MapReduce的设计模式,将原有单机环境下的关系挖掘处理,移植到多机并行环境中。对于大数据环境下海量的文本数据,关系挖掘处理运算效率可以得到显著提升。最后,论文利用JAVA语言设计和实现了实体关系挖掘实验,对上述理论研究进行了验证,实验取得了良好的结果。
其他文献
海上交通运输作为开发和利用海洋的一种方式,对国民经济、对外贸易和区域经济的协调发展发挥着极其重要的支持和保障作用。海上搜救是最大限度地减少海上突发事件对人命财产
中国加入世贸组织十年来,中国的企业不仅在国内市场上面临着激烈竞争,而且还面临国际市场上日益激烈的竞争。在激烈的国内外竞争环境下,企业要维持发展,组织创新成为应对外部
提出了可以保持源图像特征和细节信息的基于结构张量的变分多源图像融合算法.首先叙述基于结构张量的融合梯度场,然后测量每幅源图像的特征图,根据特征图为源图像的每个梯度
银行业一直是金融行业的龙头。中国银行业一直处于快速发展的阶段,同时也带动了证券、信托、保险等业务的发展。与国民经济的增长不可分离的。在我国银行业占有至关重要的位
动脉粥样硬化(Atherosclerosis, AS)是目前临床上的高发病、常见病,是危及人类健康生命的一大类疾病,是导致脑血管病症发生的重要因素之一。前面综述表明,血小板在动脉粥样硬化
随着中国动漫产业的不断发展壮大,作为动漫产业中的重要组成部分,动漫衍生品在新媒体的推动下有了新的市场契机,动漫产业利润的70%来自于衍生产品,包括图书、玩具、文具、音
目的:通过检测手术前后患者射血分数和肌钙蛋白I、肌钙蛋白T、肿瘤坏死因子TNF-α、白细胞介素IL-10的含量变化,研究静脉给予右美托咪定(Dex)对体外循环冠脉搭桥患者心肌缺血
原生裂隙的起裂、扩展和贯通演化特征和破坏规律是研究岩体工程破坏和失稳的基础,渗流对岩体强度的影响也受工程界所重视。由于三维裂隙岩体研究的复杂性,前人研究往往将三维
五年前,在《网球》杂志的创刊号上,费雷罗握紧了拳头,像在宣告一种新的网球声音的诞生。那时候,非典让中国刚刚病过,人们在寻找心理危机之后的健康支撑,那一期的头题是《滚滚
近年来信息技术飞速发展,企业信息化达到很高的水平,电子办公成为企业日常工作交流的主要方式,电子公文成为了企业信息传递、保存的重要形式。企业各部门每天产生的电子公文