论文部分内容阅读
实体关系挖掘是具有重要意义的研究课题。实体关系挖掘的根本任务是从文本数据中发现实体与实体之间的关系。随着计算机技术和互联网的不断发展,当今社会已经步入大数据时代。文本数据量的增长在提供了更多实体关系数据的同时,也对实体关系挖掘的研究方法提出了更高的要求。本文对实体关系挖掘相关技术进行了总结,重点研究了在关系挖掘领域内占主导地位的有监督的实体关系挖掘方法。论文在分析了有监督方法中涉及的相关技术的基础上,针对其中的不足和在大数据环境下存在的问题进行了研究。主要工作包括以下几个方面:(1)论文提出了一种基于词性加权的语义序列核函数,用以计算实体关系的相似度。基于词性加权的语义序列核函数对已有的语义序列核函数方法进行了扩充,在保留了原方法在句式结构分析和语义分析等方面的优势的基础上,增加了对应词性知识的影响因子。这使得关系相似度计算更加符合语言特征,相似度计算结果更加准确,进而保证关系挖掘的正确性。(2)分类算法是有监督实体关系挖掘体系的重要组成部分。针对训练样本集较大环境下KNN分类算法的计算效率低的问题和训练样本不均衡对分类准确度造成影响的问题,本文提出了一种基于Fisher准则和层次聚类的KNN样本空间修剪算法。算法在剔除训练样本集中的部分数据的同时,使得样本在各类之间分布趋于均匀。算法在提高KNN分类效率的基础上,保持了良好的分类准确率和召回率。(3)论文结合目前的大数据处理框架MapReduce,针对关系挖掘过程中数据的特点,设计了一种基于MapReduce的关系挖掘处理方案。该方案通过应用MapReduce的设计模式,将原有单机环境下的关系挖掘处理,移植到多机并行环境中。对于大数据环境下海量的文本数据,关系挖掘处理运算效率可以得到显著提升。最后,论文利用JAVA语言设计和实现了实体关系挖掘实验,对上述理论研究进行了验证,实验取得了良好的结果。