论文部分内容阅读
目前,类人智能在全球蓬勃发展,比较有代表性的项目有日本的Todai Robot项目——目标是让机器人参加高考并取得高分,IBM的Waston项目——已经拓展至医疗等领域,这类类人智能项目对教育、医疗等行业帮助巨大。然而这些类人智能项目的成功应用离不开完备知识库的支持,因此拓展类人智能项目的知识库,对提高其智能水平至关重要。以“文综”为代表的基础教育资源,蕴含了丰富的知识,故研究如何从海量的基础教育资源中获取丰富的语义信息,并构建基础教育领域本体知识库,对构建类人智能产品具有重要意义。 本文依托863项目“面向基础教育的类人智能知识理解与推理关键技术”(2015AA015403)对知识抽取的两个核心任务——领域概念及概念间关系抽取进行了研究。主要研究工作如下: 1)设计了基于 F-M-E的合成词抽取算法及基于词频分布状态的领域概念抽取算法。针对领域概念被分词工具错误切分的情况,结合词性和语言模型的统计特征,设计了基于F-M-E的合成词抽取算法(F指词频,M指互信息,E指信息熵)进行合成词的抽取,保证了领域概念的完整性;针对低频领域概念漏抽取及高频非领域概念被错误抽取的情况,根据领域概念与非领域概念分布状态的差异,设计了基于词频分布状态的领域概念抽取算法并对历史领域概念进行了抽取。 2)设计了基于词向量语义相关度的领域概念对获取算法。本文利用基于神经网络的Word Embedding方法将文本语料的语词映射到低维词向量空间,用向量间的距离表征语词之间的语义相关度,不仅能扩充领域概念集,还能找出语义相关的概念对。 3)设计了基于语义相关度的扩展关联规则非分类关系抽取算法。针对基于关联规则的关系抽取算法仅根据语料的统计量特征抽取具有关联关系的概念对的情况,设计了基于语义相关度的扩展关联规则非分类关系抽取算法,该算法在基于关联规则算法的基础上添加了语义相关度这一评价标准来进行概念对的抽取,并利用词向量和K-means聚类方法对关系标签进行名词扩充并将其分配到相应的概念对上,最后得到概念对关系标签三元组的非分类关系集合。 本文提出的面向基础教育资源的领域概念及关系抽取方法具有较高的性能和较强的实用性。利用该方法抽取的领域概念集及领域概念关系集不仅可以用于构建相应的领域本体知识库,在一定程度上实现了自动化,而且还可以应用于语义检索、文本摘要、知识图谱、问答系统等其它领域。