论文部分内容阅读
随着知识图谱的发展,目前已经出现很多优秀的学术知识图谱,比较知名的有Aminer平台、微软学术图谱等,旨在对不同的学术数据进行集成,为科研人员提供更多学术搜索上的帮助。但这些学术图谱建立的是面向通用领域的知识库,在对实体的抽取上只考虑了论文、期刊、学者等通用实体,大量的语义信息没有被挖掘出来,本质的科学问题缺少对于文献实体深度的定义和分析,本文通过定义文献中隐含的语义实体,使用Text CNN分类算法关联研究方法与论文实体,融合语义信息借助随机森林算法梳理其语义模式,构建多语义属性的实体模型,搭建基于语义信息的多维度知识图谱,为科研人员提供多维度的语义检索方式,帮助其快速理解文献深层内容。本文选取分析的文献领域为创业领域,该领域的研究从1980年左右兴起,并迅速进入研究高潮得到研究学者们的青睐,文献内容详实,领域特征明显且论文数量处于快速增长阶段,现有的通用实体类型已不能很好地满足对数据的多维度信息搜索。本文利用知识图谱技术,以创业领域中常见且重要的研究方法这一语义信息为例,构建概念实体,在实体识别的过程中,利用Text CNN实现对文本的分类和定位,并对这一实体在摘要中的语义模式进行标注和自动化提取,构建基于创业领域的语义知识图谱,为学者提供包含研究方法在内的多属性语义搜索服务。当学者搜索某一类研究方法时,通过语义信息定位包含该方法的论文,同时在论文中高亮出相关语句,帮助学者进一步详细了解论文信息,从而实现对检索内容的快速定位和理解。本文主要工作内容如下:(1)定义了创业领域论文知识图谱的数据模式,包含实体类别、属性和实体之间的关系。(2)在对研究方法的实体识别任务上,运用卷积神经网络Text CNN算法依据论文的摘要和题目来实现论文的自动分类,通过与其他分类算法的对比实验可知,本文选择的方法在准确率和召回率方面具有更好的效果。实现对论文中含有描述研究方法语句的自动化抽取任务。(4)通过知识存储与查询,设计并实现围绕创业领域的多语义信息文献检索系统。实验表明,本文运用论文研究方法的自动分类算法和语句抽取算法相较于其他传统算法在准确率和召回率方面具有较好的表现,为知识图谱的构建提供了较高的质量保障。同时,实现创业领域多语义信息的检索系统,不仅有助于科研人员快速查找相关文献,更有助于多角度的理解文献信息,使得在信息量暴增的今天,仍能充分挖掘数据的隐含信息,高效的利用和传播知识。