面向创业领域科技论文的知识图谱构建与应用研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:sxsj002
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
科技论文是各领域各学科知识和信息的重要载体之一,凝聚着学者们的优秀研究思想、理论与成果,是各研究领域最前沿、最权威、最易获得的知识资源。面对海量学术数据,如何充分挖掘隐含在科技论文内的知识,为科技论文的检索提供更加丰富的语义信息,是对科技知识管理和语义搜索的发展具有重要意义的研究问题。知识图谱技术可以帮助解决上述问题,用知识图谱来规范管理科技出版物、学者、学术活动等科技实体,能够帮助科研人员快捷高效地找到需要的文献资料。目前,工业界和学术界知识图谱与科技资源管理相结合的应用研究已经开展并取得了显著的成果,国内外已经出现了 AMiner和微软学术图谱等以知识图谱相关技术为支撑的学术搜索平台。虽然它们在学者论文的检索、学术推荐等方面表现出色,但是对于科技论文相关实体的挖掘还不够充分,论文可被检索的元数据太少,论文主体中丰富的语义信息和领域知识没有被充分挖掘出来。本文的研究将深入挖掘隐藏在论文中的科技实体和概念,为科研人员提供更加丰富的知识。本文以创业领域中“创业生态系统”相关的科技论文为例,构建面向科技论文的知识图谱,并对图谱的应用进行研究。本文的主要贡献如下:1.构建了一个面向科技论文的知识图谱框架。本文首先定义了图谱包含的六种实体:科技论文、人、组织机构、期刊、会议和地点;然后根据实体特点定义了知识图谱的数据模式,对实体的属性和实体—实体间的关系进行介绍。2.提出了一个实体和概念识别的模型,对隐藏在论文全文中的研究对象实体,研究方法与理论等概念进行了抽取。本文主要采用了建立候选集合与模式匹配算法相结合的方法,首先建立地理实体候选集和领域知识集,然后使用AC自动机进行模式匹配,从科技论文的全文中将研究对象这类地理实体、研究理论与方法一一识别出来,挖掘出这些隐藏在论文中的知识。3.提出了一种科技论文摘要的语义模块标注算法,将科技论文的摘要划分为研究背景、研究主题、研究内容和研究结论这四个语义模块。该算法以句子为单位,从类别、位置和语义三个维度提取句子特征,将人工标注好的摘要用逻辑回归、支持向量机等模型进行训练和测试。结果表明,在小规模数据量的情况下,该算法取得了不错的分类结果。4.构建了一个基于Elasticsearch的全文搜索技术的科技论文知识图谱共享平台。该平台是本文构建的知识图谱的一个具体应用,其主要功能是实现实体搜索并进行结果展示,与此同时,平台还可以对科技论文实体的知识图谱进行可视化展示。本文提出的面向科技论文的知识图谱构建方法具有可移植性、可扩展性,适用于任何学科领域的科技文献管理、搜索和推荐。关于科技论文的知识图谱的研究,在接下来的工作中还可以将其他科技实体扩充进来,如专利、项目等,将其不断拓展成一个内容更加丰富的科技资源库。
其他文献
对于从小就热爱传统文化与现代艺术的庄贺铭而言,进入建筑领域是一件冥冥中注定又水到渠成的事情。他的心里永远都忘不了那个只身去往父亲工作的大山、在母亲工作的医院大院数
《中华人民共和国政府采购法》实施近两年来,起到了不小的作用,但对政府采购合同性质的界定却见仁见智、莫衷一是,政府采购合同属公法性质还是私法性质,抑或二者兼而有之,本
介绍了加热炉在新建、已建、烟囱位置在地面和炉顶的情况下,烟气在线监测系统梯子平台的设置原则,为设计人员在遇到同类问题时提供参考。
将基于两代CPTED理论构建的可防卫单元概念作为讨论对象,以上海古北新区、安亭新镇和浦江新镇为例分析单元大小和特征类型,结论认为,封闭社区是中国城市空间可防卫单元化的典
了解建湖县钟庄地区学龄前儿童肥胖相关影响因素,为针对性的干预提供依据。方法对建湖县钟庄中心卫生院儿保门诊接受健康检查的儿童采用专业仪器测量身高和体重,依据WHO标准
共有人优先购买权是指共有人依照法律规定或者合同约定而享有的在共有人之一出卖其标的物给第三人时,得以同等条件优先于他人而购买的权利。我国法律对于共有人的优先购买权很
目的探讨慢性肾衰并发贫血患者于血液透析前后凝血功能变化。方法检测80名慢性肾衰伴有贫血的患者传统透析前2h、透析后1/2h时、2h,血红蛋白、肌酐、尿素氮、常规凝血指标及纤
110kV及以上高压交联聚乙烯(cross-linked polyethylene,XLPE)电缆是输电线路的重要组成部分,其绝缘状态直接关系到电力系统的安全与稳定。局部放电(partial discharge,PD)检
笔者通过多年的观察发现,生活在高科技时代的孩子们,很容易被电视、电脑、手机、电子游戏、网络游戏等吸引。现在不少城里的孩子四体不勤五谷不分。竟然把油菜花当野花采摘。
期刊
首先讨论了E mail营销的产生和理论基础 ,然后分析了客户数据库的建立与使用 ,最后 ,对增强E mail营销效果的对策进行了研究。