支持语义推理的学科知识库设计与实现

来源 :北京交通大学 | 被引量 : 1次 | 上传用户:raulhanlin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
2018年,据美国国家科学基金会(NSF)的统计数据显示,中国科学出版物的总量首次超过了美国,作为创新能力最有代表性的指标,其反应了一个国家经济发展和社会繁荣的主要驱动力。快速增长的数据,准确地识别出其对应的学科领域,无论是知识类别划分,还是高效率检索,都具有极大的战略意义。知识库系统不仅能够在效率上极大地节省检索到相关学科知识的时间,同时在未来也具有不可低估的商业潜力。本知识库提供论文的全文检索服务,并支持学科的自动分类,根据知识库构建流程可划分为六个核心模块,分别是数据支撑模块,学科分类模块,知识信息检索模块,统计分析模块,语义推理模块,日志监控模块。本人完成的工作如下所示:(1)数据采集,使用亿级数据集结合爬虫数据作为知识库数据基础,在此基础上进行有效的数据清洗,并入库搜索引擎,提供全文检索功能。(2)学科分类,使用词向量结合卷积神经网络进行模型的训练,并对比FastText,对数据文本进行学科分类。(3)知识信息检索,实现多种检索方式,包含简单检索,高级检索,领域检索等,提供不同排序方式排序检索结果,导出等多种功能。(4)统计分析,提供丰富的可视化显示,其中包括全局统计分析以及检索统计分析,按照检索内容使用不同的展示体系。(5)语义推理,基于数据支持,实现命名实体识别以及关系抽取。(6)日志监控,实现集群的节点和索引级别的监控,配置预警规则,日志快捷查看以及集群瓶颈监测。本系统采取B/S架构为核心构建Web服务平台,在前端展示层使用jQuery,Echarts作为核心框架,逻辑层采取Django作为业务控制中心,而对于数据层,采取Elasticsearch作为存储,检索平台,并结合Redis非关系型数据库提供数据支持,Kibana作监控工具,模型训练使用Keras深度学习框架,词向量训练使用Gensim,对比模型采取FastText框架进行对比,实体识别和关系抽取使用Standord CoreNLP,项目开发阶段,采取华为DevCloud平台作为版本控制工具,测试阶段,使用Esrally进行检索功能的测试,同时采取Selenium进行自动化测试以检测兼容性等问题。从项目立项至今,目前公司已经开发并上线了第一个版本,知识库系统的所有功能均已完成上线,在系统的试运行阶段,开发人员会根据用户的反馈对系统的可拓展性,稳定性等方面做出行之有效的改进和完善,并逐渐构建能够满足用户需求的平台,使平台能够得到更大范围内的推广和使用。
其他文献
天然肠衣,是我们在制作和出售火腿、香肠等肉制品时必须进行的内包装.主要目的是防止在制造过程中产品形状被破坏,保持产品规格化.它主要利用动物内脏中最长的小肠,现在一般
“内忧外患”之下,我国客车企业要想有力地抓住行业整合的有利机遇,抢占大的市场份额。首先就要以同行业中优秀的客车企业为对标企业,通过竞争力各方面、各环节的比较,找出自
本文利用战略管理理论、组织行为理论、组织理论、企业家理论建立了一个中小企业创业绩效的结构方程模型。这一模型包含17个观测变量。以来自计算机制造业的318个企业的数据
<正>国际学生测评项目(PISA)于2012年首次组织了财经素养(Financial Literacy)的测试,参加财经素养测试的学生约做40道试题,答题时间为1小时。全球18个国家或地区选择参加了
提出了已有的6大类共计18个指标的长江干线水上交通安全预警指标体系的不足.在分析水上交通安全风险因素的基础上,结合预警指标体系构建的原则,并通过对海事部门、航运部门及
本文在荒漠肉苁蓉的寄主梭梭苗龄、初植密度、肉苁蓉接种方式、立地条件以及水肥管理等完全一致的试验地内,对寄生和未寄生肉苁蓉的梭梭幼苗生长情况进行了连续定位观测,同时
本文运用认知语言学的有关理论,从位移事件和事件结构的角度对“述+上来”、“述+下来”、“述十上去”和“述+下去”四类述补短语进行了研究。本文的目的在于分析短语中补语
目的:探究妊娠高血压综合症患者中实施临床护理的护理方法及效果。方法:选取妊娠高血压综合症患者120例,随机分为观察组和对照组,各60例,对照组患者实施常规护理,观察组患者
采用搅拌摩擦加工技术(FSP)制备SiCp增强铝基复合材料,研究不同开槽位置对SiCp分布均匀性的影响.结果表明:开槽位置影响塑性金属随搅拌头的迁移流动方式,导致复合材料宏观形