论文部分内容阅读
2018年,据美国国家科学基金会(NSF)的统计数据显示,中国科学出版物的总量首次超过了美国,作为创新能力最有代表性的指标,其反应了一个国家经济发展和社会繁荣的主要驱动力。快速增长的数据,准确地识别出其对应的学科领域,无论是知识类别划分,还是高效率检索,都具有极大的战略意义。知识库系统不仅能够在效率上极大地节省检索到相关学科知识的时间,同时在未来也具有不可低估的商业潜力。本知识库提供论文的全文检索服务,并支持学科的自动分类,根据知识库构建流程可划分为六个核心模块,分别是数据支撑模块,学科分类模块,知识信息检索模块,统计分析模块,语义推理模块,日志监控模块。本人完成的工作如下所示:(1)数据采集,使用亿级数据集结合爬虫数据作为知识库数据基础,在此基础上进行有效的数据清洗,并入库搜索引擎,提供全文检索功能。(2)学科分类,使用词向量结合卷积神经网络进行模型的训练,并对比FastText,对数据文本进行学科分类。(3)知识信息检索,实现多种检索方式,包含简单检索,高级检索,领域检索等,提供不同排序方式排序检索结果,导出等多种功能。(4)统计分析,提供丰富的可视化显示,其中包括全局统计分析以及检索统计分析,按照检索内容使用不同的展示体系。(5)语义推理,基于数据支持,实现命名实体识别以及关系抽取。(6)日志监控,实现集群的节点和索引级别的监控,配置预警规则,日志快捷查看以及集群瓶颈监测。本系统采取B/S架构为核心构建Web服务平台,在前端展示层使用jQuery,Echarts作为核心框架,逻辑层采取Django作为业务控制中心,而对于数据层,采取Elasticsearch作为存储,检索平台,并结合Redis非关系型数据库提供数据支持,Kibana作监控工具,模型训练使用Keras深度学习框架,词向量训练使用Gensim,对比模型采取FastText框架进行对比,实体识别和关系抽取使用Standord CoreNLP,项目开发阶段,采取华为DevCloud平台作为版本控制工具,测试阶段,使用Esrally进行检索功能的测试,同时采取Selenium进行自动化测试以检测兼容性等问题。从项目立项至今,目前公司已经开发并上线了第一个版本,知识库系统的所有功能均已完成上线,在系统的试运行阶段,开发人员会根据用户的反馈对系统的可拓展性,稳定性等方面做出行之有效的改进和完善,并逐渐构建能够满足用户需求的平台,使平台能够得到更大范围内的推广和使用。