科研文献信息抽取和检索分析子系统的设计与实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:liaonianyou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机的快速发展和数据时代的到来,人们对数据的准确性要求越来越高。得到更精准、噪音更少的数据,是实现精准的数据分析的关键。对大量数据实现快速检索成为数据处理的基本要求,反应快速、延迟小的系统更加符合人们的需求。本文以科研资料信息挖掘系统为背景,结合具体业务需求,分析了当前文本相似度、文本关键词抽取、全文检索技术的研究现状,完成了科研文献信息抽取和检索分析子系统。作为科研资料信息挖掘系统下的子系统,本系统完成了信息抽取的方案设计、文本关键词抽取、文本之间的相似度比较以及全文检索技术地实现。信息抽取采用POI对科研文档进行读取,通过对文本的解析,分析出课题的必要属性信息,使用计算文本综合权重的方法对Text Tank算法进行改进,使其进行文本的关键词抽取。全文检索子系统利用专有的检索词库确定检索目标,检索词库通过计算机专业词汇、课题领域、课题关键词组成,采用了针对专有检索词库的双向最大匹配分词算法;通过对文档建立倒排索引来优化查询结构,降低全文检索时间;使用BM25概率模型进行相关度排序,按相关度高低的顺序将课题信息呈现在用户面前。系统还使用内存数据库Redis存储课题领域、课题方向、关键技术、检索词库、倒排索引表的信息。最后,经过实际的测试,证明了本系统可以完成自动化的信息抽取,以及快速的完成全文检索功能,符合用户的功能需求与性能需求,整个系统可以投入使用。
其他文献
近年来,青藏高原东部地区出现了明显的草地退化情况,这不仅严重影响了该地区经济的可持续发展和青藏高原牧区牧户生活水平的提高,还将直接威胁到黄河中下游地区的生态安全。
农业科技推广工作对于提高科研成果转化率具有重要作用,是增加农业生产竞争力的关键。我国对农业科技创新驱动作用和技术推广力度极为重视,多次发布文件予以政策性支持。“十
独立研发和合作研发在企业实践中被普遍使用,但是企业往往会面临一个二元性的选择问题,为了能够实现创新收益的最大化,一些企业希望能够同时兼顾独立研发和合作研发。然而,现
扶贫工作历来是政府工作的重点,近年来国家出台了重大的扶贫战略和优惠政策。企业如何服务国家战略,通过产业扶贫和普惠金融,在实现社会效益的同时也实现自身的可持续发展?目
计算机技术和网络技术的快速发展使得信息共享变得更加容易,但是同时也使得信息变得更加不安全。信息安全关乎着国家和社会的稳定,保障自己国家的信息安全成为衡量综合国力的
在机器学习中,多示例学习是一个研究热点,是第4种机器学习框架,目前多应用于自然场景分类、网络目录页面推荐、计算机安全等方面。在多示例学习的研究中,数据包中特征数量较
随着软件系统的不断维护与演化,软件系统的规模不断变大,软件维护的任务越来越复杂。为了更快更好地维护软件任务,需要及时有效地推荐出合适的软件开发者解决相应的软件问题
钢丝绳凭借其自身的良好特性,被广泛应用到工业现场中。在使用过程中存在磨损、刮伤、断丝、锈蚀等损伤,而且钢丝绳使用的场合一般为电梯或者起重机等设备。为了确保安全,需
电声测试系统在国外的发展具有相较国内更加坚实的基础,现存主流产品多有售价高昂、操作复杂的缺点,并且国内市场可做的其他选择寥寥无几。本文以模块化的多功能电声综合测试
随着工业智能化程度越来越高,保障生产过程安全和产品质量已成为当前必须面对的问题,而过程检测技术就是解决此类问题的有效方法。工业生产运行过程每时每刻都在产生并储存大