【摘 要】
:
随着万维网的迅速发展以及信息技术在各个科学领域的普及,数据的表现方式在同一科学领域的不同机构之间已呈现出不同的特点,数据之间的共享以及集成成为对数据资源进行有效利
论文部分内容阅读
随着万维网的迅速发展以及信息技术在各个科学领域的普及,数据的表现方式在同一科学领域的不同机构之间已呈现出不同的特点,数据之间的共享以及集成成为对数据资源进行有效利用的难题。为了快速而准确的获取特定领域的科学数据,面向领域的搜索引擎应运而生。针对目前的这一需求,在实验室原来DartSearch与DartQuery的基础上,提出了新的面向中医药领域的多元语义搜索引擎系统。本文主要介绍该系统的设计与实现。首先,本文简要回顾了目前搜索引擎技术的发展现状和面临的难题,并对实验室原有的相关工作DartSearch和DartQuery进行了简单介绍和对存在的问题进行了分析。随之介绍了与系统相关的全文检索技术,搜索结果排序机制以及开源搜索引擎的发展现状,并对系统中用到的两个开源工具Lucene和Nutch进行了简单介绍。本文的重点主要体现在以下三个方面。首先,提出了搜索引擎系统的整体设计,对系统涉及到的模块,架构以及所采取的技术进行了详细的介绍。其次,提出了多元语义数据索引方法,该方法能够集成中医药领域多种来源的异构异质数据,并且具有足够的灵活性来兼容以后新添加的数据类型。最后,提出了基于本体的搜索结果排序算法,该算法在考虑本体重要性的基础上,综合用户查询与结果的匹配度,对结果进行排序。此方法符合用户对搜索结果的预期,具有较好的实际效果。在论文的最后部分,还对搜索系统进行了展示,并扼要的分析了此系统将来可能面临的问题,提出了搜索系统的发展方向。
其他文献
随着中国经济的快速发展,人们的生活水平不断提高,网络在中国得到迅速普及。截止到2015年底,中国的网民数量已达到了6.88亿。再加上网络设备和传输介质等硬件的更新换代,网速
随着移动通讯网络的高速发展,特别是目前GPRS和3G技术的推出,手机上网已成为一种趋势与潮流。手机已成为我们获取信息的重要工具。然而,当我们需要利用手机查询一些如电话号
随着Internet技术的快速发展,互联网已经成为人们日常生活中从外界获取信息不可缺少的手段。从政府机关和各企业公司到个人生活,都离不开互联网。但是随着网络技术的发展,Web网
在本文中,我们关注一个挑战性的问题—基于弱监督的图像区域标注,即在数据集中只有图像层标签这种弱监督信息可以使用。图像区域标注在计算机视觉以及图像信息检索领域中有广
由于当前嵌入式系统运行的应用程序越来越复杂和强大,基于SRAM/DRAM的存储系统逐渐成为了系统能耗和扩展性的瓶颈。最近出现的新型非易失性存储器,包括自旋矩传输磁存储器(ST
现代农业生产离不开环境控制,本文在对国内外温室智能控制进行深入分析的基础上,针对温室智能化控制存在的诸多因子,将智能传感器监测和单片机控制相结合,提出了基于单片机的温湿
H.264/AVC标准是ITU-T VCEG和ISO/IEC MPEG联合制定的新一代视频编码标准,它采用了一系列新技术成果,主要包括:空间域内的多模式帧内预测、1/4像素精度运动估计、整数DCT变换量
生物特征识别技术是通过生物统计学原理和计算机等高科技的技术手段密切结合,利用人体固有的行为特征和生理特性来进行个人身份的鉴定。它具有传统的身份鉴别方式所不能比拟
随着互联网的普及,信息安全问题越来越受到人们的关注,尤其是可信网络内部的安全问题。因此,安全审计系统应运而生。本文将信息过滤技术应用到安全审计的内容审计中,对于完善
随着机器视觉、深度学习等领域的高速发展,基于视觉的智能化屏幕检测算法接连提出。虽然这些算法的检测效果越来越好,但是无法适用于新型号的数据并且无法对缺陷进行精细的评