基于SOLR的大数据库全文检索系统的研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:blueblacktzb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据库中存储的数据尤其是以中文文本为代表的非结构化数据不断膨胀,传统的数据库搜索方式对文本数据支持很差。并且数据库中除了文本数据外,还有很多难以解析的复杂类型数据,传统检索方式对此类数据的内容提取往往一筹莫展。此外,随着数据量的增大和高并发的检索访问,单机的存储容量和硬件性能根本不能满足要求,此时就需要搭建分布式检索系统。本文就是基于以上情况,构建了针对数据库的分布式全文检索系统。   本文首先分析和对比了数据库索引和全文索引的特点,给出了为数据库搭建全文索引的必要性。研究了搭建数据库全文检索的关键,包括索引、排序、中文分词等,探讨全文检索的构建以及优化。此外就实现本系统的主要技术进行了对比和分析,给出了使用Apache Solr来搭建系统的原因,并探讨了其主要技术实现方法,在其基础上开发构建了针对大数据库的分布式搜索引擎,有效地解决了数据库对于中文查询的性能和效率问题。   本系统分析数据库中的典型非结构化数据存储类型,不仅为Varchar2、Clob、Blob等主要中文文本数据存储类型分别建立了数据库表,搭建了文本索引,还对各数据表的相关调用建立了共同检索索引。尤其对于Blob类型,由于其中存储了各类文件(Word、Excel、PPT、PDF等),首先进行了文本元数据的提取,然后建立文本索引。并使用JSP、AJAX和Servlet基于本系统的数据库结构,编写了灵活的全文检索和索引管理平台。然后在此基础上,还实现了索引复制和分片,构建了完整的分布式负载均衡的架构,不仅克服了集中式信息检索在容量和访问数量上的瓶颈,也使得检索更加高效和安全。在本文最后,通过对传统查询以及Oracle Text的时间和空间方面的对比,验证了本系统的高效性和灵活性。
其他文献
作为一种独特的信息载体,光在信息采集、传输与显示等方面具有显著的优点,但关于实现光存储的研究却相对滞后。对光信息进行存储和处理的传统做法是将光信号转换成电信号。然
随着数字通信技术的发展,广播电视系统已经开始全面进行数字化。在数字电视广播网中,存在数量众多的编码器、解码器、复用器等设备,对这些设备的管理是一项很复杂的工作。针对每
随着移动通信技术和应用的迅速发展,未来移动通信系统需要更高的速率和更高的带宽。而与此同时,未来移动通信使用的高频段势必导致无线电波穿透能力的急剧下降,虽然可以通过减小
琼胶酶在分子生物学、琼胶寡糖生产及海藻遗传工程等方面具有重要作用,因此琼胶酶的研究成为海洋微生物酶资源研究的一个热点。本课题组前期分离得到一株高效降解琼胶的海洋菌
香菇(Lentinula edodes(Berk.)Pegler)是著名的大型木腐真菌,在我国有已有800多年的栽培历史。香菇子实体的形成是香菇生活史中最复杂的发育过程,需要遗传、环境、生理等因素的
为了进一步提高现有第三代移动通信(3rd Generation,3G)技术在宽带无线接入市场上的竞争力,第三代移动通信伙伴项目(3rdGeneration Partnership Project,3GPP)组织在版本8(Relea
随着移动互联网的飞速发展,人们对于移动数据业务的要求也越来越高,高速率低延时的网络成为未来技术发展的趋势。3GPP LTE技术作为3G网络的演进技术,它充分利用了OFDM技术和MIMO
通生1号草莓是从长白山绿叶东方草莓(别名深山草莓)花瓣离体培养,愈伤组织再分化形成的再生植株中选育而成,2012年通过吉林省农作物品种审定委员会审定。果实圆形,鲜红色,一
LTE项目在04年的多伦多会议上提出来的,是3G的演进,是全球3.9G的标准。LTE系统中增强了空中接入技术,例如使用了OFDM和MIMO技术等。   因为采用了正交频分复用(OFDM,Ortho
水稻是世界上重要的粮食作物之一,而水稻病害一直是制约水稻产量的重要因素,孙新立(2004)利用图位克隆法从明恢63中分离克隆了定位于水稻第11染色体上的一个抗病基因Xa3/Xa26基因,同时确定Xa3/Xa26是一个串联排列的多基因家族成员,另有研究表明,多个水稻抗病基因均定位于Xa3/Xa26基因家族相应的染色体区段,这就暗示我们这些尚未鉴定的抗性基因有可能就是Xa3/Xa26基因家族的成员。所