全文检索系统在网站中的应用研究

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:wangzhanglu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:在分析全文检索原理及对比常见的全文检索系统的基础上,利用Java应用开发接口设计了一个文献资源检索系统,实现了准确快捷的分类信息资源及综合文献全文检索。
  关键词:全文检索;全文数据库;搜索引擎;文献资源系统
  中图分类号:TP391文献标识码:A文章编号:1009-3044(2012)04-0842-04
  Application of Full Text Retrieval System on Website
  LIANG Yuan-yuan1, HE Wan-wen1, WANG Jia2
  (1.Guangdong Meteorological Information Center, Guangzhou 510080, China; 2.Guangdong Meteorological Service Training Center, Guangzhou 510080, China)
  Abstract: On the basis of analyzing the Principle of Full Text Retrieval and comparing unusual structure of Full Text Retrieval system, a new design method of Literature Resources System is proposed, which uses Java application development interfaces, the system achieves fast and accurate classification of information resources and comprehensive literature Full Text Retrieval.
  Key words: full text retrieval; TRS full text database; search engine; literature resources system
  随着企事业单位信息化程度的不断提高,很多单位的核心业务数据都存贮在SQL Server、Oracle、Sybase、Informix、IBM DB2等关系数据库中,而这些数据库系统通常缺乏对存储在其中的数据内容进行有效检索和分析,这使得在数据管理中出现查询数据难,更改数据难等问题,且实际检索效率随着数据的增长而急速下降,尤其对复杂的文本检索问题尤为突出;常见的全文检索系统有TRS, lucene,xapian,sphinx,TRIP,TPI,DESE等,其中,北京拓尔思信息技术股份有限公司的TRS全文检索系统是是国内最为常用、成熟且稳定的信息检索软件,TRS全文数据库系统提高接近100%的查准率,输出结果可按相关度或字段值排序,或者多字段的联合排序,且能够分类检索结果,完全满足电子政务、电子商务等最新需求的数据库系统,基于此,以TRS全文检索系统为平台,利用TRS Java应用开发接口设计了一个文献资源检索系统。
  1全文检索系统结构简述
  
   2.2 lucene系统
  Lucene是Apache公司的一个基于Java的开源检索引擎类库,其提供了多个应用程序编程接口函数及多个数据存储结构。Lu? cene的源码主要由7个程序包组成,分别是Org.apache.lucene.analysis(语言分析器), Org.apache.Lucene.store(数据存储管理), Org. apache.lucene.document(文档结构管理类), Org.apache.lucene.search(搜索管理), Org.apache.lucene.indexI(索引管理), Org.apache.lucene. store,util(基础公共类)和Org.apache.lucene.queryParser(查询分析器),这7个程序包的相互关系如图3所示:
  
  3文献资料检索系统设计
  基于上述全文检索系统分析对比,设计的文献资料检索系统以TRS全文检索系统为平台,利用TRS Java应用开发接口,数据库底层通过TRS GateWay实现TRS与Oracle数据库及时数据更新,数据存储由Oracle完成,信息索引检索工作由TRS完成,可提供网络检索和本地检索方式,方便快捷地完成进精确检索、模糊检索及联合检索,且能实现逐级分类细化检索,最后还能够对检索结果按照相关度、发布时间进行排序,此外还支持包括TEXT、HTML、RTF、PDF、S2 /PS2/PS、MARC、MS OFFICE(Word/Excel/Powerpoint等多种格式文件的存储、索引与检索。基于对检索方式多样性、查全与查准及平均检索响应时间以及等方面的考虑,采用TRS检索系统作为开发平台,具体包括TRS Web应用服务器、TRS集群服务器组、TRS全文检索网关、TRS全文数据库服务器、和TRS Admin工具三个部分,系统架构如图4所示。
  3.1实现方案
  
  1)利用TRS全文检索数据库应用服务器软件,实现对文献资源统一检索平台的检索服务功能;
  2)利用TRS全文检索数据库集群软件,实现对服务器组数据库内的文献资源进行存储、检索与全文数据库服务器组之间实现分布式检索;
  3) TRS WAS通过设置检索库字段获取TRS Database中指向的表单文件,通过设置数据库字段获取表单文件的字段信息,通过设置概览字段,细览字段、默认检索得到显示信息,此外,还利用TRS WAS抽取TXT、PDF、WORD、EXCEL、POWERPOINT、XML、RTF、HTML、音视频等类型的文本,并装载到TRS Database中;
  4)利用内容相关度排序、分词词典、二次检索、渐进检索词根检索等技术,对文献资源元数据内容进行自动分词检索排序;5)利用TRS Admin功能,实现文献资源元数据的添加、修改、删除等维护;
  6)利用实时动态索引技术,在数据增改删时能快速响应同步更新索引,而无需重建整个索引,确保了信息的有效性与实时性。
  3.2主要功能实现关键技术
  常见的TRS编程接口包括:TRS Server,TRS Admin,TRS C API,TRS ADO和TRS JavaBeans。
  1)数据库读写操作
  利用TRS JavaBeans技术对数据库进行读写操作, TRS JavaBeans技术将逻辑层与表现层相分离, TRS JavaBeans组件封装了与TRS数据库服务器相关的Java类,并为操作TRS数据库提供了统一开发接口,在数据库读写开发中,需要在程序开始处引入trsbean. jar库,对数据库进行操作一般是通过TRSDataBase与TRSConnection类实现,如服务器连接代码如下:
  try {//与TRS服务器建立连接
  if (TRSConn.connect(ip,端口,”用户名”,”口令”)){ }
  else {
  out.println("与TRS服务器建立连接失败! ");
  }
  } catch(TRSException TRSe) {
  out.println("连接失败ResultSet! ");
  }
  2)概览与细览功能
  概览与细览需要通过包含TRS置标的JSP或HTML文件来实现,TRS置标是控制数据的表现形式,将数据与表现相分离,通过TRS置标添加向导方便的进行模板TRS置标的插入,TRS置标元素可以精确到字段级,常用的置标主要由四种:概览置标,TRS_RE? CORD,细览置标和TRS_TEMPLATE。TRS Javabeans的TRSResultSet对象还提供了丰富的函数可以读取记录的页码信息,如使用getPage可以得到当前记录所在页号,使用GetPageCount可以获取记录集中所包含的记录页数,使用getPageSize可以获取记录集每页所包含的记录数,使用getRecordCout得到记录数,遍历代码如下:
  try {
  TRSRS = TRSConn.executeSelect(databasename,Select1,"用户名","密码", null, 0, 0, false);
  TRSRS.moveFirst();//记录定位
  ......
  TRSRS.close();
  } catch(TRSException TRSe) {}
  4结束语
  从全文检索系统结构出发,分析了TRS全文检索系统,采用全JAVA三层架构,利用TRS Java应用开发接口技术设计了一个基于TRS全文检索系统的文献全文检索系统,借助TRS系统开发网站,可以为网站技术人员节约大量的精力和时间,实现了对海量信息的智能化处理。
  参考文献:
  [1]杨春雷,陈昕.TRS在吉林省图书馆网站建设中的应用[J].图书馆学研究,2011(22).
  [2]梁苑苑,石小英,李娜,等.浅述TRS网站内容协作平台及其数据库的备份[J].电脑知识与技术,2010(34).
  [3]梁苑苑,王佳.TRS网络信息雷达系统在新聞网站数据自动化迁移中的应用[J].气象研究与应用,2010(4).
  [4]吴秋萍,应用TRS WCM实现党校门户网站的设计与开发[J].电脑知识与技术,2010(21).
其他文献
目的:研究冠状动脉瘤样扩张与心肌缺血的关系.方法:收集2002-04-2004-04 440例冠状动脉造影的病例,分析造影结果.结果:8例有冠状动脉瘤样扩张,均有心肌缺血的临床症状与表现,1例
建立动物防疫档案管理制度是加强动物防疫管理的重要内容。从2008年起,平乐县实施动物防疫档案管理制度,对辖区动物统一建立防疫档案。经过两年的实施,现已建立了较为完善的动物
水产品的价格,一向受供需关系影响。在面对如此之高的养殖量时,金鲳鱼价格下跌在所难免。然而意外的是,7月,徐闻外罗和广西钦州湾海域(钦州港和龙门港)均先后发生了重大死鱼事
检测乙型肝炎病毒(HBV)感染者血清,获得HBV标志物(HBV-M)多种组合结果模式.其中少见结果模式难以免疫学的一般原理解释,也不易判断其临床意义.本文5000余例样本例证了少见结
目的:了解和探讨影响整体护理质量的因素,明确其原因,积极寻找并采取行之有效的干预对策,充分发挥护士的潜能和创造性,促进整体护理工作更深入健康的发展.方法:在本院开展整体
2006年以来我国许多省市区的养猪业深受所谓“高热病”的威胁,养猪生产受到严重影响,导致猪肉供应紧张,价格持续上涨。为了帮助大家认识该病及其防控,编辑部特别组织有关专家撰写
鲢、鳙鱼生长在淡水湖泊、河流、水库、池塘里。多分布在水域的中上层,是中国特有鱼类,在中国分布范围很广,是池塘养殖及水库渔业的主要对象之一,经济价值较高。盛产于有"中原
经口/鼻面罩行无创正压通气(NIPPV)用于治疗急慢性呼吸衰竭已有十余年,NIPPV操作简单,易掌握,可减少急性呼吸衰竟患者的插管率,降低住院费用,正确掌握使用指征和操作是应用NIPP
2014年12月底,秘鲁政府正式公布B季"零配额",前期多数鱼粉业内人士已默认"零配额"的预期,所以利好消息在前期已经被消化掉;另外智利已经正式公布了2015年配额数量在140万t左右,同
目的检测鞘氨醇激酶-1(Sph K1)在正常肝细胞系L02,肝癌细胞Hep G2、Huh7、Bel7402中的表达,筛选Sph K1高表达株,并探讨Sph K1拮抗剂PF-543对其高表达株细胞增殖能力的影响。方