网络协同研究服务环境多文档全文检索的设计与开发

来源 :中国地质大学(武汉) | 被引量 : 0次 | 上传用户:zzyu888888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
全文检索是现代信息检索技术的一个非常重要的部分。它是一种快速有效的信息检索技术,也是处理非结构化数据的强大工具,同时也是搜索引擎的核心技术之一。它的使用极大地提高了从大量纷繁复杂的数据中查找特定信息的效率。 该课题源自于网络协同研究服务环境项目。网络协同服务环境为广大科研工作者提供一个会议、研讨与展示的平台。在该平台的使用中,随之而产生的有大量的不同学者所研讨编辑后生成的文档,这其中又以WORD文档为主,在这些海量的文档中如何快速有效的查找到自己所需要的信息就成为一个现实的问题。 本课题的主要研究任务旨在设计一个针对WORD文档格式的多文档的全文检索工具,实现对指定目录下的目录或文件的遍历和检索,完成多个文档的全文检索功能模块的设计与开发。为用户提供一个快捷、可靠的信息检索渠道。 CLucene是Apache Jakarta的一个子项目Lucene在C语言上的重新实现,它是一个全文检索的搜索引擎库。本文对中文全文检索的有关技术进行了较为深入的研究。在基于字表的全文索引方面,CLucene采用了一种倒排索引结构,实现了分块索引,能够针对新的文件建立小文件索引,然后通过与原有索引的合并,达到优化的目的。同传统索引结构相比,更便于索引的构建、维护、更新,还能有效地提高创建索引的速度。 目前由于CLucene只能对纯文本的数据进行索引,但由于在网络协同环境下,会议产生的文档大多是WORD文档,而并非纯文本格式。因此,本文使用VBA以及OFFICE自动化的相关技术,实现了一种对WORD文档的文本抽取工具,将WORD文档转化为TXT格式的文本文档。从而可以由CLucene的索引机制来实现对文档的索引操作。同时,本文通过系统的研究Clucene的组成结构,实现CLucene对中文文字的支持,并采用了传统的二分法实现了中文分词,扩展了CLucene的功能。 本系统实现了从最初的原WORD文档的文本抽取处理,到最终的全文检索、浏览显示等一系列完整功能。系统整体组织结构简单、各模块相对独立,且完全无需后台数据库支持,对环境依赖低。系统采用的CLucene是开源的免费搜索模块,易于获得和进行二次开发。因此,本系统的设计实现,对WORD文档的全文检索实现提供了一种切实可行的解决方案。
其他文献
安保指挥系统,就是要通过一整套的解决方案,实现指挥中心对安保目标区域的态势监测,资源的指挥调动,以及各种突发事件的应急反应。SOA(Service—OrientedArchitecture,面向服务体
自动对准系统(Automatic Alignment System)是现代工业自动化的基础,所以成为自动化方向的一个重要研究内容。早期的研究主要集中于机械和电子的方法,但都存在一些不足之处,例如
互联网技术的高度发展,为网络实体间的交流、合作带来的极大的便利,多个服务提供方联合起来为共有的用户群提供服务己经成为现实。在传统的网络协作模式下,要实现联合服务,管理来
随着电子科学技术的积累与发展,以及二次世界大战对相关技术的促进,在二战结束不到十年的时间,电视在美国率先普及。从此,电视在之后的半个世纪中,已经成为了人们日常生活的必需品
经济的发展离不开交通,随着我国近几十年的经济飞速增长,交通运输业也在迅速的发展。据调查,近年来,我国公路总里程的增长率为2.5%,而且增长率还在逐年提高。由于建设公路的投资较
因为无穷状态系统拥有无穷多个状态,基于它的可判定性理论更加复杂,对于无穷状态系统的强、弱互模拟等价的判定比有穷状态系统的判定更有难度。我们对无穷状态系统BPA(Basic Pr
随着互联网的发展,社交网络已日趋发达和成熟,用户的参与度也来到了一个前所未有的高度,社交网络现已成为了大多数新闻事件的最早传播源,所以对于社交网络中新事件的检测已经
随着测绘信息化工作的深入,测绘管理部门对数据共享和信息服务的要求与日俱增。怎样集成应用分散、独立的测绘信息,使其更好的为测绘管理决策服务,并提供网络化的社会服务,是目前
优化问题一直是科学技术和工程应用领域的研究热点,传统的优化方法在解决复杂度和规模日益增大的优化问题时遇到了不可避免的难题。随着计算机技术的飞速发展,群体智能算法作
射频识别技术(Radio Frequency Identification,简称RFID)是一种先进的非接触式自动识别技术,它利用射频信号及其空间耦合与传输特性进行双向通信,实现对物体的自动识别和信息采