论文部分内容阅读
全文检索是快速有效的信息检索技术,它极大地提高了人们从大量纷繁复杂的数据中查找特定信息的效率。虽然目前对文本处理技术已经有了很大的发展和应用,但是仍然存在一些问题有待研究:如何抽取有效的文本;如何抽取标记文档中的元数据信息;如何提高文本搜索的准确率和召回率。本文的研究是多源文档全文检索系统设计与实现,主要是对整个文件数据库的表示、组织、索引和查询,即根据用户的查询要求,从文件数据库中检索出相关的信息。其中心环节是文本内容解析、索引库的建立、查询信息的获得、检索结果的处理以及相关信息的匹配,主要研究工作体现在:(1)分析和总结多源文档全文检索系统构建的技术和理论。对中文分词技术、全文索引技术、面向用户需求的检索以及基于内容的元数据描述技术进行了详细的研究与阐述。(2)设计与分析多源文档全文检索系统结构。针对中文全文内容分析问题、多源文档转换问题、中文分词问题,提出了有效的解决模型。研究内容包括全文检索系统结构、功能模块设计和索引结构和数据库设计。研究重点在于分词、索引和检索模块的分析与设计。(3)多源文档全文检索系统构建的关键技术研究。提出一种基于词频统计和检索效率更高的特征词聚合与具备较大灵活性的贝叶斯算法结合的分词构想,有利于透彻地分析用户输入的查询请求,以保证查询结果的质量,返回给用户最想要的结果,同时检索结果也能够具备单词切词的灵活性。(4)多源文档全文检索系统实现。择优选用了Java语言中比较成熟的Struts框架技术来规划系统开发的层次,结合UML统一建模语言和程序设计流程图的方法,对系统中各个功能模块进行编程和实现。论文的特色之处体现在:多源文档的格式转换和文档分析、元数据抽取算法优化技术、文档索引机制。检索的召回率和准确率得到有效提高。通过实例操作,证明该系统能实现多源文档全文检索的功能。