多源文档全文检索系统设计与实现

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:dixg03
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
全文检索是快速有效的信息检索技术,它极大地提高了人们从大量纷繁复杂的数据中查找特定信息的效率。虽然目前对文本处理技术已经有了很大的发展和应用,但是仍然存在一些问题有待研究:如何抽取有效的文本;如何抽取标记文档中的元数据信息;如何提高文本搜索的准确率和召回率。本文的研究是多源文档全文检索系统设计与实现,主要是对整个文件数据库的表示、组织、索引和查询,即根据用户的查询要求,从文件数据库中检索出相关的信息。其中心环节是文本内容解析、索引库的建立、查询信息的获得、检索结果的处理以及相关信息的匹配,主要研究工作体现在:(1)分析和总结多源文档全文检索系统构建的技术和理论。对中文分词技术、全文索引技术、面向用户需求的检索以及基于内容的元数据描述技术进行了详细的研究与阐述。(2)设计与分析多源文档全文检索系统结构。针对中文全文内容分析问题、多源文档转换问题、中文分词问题,提出了有效的解决模型。研究内容包括全文检索系统结构、功能模块设计和索引结构和数据库设计。研究重点在于分词、索引和检索模块的分析与设计。(3)多源文档全文检索系统构建的关键技术研究。提出一种基于词频统计和检索效率更高的特征词聚合与具备较大灵活性的贝叶斯算法结合的分词构想,有利于透彻地分析用户输入的查询请求,以保证查询结果的质量,返回给用户最想要的结果,同时检索结果也能够具备单词切词的灵活性。(4)多源文档全文检索系统实现。择优选用了Java语言中比较成熟的Struts框架技术来规划系统开发的层次,结合UML统一建模语言和程序设计流程图的方法,对系统中各个功能模块进行编程和实现。论文的特色之处体现在:多源文档的格式转换和文档分析、元数据抽取算法优化技术、文档索引机制。检索的召回率和准确率得到有效提高。通过实例操作,证明该系统能实现多源文档全文检索的功能。
其他文献
目的探讨提高药物咨询服务质量的措施。方法对2002年~2005年我院门诊西药房药物咨询工作的记录进行统计、分析。结果与结论加强临床药师的教育与培养、配置计算机药品查询系
数学思想方法是数学知识的精髓、灵魂,是对数学本质的理解和认识,是数学学习的根本目的。但数学教材是以数学知识为载体纵向展开的,数学思想方法蕴涵在知识体系之中,只是犹抱
设置厌氧、缺氧段的Carrousel氧化沟 (文中简称 :A2 /C氧化沟 )具有生物脱氮除磷功能 ,是目前城市生活污水处理的主流工艺之一。结合工程实例 ,从工作原理、工艺设计等方面对
海洋作为自然资源宝库,是地球物质循环的重要调控器,在人类的生产、生活中起着举足轻重的作用。随着经济的不断发展,人口数量聚增,陆地资源、环境的压力越来越大,土地、矿产
目的探讨手术联合125I粒子植入治疗复发性脑胶质瘤的疗效及影响预后的主要因素。方法 60例手术加放化疗后复发的脑胶质瘤患者随机分为手术联合125I粒子植入组35例,单纯手术对
近年来校园安全事件频发,因此,本文对校园安防的不足进行分析,提出基于物联网的校园安防系统,该系统主要通过校园网和校外网将门禁系统、无线对讲系统和网络视频监控系统联接
选择2000Q1~2012Q3的季度数据为中国金融体系构建一个综合金融稳定指数(AFSI),将其用于对中国金融稳定水平的度量和预测。度量结果显示,中国金融体系大体上经历了三个相对"不
今年是90后应届毕业生进入职场最多的一年。随着时间的推移,90后必将成为我国企业的生力军,作为90后的管理者,将如何针对90后员工的特点进行有效的管理,发挥其主动性和创造性
无论是"指标交易说""土地发展权交易说"抑或"地役权说"都没有对我国当下地票交易的法律性质予以准确揭示。从我国特有的地权结构形态和土地管理体制出发,参考域外经验,在考察
阐述了测量机器人实时自动化监测系统的组成、结构及关键技术,利用该系统进行盾构下穿期间既有隧道的实时风险控制。结果表明,盾构下穿过程中所有风险控制值都在预警值之内,