全文检索在“2008奥运多语言系统”中的应用研究与实现

来源 :北京工业大学 | 被引量 : 2次 | 上传用户:harryhexiaoer
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
全文检索是现代信息检索技术的一个非常重要的分支,它是处理非结构化数据的强大工具,也是搜索引擎的核心技术之一。本文对中文全文检索的有关技术进行了较为深入的研究。在基于字表的全文索引方面,本文提出了一种改进的倒排索引结构,同传统索引结构相比,更便于索引的构建、维护、更新。并根据其特征,设计了优化的查询策略。分析比较的结果表明,改进的索引结构在获得较高的动态性能的同时,还能有效地提高创建索引的速度。本文的重点放在了全文检索技术的应用上,对如何利用新技术、改善检索系统的结构、提高检索系统的性能和效率、加快检索速度、不断适应网络信息发展等方面做了重点研究。全文检索是一种I/O密集型的应用,以往的全文检索系统的开发多在关系数据库的基础上进行。本文针对全文数据库的特点,深入讨论此法弊端与不足,并提出了在文件系统上构建的解决方案。由于目前全文检索系统的开发平台并不多见,本文介绍了一种全文检索引擎工具包Lucene,它功能强大,小巧精悍,便于嵌入各种应用。近年在世界各地被广泛使用,诸如等公司都使用其核心代码。作为一个开源软件,它为我们学习搜索引擎的核心技术提供了绝佳的机会,对其剖析研究、进行二次开发,是一件很有意义的事情。在应用方面,本文主要工作是奥运多语言系统中全文检索子系统的设计与实现。就检索的效率和效果而言,基本达到了最初的设计目的。
其他文献
多主体系统是近年来人工智能的研究热点,它利用系统中的多个主体的交互及合作,在整体上实现问题的求解。多主体系统是一种解决复杂问题的一种方法,是比面向对象技术抽象层次更高
异构Ad Hoc网络以其不同传输方式、不同设备等特点逐步得到广泛的发展与普及。为了保证异构Ad Hoc网络能够正常通信,IP地址自动配置协议在异构Ad Hoc网络中发挥了重要的作用,
随着虚拟现实及其相关技术的发展,数字地球、数字中国、数字城市越来越受到人们的关注,虚拟场景建模技术研究成为近年来国内外的一个研究热点,具有十分广泛的实用价值和应用
准确、大面积、实时的估算地表土壤湿度是“渤海粮仓”科技示范工程的一项重要内容。传统的土壤湿度获取是基于地面站点监测,精度高、时间连续性好,但获取的是点尺度数据;遥
21世纪是信息的时代,一方面,信息技术高速发展,改变我们的生活方式,提高我们的生产效率,另一方面,信息安全事件不断发生,威胁我们的生命、财产安全。信息安全阻碍了信息技术
在人工智能的研究领域中,许多实际的应用问题,如知识表示、自动推理、机器学习、规划以及自然语言处理技术等,都具有不确定性和复杂的关系结构双重特征。统计概率方法能够有效的
Wimax(Worldwide Interoperability for Microwave Access)是一项技术先进的无线宽带网络,世界上各大IT公司都不断在研发该产品。虽然目前各大公司都已经推出了Wimax的一套完
随着万维网技术的快速发展和普及应用,多媒体已成为人们经常使用的信息载体。在万维网上除了普通文本之外,还有大量的图像、视频、音频、动画和图形等,对这些媒体类型的信息
数字化影像设备在临床的广泛应用产生了大量的医学图像数据。如何更有效地组织、管理和检索医学图像数据,让丰富的医学图像更好的为临床、科研和教学服务成为当前迫切需要解决
数字化是一场全世界范围内的产业技术革命,数字技术已经广泛渗透到社会生活的各个领域。作为数字技术重要分支的数字电视技术是继黑白电视和彩色电视后的第三代电视技术。由