中文搜索引擎的快速检索方法研究

来源 :江南大学 | 被引量 : 0次 | 上传用户:richard8517742
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前,搜索引擎是互联网的一个重要组成部分,也是智能信息处理领域的一个研究热点问题。研究快速搜索引擎的关键算法和实现机制具有重要的学术意义和实际应用价值。一个完整的中文网页检索的索引器的构建涉及到索引的数据结构的选取,倒排文件是大规模中文网页检索中最常用的数据结构,怎么样生成倒排文件,怎样在倒排文件中快速检索是当前搜索引擎研究的重点。本文首先阐述了搜索引擎的组织结构、原理和实现机制,从构建网页库、词典库,到分词算法、建立特征库、索引库,以及建立基于倒排序的快速索引机制,考察了其中的关键数据结构和快速算法,通过一定数量的网页库测试了系统的性能,得到了比较满意的结果。论文的最后,在关键词倒排文件的基础上,介绍了移动搜索的特点、关键技术、与3G的关系,另外设计出一种适用于3G网络的移动搜索模型。模型中采用基于关键词倒排文件的检索方式,同时,考虑到移动终端屏幕尺寸小的特点,通过对搜索到的网页进行分割,抽取出与查询要求最相关的主题区域提交给用户,方便移动用户便捷准确的获取到Web信息。论文的重点在于生成了便于二分搜索的结构化词典,在词典的基础上,改进了前向最大切词算法,实现了基于关键词倒排索引的快速检索算法,构建了词典、索引表和倒排表互相之间的关系,设计出一种基于倒排文件的移动搜索模型。
其他文献
随着计算机的飞速发展,教学系统软件得到了广泛的应用与发展,实现了现代化的教学方式。同时,由于高校实行扩招,学生的人数增加很快,这就需要配备相应的教师队伍。为了保障教
计算机网络安全是一门以理论为基础,以实际操作为主要内容的大、中专学校普遍需要开设的课程。由于资金和设备的原因,各个院校对于计算机网络安全这门课程的实验还不能给予应有
由于视频编解码技术会造成一定程度的图像失真,因此,如何评价视频码流的图像质量是数字视频编码技术首要面对的问题。所有视频质量评价方法中,计算重构视频和原始视频的峰值
互联网的普及使用以及电子商务的发展让用户可以享受电子商务系统提供的越来越多的服务,随即而来的是信息的急剧膨胀,“信息过载”、“资源迷向”等问题相继出现,大量的信息经常
近年来,信息技术高速发展,数据采集和存储技术不断进步,无论企业、科研机构、政府机关等都积累了大量且结构复杂的数据。在获得海量数据的同时,如何从中快速、有效地提取有价
基于Pareto最优概念的多目标遗传算法是处理多目标优化问题的一个重要算法。遗传算法的机理很适合多目标优化,因为遗传算法可以在一代模拟过程中找到多个Pareto最优解,通过适
电能作为一种经济实用、清洁方便且容易控制和转换的二次能源,已成为全世界经济发展及人民生活的重要基础。与此同时,我们看到当代电力系统的电网和负荷构成出现了新变化。一方面,电力网络不断扩张,计算机技术、通信技术和电力电子新技术(FACTS:TCSC、SVC、HVDC、Cus-Pow)在电力系统的应用,使得对系统可靠性要求更高。另一方面,高科技含量的器件、设备与技术(如微电子技术、计算机技术、电力电子技
随着以互联网、移动互联网、物联网为标志的信息技术的飞速发展,信息数据量呈爆炸式增长,大数据处理技术得到了越来越广泛的应用,分布式图计算也在社交网络、电子商务、推荐
非局部图像去噪算法是一个非线性的,空间平均的去噪算法,它不会引起边界的模糊,因而它是一种行之有效的去噪算法。但是这个去噪算法的实现是非常耗时的,因此现在对于这个算法
传统小波理论提供了一种对信号进行多分辨率表示的方法,无论从理论方面还是实际应用方面都得到了很大的发展,在图像处理的各方面都得到广泛有效的应用。新兴的多尺度几何变换