面向糖业的专业搜索引擎研究与设计

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:shabaoge
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet技术的飞速发展,互联网络上的信息量正以几何级数的速度飞速增长,怎样在这浩如烟海的网络信息中找到用户需要的信息已经成为Internet上一个非常重要的研究课题。Google、Baidu等通用型搜索引擎系统在检索专业内容时,用户往往找不到他们真正需要的内容。本文旨在研究开发面向某一行业的搜索引擎以满足特定领域信息检索的需求。  本课题是在与广西东糖集团合作研究开发的“甲糖煮糖自动控制系统”的基础上展开的深入研究,在Java的全文索引引擎工具包Lucene基础上,通过对Lucene设计原理进行分析,设计开发了一个面向糖业的专业搜索引擎。提出面向糖业的专业搜索引擎的研究思路,对开源项目Lucene的实现机制及自带的中文分词算法和网页排序算法进行了深入研究,通过分析Lucene的系统结构、数据流和索引文件格式,指出Lucene的中文分词器功能太弱、网页排序算法性能不高等缺点,对Lucene的中文分词技术和网页排序算法进行扩展与优化,顺利地开发运用到面向糖业的专业搜索引擎中。  在对Lucene的扩展方面,主要作了以下两方面的研究工作:  (1)中文分词算法的重新设计。为进一步提高分词的切分速度,充分发挥现代计算机内存空间大的优势,重新设计了分词词典结构,并在该分词词典结构上设计实现多次Hash中文分词算法,使其不但结构支持首字Hash查找,而且还支持对剩余词进行Hash查找。通过理论分析得出该算法时间复杂度比同类算法的时间复杂度相对要低,并且在系统实现运行中可发现该算法有较好的分词效果。  
其他文献
近年来,Internet上垃圾邮件问题日益严重。其治理和解决需要从立法、组织和技术三个方面综合共同努力,彻底解决垃圾邮件的影响和危害。作者从治理垃圾邮件的技术层面出发,在
随着信息时代的到来,如何及时精确地抽取和组织无序的海量信息以实现方便的查询,已经成为研究的焦点。特别是当Internet迅速发展的时候,网络信息挖掘已经变得日益重要。而汉语自
射频识别技术RFID(Radio Frequency Identification)是自动识别技术的一种,它通过无线射频方式进行非接触双向数据通信对目标加以识别。RFID中间件是RFID技术的重要组成部分,
本文的研究工作包含两个部分:第一,对Web服务组合的正确性进行了验证,提出了基于BPEL的Web服务组合形式化分析模型和自动测试框架;第二,对Web服务的安全性进行了形式化分析,
随着互联网应用的深入,网络蠕虫对计算机系统安全和网络安全的威胁日益增加。特别是在网络环境下,多样化的传播途径和复杂的应用环境使网络蠕虫的发生频率增高,潜伏性变强,覆
该文共分七个部分:第一章,在对人工排课过程及自动排课研究情况进行分析的基础上,引入专家系统.第二章,介绍了专家系统的发展和特点,重点分析了专家系统的基本组成和各部分功
机器学习需要有标记数据来训练模型进行预测,有标记数据的获取通常需要人工参与,因此价格非常昂贵。在很多实际应用中,未标记数据可以较为容易地大量获取,如何利用廉价的未标
随着计算机和通信技术的发展,信息安全技术越来越重要,而操作系统安全是计算机安全的必要条件。加密文件系统和可信恢复是保障计算机安全,增强操作系统安全性的两项关键性技
随着Internet 的发展,当前的网络协议IPv4 显露越来越多的在地址空间、网络安全等方面的缺点,这导致了IPv6 协议的出现和进一步发展,IPv6 协议取代IPv4协议也已成为互联网发
当前基于中间件技术的传统集成模式,不论在集成手段,还是在集成效果上,均已不能满足新形势下企业应用集成的需要。WebServices作为一种基于标准的、松散耦合的软件组件,具有传统