基于Lucene的AEP垂直搜索引擎的研究与实现

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:digital78
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着阿里软件电子商务平台上软件的增多,单纯的依靠目录式的方法来寻找需要的软件已经不能满足用户的需求,也不能提升用户的体验度,开发搜索引擎势在必行。本文在开源工具包Lucene2.0的基础上,开发了一个能够深度搜索软件详细信息的垂直搜索引擎,力争应用到电子商务平台上。本文的主要工作有:分析包括信息检索的模型等搜索引擎的相关理论;介绍搜索引擎的相关技术,包括网络爬虫Heritrix和DWR的原理和应用;扩展Heritrix并抓取AEP平台上的软件信息;将DWR技术应用于平台的搜索模块,能够大大节省系统资源;使用Htmlparser处理抓取到的文档,将html页面持久化为包含软件所有有用信息的文档;分析Lucene的开源框架、搜索引擎的工作原理,对它的索引构建、搜索模块和过滤排序等有了深入的了解,并在此基础上开发了垂直搜索引擎的相应模块;使用Spring+Hibernate+MySql构建AEP垂直搜索引擎的搜索模块,并使用最大匹配法进行分词处理。总之,本文不仅对AEP搜索引擎进行了实现,还在实现中尽量使用主流的技术,对用到的各种相关工具进行了较为深入的研究,对用到的分词算法和排序算法进行了研究和实现。本文的研究成果可以广泛应用于各种网站和Web应用系统的搜索,开发者可以根据需要制定符合用户习惯和要求的搜索。
其他文献
作为机器人研究中的重要方面,机器人仿真技术始终是机器人领域的热点之一。机器人仿真综合了机器人、自动控制、计算机图形仿真、软件工程、网络通讯等多种技术,目前已广泛应
人类在享受现代化的无线通信方式带来便利的同时,也对无线通信技术提出更高的要求。尤其是应用于军事领域的无线通信设备,更是提出要具有电子对抗的能力。利用空间功率合成技
随着信息技术的快速发展,低压大电流变换器在计算机、通信等领域中得到广泛的应用。现在的低压大电流变换器大都采用隔离型BUCK变换器,为了降低变换器输入直流母线损耗和减小输入滤波器的体积,变换器的输入电压在不断的提高,而变换器的输出电压更低,输出电流更大,开关频率不断提高,因此传统的BUCK变换器已不能满足低压大电流变换器的要求。本文在分析国内外低压大电流变换器发展的基础上,通过对几种典型主电路拓扑的
原子发射光谱仪主要用于成分检测。激发源是其重要部件。电感耦合等离子体(Inductively Coupled Plasma, ICP)激发源因诸多优点得到广泛应用。激发源微型化对研发微型光谱仪至关重要。新型微型ICP激发源功耗、氩气消耗量、体积、重量仅为常压普通ICP激发源的数百分之一。因此,研究激发源参数优化具有较重要的应用前景。本文对各种原子发射光谱仪常用的火花、电弧、辉光等离子体、ICP等激
软件工程管理下的面向对象的软件设计开发技术已经得到了广泛的应用,面向对象技术的特点,使软件的开发更加高效、快捷和易于维护。设计模式是一系列软件开发设计的成熟经验,
氧化铝配料过程因受供矿来源不稳定、返回碱液和污水成分不确定、以及检测滞后等因素的影响,所得生料浆质量指标合格性差。为改善生料浆质量,需要从充满生料浆的满槽中挑选出
近年来,随着网络带宽、计算机处理能力和存储容量的迅速提高,以及各种视频信息处理技术的出现,视频监控进入了全数字化的网络时代。而由于Linux系统其稳定性与安全性以及成本
计算机和网络技术和发展,引发了控制领域深刻的技术变革,控制系统结构向网络化、开放性方向发展将是控制系统技术发展的潮流。工业以太网作为一种新兴、统一、快速发展的标准,已
数据可视化技术是在大型数据库的应用中提出的新的数据分析与处理技术,已成为数据挖掘领域研究的热点。利用可视化技术能够更清晰的观察数据集的分布结构,了解数据之间的相互
感应电动机因其体积小、重量轻、成本低、效率高和运行可靠、维护方便等优点,一直在许多生产和自动化过程中得到广泛的应用。准确、方便和有效地获得感应电动机稳态等效电路参数,不论是对于电机的设计、制造与评价,还是对于电机的应用与维护都具有十分重要的意义。本文说明了三种常用的试验方法:传统的空载和堵转试验方法、直接修正参数法和递推最小二乘法,并分析了它们的优缺点。在此基础上引入了基于遗传算法的感应电动机稳态