基于LUCENE的主题搜索引擎研究与实现

被引量 : 0次 | 上传用户:A121972311
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息化的高速发展,信息量正以指数规律迅猛增长,互联网已经成为人类最重要的海量信源,“信息迷航”和“信息过载”己经成为人们获取信息资源日益严重的问题。基于Internet的各类搜索引擎应运而生并得到了迅速发展。Yahoo、Baidu、Google等通用搜索引擎功能虽然非常强大,但它们不能对结构化数据作精确的检索。主题搜索引擎是一种对结构化数据进行精确检索的搜索引擎,用户体验更加人性化。随着信息的爆炸增长以及信息多元化的发展,主题搜索引擎正成为研究热点与发展趋势。本文对它的主要技术进行研究并实现了一个主题搜索引擎原型系统。分析了网络爬虫抓取的基本原理、策略以及相关度算法(PageRank、Hits);考虑PageRank值的因素,提出了改进Shark算法的新思路,既保证了网页与主题领域知识的相关度,又顾及到网页的重要性。剖析了全文检索包Lucene,探讨Lucene中使用的向量空间模型,分析了Lucene索引文件的的结构和文档评分算法;解析了Lucene中使用的倒排索引技术,对如何提高Lucene索引性能进行了探讨;分析了Lucene文档评分算法,通过实例探讨了各因素对文档得分的影响;分析了Lucene、Heritrix的部分核心代码。结合本文的实际需要,扩展了Heritrix的FrontierSchedular,设计了URL选择策略,实现了主题网页精确抓取;使用定则表达式和HtmlParser软件包设计了手机信息的精确抽取模板;根据网页消重基本原理,设计并实现了网页消重类;利用JE扩展了Lucene的分词模块,弥补了Lucene中文分词模块按字分词的不足。通过主题搜索引擎的主要技术的研究,设计并实现了一个手机产品信息搜索引擎原形系统。在开发此原型系统过程中,选择了扩展性好的Heritrix抓取主题信息;使用Lucene对主题网页信息建立索引库以及对主题知识库的检索;选用Spring和DWR技术开发用户查询接口。通过对本原型系统的检索性能测试,有较好的召回率和准确率,基本达到本课题预期目标。
其他文献
近几年,大型公共建筑发展迅速,用能数量巨大,随着建筑节能工作的深入,目前已经成为节能研究的重点。其中,商场建筑舒适性要求高、供冷期长,单位面积能耗在公共建筑中最大。但
在工程建设领域中实施建设工程监理制,对于提高工程项目建设质量、缩短建设周期、节约建设资金等都有十分重要的意义。本文对我国建设工程监理组织结构模式及其有效性进行了
<正> 难治性抑郁症(Intractable depression,ID)又
<正> 彩色宽银幕故事片《牧马人》,是一部令人思索的、带有哲理性的银幕新作。它以真实感人的艺术形象,颇具特色的艺术构思,谱写了一曲人性美、人情美的颂歌,真切、内在、冷
目的探讨外侧半规管良性阵发性位置性眩晕(LC-BPPV)患者假性自发性眼震(PSN)的临床特点,并初步探讨其临床意义。方法选取2007年8月—2013年8月于湖北医药学院附属人民医院收治的L
以新近开发的600MW发电机组汽机旁路系统为研究对象,采用大型CAD软件I DEAS对高压旁路减温减压阀进行了温度场和应力场的计算,同时在应力场数值模拟结果的基础上采用θ函数法
《了不起的盖茨比》是美国作家弗朗西斯·斯科特·菲茨杰拉德所写,这部小说以20世纪20年代的纽约市及长岛为背景,展示出美国一战后纸醉金迷的狂欢景象,讲述了纸醉金迷的纽约
为了研究底部排气减阻机理,发展了一套多块结构网格三维湍流流动与燃烧的计算软件(MSTCS-3D)。计算软件采用3阶MUSCL重构方法并耦合Steger—warming通量分裂技术,求解雷诺时均Nav
阐述了火力发电厂汽轮机旁路系统工质内部泄漏的原因,并结合电力行业标准DL/T606.3—2006火力发电厂能量平衡导则第3部分:热平衡的新要求,运用考虑管道热效率的等效热降法对