个性化垂直搜索引擎研究

来源 :河南大学 | 被引量 : 0次 | 上传用户:lixuantea
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前互联网领域主要的搜索引擎服务商如Yahoo、百度、Google等,为用户提供的都是横向的海量信息搜索。而在互联网不断更新和演化的现阶段,我们发现:普通网络用户想找到所需的资料简直如同大海捞针,海量的信息已经不再是发展的主要动力,意识和时效性才是真正的动力。互联网发展的关键不再是能否快速、大量地向用户提供和传递信息,而是能否实现使用户在期望的时间、期望的地点,以期望的方式和成本,获取期望的信息。然而综合搜索引擎可以满足大量信息的横向搜索,但很难兼顾搜索的准确度与相关度的质量。综合搜索引擎的价值在于在做大量的信息导航,对于信息需求相对集中、分类更加详细的行业客户缺乏导向。解决这个问题成为搜索发展的机会,也成为未来科研机构竞相研究的热点。垂直搜索这一新的搜索模式正是在这一背景下产生的。本文主要的研究工作分为两个部分:第一部分通过理论研究分析,提出了对垂直搜索引擎信息采集算法的改进思路;第二部分通过对垂直搜索引擎的核心技术进行剖析,设计并实现了一个垂直搜索引擎的原型系统。正文部分分五章对研究内容进行详细介绍。第一章绪论部分详细介绍了搜索引擎的发展历史,指出了目前综合搜索引擎所面临的问题以及解决这些问题的途径,即本文所研究的方向:垂直搜索引擎。通过和综合搜索引擎在信息服务以及关键技术上的比较分析,指出垂直搜索引擎存在的巨大优势和发展空间。最后,分析了垂直搜索引擎在国内外发展状况以及提出本文所要解决的问题。第二章总体架构与信息采集部分给出了垂直搜索引擎总体架构的设计方案和工作流程,并对垂直搜索引擎自身特点进行分析。此外,在信息采集策略方面给出了常用的信息采集模型,并分析了目前通用的信息采集算法——基于向量空间模型的相似度匹配算法的核心思想及不足。最后,通过对本体的介绍,提出了构建基于本体知识库的智能化信息采集策略的实现思路来解决信息采集过程中一词多义和一义多词的问题。第三章Lucene框架的研究部分对目前最优秀的开源全文检索框架Lucene进行了详细的分析。包括对全文检索技术的介绍,Lucene项目的来源和框架构成的介绍,以及Lucene所提供的索引和搜索功能中非常重要的倒排索引技术和评分机制的介绍,并给出了索引建立和搜索实现的核心程序代码。最后,还介绍了中文分词技术以及Lucene中分词的实现原理。第四章垂直搜索引擎的实现部分结合Hertrix开源爬虫和Lucene框架设计并构建一个面向手机产品信息的垂直搜索引擎的原型系统。该系统分三个部分来实现,第一部分基于Heritrix框架实现了信息采集功能并设计了信息结构化抽取程序。第二部分设计了面向手机产品信息的分词工具,并利用Lucene框架实现了结构化文本信息的索引。第三部分设计了基于MVC架构的查询接口,并实现了原型系统的检索功能。从而为垂直搜索引擎在技术实现层面提供有益的借鉴和指导。第五章总结与展望部分对本文工作进行了小结,并提出了垂直搜索引擎的发展趋势以及若干继续研究的方向。搜索领域有句名言:“用户无法描述知道他要找什么,除非让他看到想找的东西”。微软研究院一名技术专家说:“75%的内容通用搜索引擎搜索不出来”。垂直搜索引擎作为搜索引擎技术发展的一个分支方向,是互联网用户的搜索倾向从起初单纯的希望搜索内容全面向搜索内容全面、搜索准确率提高以及信息的时效增强转移的必然结果。并且,垂直搜索引擎通过对行业领域内的信息模型和用户模型结构化的搜集或再组织,将会提供更多、更专业、个性化的行业相关服务,与传统综合搜索相比,显得更为聪明且更具人性化。因此,垂直搜索引擎市场有其存在的必要性和广阔的发展前景,然而垂直搜索作为一项刚刚起步的新技术,还有许多需要改进和突破的地方,本文对垂直搜索引擎技术的研究将为垂直搜索的发展提供现实指导意义。
其他文献
利用基金会现场总线技术将卷烟厂数量庞大且分散的能源计量仪表,通过数字通信集中,统一监控、诊断和维护。论述了基金会现场总线工程中的H1网络、H1接口、总线配电器、拓扑结
ABE-KONDOH-NAGANO, ABID, YANG-SHIH and LAUNDER-SHARMA low-Reynolds number turbulence models were applied to simulating unsteady turbulence flow around a square
本文通过对上证指数日对数收益率序列的VaR和CVaR的计算,比较了三种不同分布:正态分布,t分布和GED分布,以及不同均值方程和不同波动率方程分别对VaR和CVaR计算值的影响,结果表明GE
本文主要目的是利用融合系技术给出Burnside p-正规定理和Frobenius p-幂零定理的一种新的证明方法.本文引入了饱和融合系中p-正规子群的概念,并用之证明了融合系中的Burnside
分布式系统因其并行性可以降低处理的瓶颈,提供更好的性能价格比,并且具有在系统出现故障的情况下继续运行的潜力,因而得到了越来越广泛的研究和应用。然而由于分布式系统中
本文主要研究Hausdorff算子在加权Hardy空间上的有界性,得到Hausdorff算子在加权Hardy空间上有界的充分条件.这个条件改进了已知定理的结论,并在尺度意义下是最佳的,  本论文
近年以来,一些房地产投资增幅偏快、房价上涨过高。在房价上涨比较快的地方伴随着商品房结构的不合理,中低价位、中小型房屋严重供不应求。房价上涨与投机性购房相互推动:房价上
数据压缩技术是当今通信、广播、存储和多媒体娱乐等领域的一项必不可少的关键技术。本文应用Java编程实现了基于统计模型、字典模型、RLE的压缩算法的数据压缩程序,并进行了
滤波问题在控制和信号处理领域是较为关键的问题之一。自随机系统的最优滤波理论提出之后,随机系统的Kalman滤波理论被广泛应用于通讯、航天、航空、工业过程控制等领域,但Ka
长期以来,森林火灾检测一直都是世界范围内的一个重要研究课题,对于保护地球环境及人类安全都有着重要意义。相对于传统的传感式火灾探测器,基于智能视频分析的火灾监测技术具有