基于爬虫的Sohu新闻搜索引擎设计与实现

被引量 : 3次 | 上传用户:carpplolo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网信息增长速度惊人,为了在海量数据中快速找到有用的信息,搜索引擎技术成为了网民关注的热点。本论文的新闻搜索引擎就是在这样的环境下应运而生。对普通用户来说,商业的搜索引擎基本上能满足其应用需求。但是对于特定的用户来说,譬如中小企业用户或者科研机构等,因为商业搜索引擎信息的针对性较低,同时存在不能按需配置等缺陷,他们的应用需求不能通过商业互联网搜索引擎得到完全满足。Lucene等开源软件的出现很好地满足了这个需求,由于它们是完全开源的,开发人员完全能够根据需求开发出适用于具体领域的搜索引擎。本文系统就是基于开源软件设计并实现的。本文首先介绍了搜索引擎的发展历史、趋势及搜索引擎的分类,然后,阐述了系统需求分析,明确系统功能需求与非功能需求,接着设计系统框架与相关系统体系结构,最后详细设计各个功能模块并将之实现。本系统为基于爬虫的Sohu新闻搜索引擎,使用二次开发方法,实现了Heritrix数据抓取模块,HTMLParser数据预处理模块,Lucene索引与Oracle数据库数据生成模块及Lucene搜索核心处理模块等。为了提高用户体验,本文结合Lucene文本匹配算法与PageRank算法,并考虑了时间因素对新闻搜索引擎的影响,提出了一种改进的页面排序算法,在此基础上,设计并实现了一种基于Lucene与Hadoop分布式存储与分布式计算的算法实现方案,从而使展现给用户的搜索结果更加准确,更加合理。
其他文献
现代服务业是国际竞争的焦点和城市经济发展的必然趋势.基于大连市现代服务业所呈现的服务业发展规模进一步扩大、对第三产业的固定投资快速增长、现代服务业使用外资进一步
党的十八大强调,工业化、城镇化、农业现代化和信息化要深度融合、形成互动、协调发展,走"四化同步"之路。2013年两会后,李克强总理指出,要把"四化协调"发展和城镇化这个最大
以哈大齐工业走廊的上市公司数据为基础,运用Fama-French三因素模型,实证分析哈大齐工业走廊上市公司市场股票收益率的影响因子。检验三因素模型分析对于哈大齐上市公司股票
<正>一、我国钢铁行业"十一五"期间经营状况分析"十一五"期间,我国钢铁行业经济效益总体上呈现出先升后降再升的波浪形特征。2006年和2007年利润总额分别是1168亿元和1732亿
资产管理和财富管理行业日益成为传统金融行业之外的一个重要产业。作为资产管理和财富管理的需求者和投资者,金融消费者具有核心地位。在鼓励各类金融产品跨界创新,减少制度
<正>自然界中金矿床的种类繁多,它的形成也是比较复杂的.由于我国近年来寻找、勘探和开采了许多类型的金矿,因而目前我们来讨论金矿的分类是有条件的.人类利用金矿已有悠久的
在分析载重车辆轮胎动态特性的基础上,结合计算机仿真技术,对轮胎及转向系部件构成的系统进行模拟加载与仿真,借助建立的测量函数得到轮胎在不同工况下的力—速度、力—角速
在师范院校健美操教学中,针对学生的教学能力、创编能力、适应能力、自学能力和审美能力的培养进行初步探讨,并提出相应的见解与措施。
近些年来,伴随着工业、建筑业的飞速发展,特别是造船、塑料模具钢、能源用钢等大型设备的快速发展,对高质量钢锭的需求也在不断增长。但是由于钢锭自然凝固时间长,并且其凝固过程
ST12钢是一种冷轧钢,由于良好的可成型性,在汽车制造、电气产品、机车车辆、航空、精密仪表等方面广泛应用。在实际使用中,材料的失效大多发生在表面,如材料的腐蚀和磨损等;所