基于分布式的新闻爬取和推荐系统的设计与实现

来源 :山东大学 | 被引量 : 0次 | 上传用户:chans413
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于分布式的新闻爬取和推荐系统是山东省科学院内部立项“智慧科学院”的重要组成部分之一。智慧科学院旨在利用先进的大数据处理技术,研发各类热点技术、促进各团队/院所的科研合作,提高人才筛选与综合评价等,作为科研助手、合作参谋、人才猎手,全面助力科学院的科研、服务和人才工作,促进科学院精细化管理和业务升级。随着机器学习技术的不断发展和市场竞争的加剧,国内外市场上的新闻推荐类应用也越来越成熟和稳定。但是通用的新闻阅读和推荐应用,新闻来源是由新闻应用所属的企业负责的,用户无法对新闻来源提出进一步的定制需求,只能被动接受。本文所做的系统支持用户对感兴趣的新闻页面进行个性化定制,系统后台对用户的定制需求进行处理,将用户感兴趣的新闻来源添加到爬虫的数据源中,使用户更容易、更精确的获取感兴趣的新闻信息。同时本系统也为用户提供了信息检索服务,个性化推荐服务,让用户获取信息的难度进一步降低。本文的主要工作是根据用户对特定网站的需求定义(包括地址、关键字、推送时间等),利用网络爬虫抓取信息,为山东省科学院各级领导、业务科室、科研人员以网页、邮件等方式提供精准的信息检索和推送服务。依托大数据平台技术,搭建用户行为日志收集和分析系统,对用户进行建模。使用Spark分布式计算框架对从互联网上爬取到的新闻数据进行挖掘分析。利用用户建模数据和新闻建模数据进行个性化新闻推荐。本项目综合了互联网新闻爬虫、搜索引擎、机器学习挖掘新闻数据、日志搜集和分析、推荐系统等多种技术,有一定的复杂性,所以将整个系统分成了 5个子系统。新闻爬取子系统利用Nutch分布式爬虫软件爬取互联网上的新闻数据,并二次开发Nutch源代码,精准解析新闻数据的各个字段,将数据中文分词后写入HBase数据库,创建新闻语料库。新闻检索子系统利用分布式开源搜索引擎软件Solr,基于用户的信息检索需求,开发搜索API。新闻特征学习子系统利用Spark分布式计算平台的机器学习库MLlib,对新闻语料库中的新闻数据进行预处理,建模。使用主题模型LDA训练新闻的主题分布向量作为新闻的特征表示。用户特征建模子系统利用JavaScript脚本客户端收集用户行为日志,使用HTTP协议发送到后台,使用Spark Streaming流处理技术实时处理用户日志,对用户进行建模。新闻推荐子系统利用新闻的建模结果和用户的建模结果,计算用户对待推荐新闻的偏好评分,按评分排序作为推荐结果,并使用Spring框架开发Restful API供前台调用。本文完成时已经成功开发出了本系统并在山东省计算中心试运行使用。本论文提出的方案对用户定制新闻的推荐系统具有一定的参考价值。
其他文献
本刊讯近日,为期二十多天的中宇卫浴广东湛江和云南昆明的红歌活动圆满落下帷幕。
本刊讯10月15日,位于江苏省常州市天宁区中吴大道和青洋路交叉口的万都国际家居陶瓷城盛大开业。
以2-正辛基异噻唑啉酮为原料,通过两步反应合成了一种反应性异噻唑啉酮类抗菌整理剂。性能测试表明,当抗菌整理剂乳液用量达到10%(owf)时,经50次水洗后对大肠杆菌的抗菌率可
本刊讯日前,河南省建筑陶瓷工业协会流通分会成立仪式暨河南陶瓷卫浴品牌企业发展论坛在郑州中原百姓广场隆重举行。
生态文明建设对制度保障尤其是对法律制度的回应提出了新的要求。在法律的回应中,适应生态文明建设的法律生态化变革就是不可或缺的重要方面。法律生态化的过程典型体现在环
就业是民生之本,是地方政府义不容辞的政治责任与担当。就业优先战略体现了政府的责任,同时也反映了社会公众的利益诉求,地方政府贯彻就业优先战略要以稳定经济为方法,以"双
本刊讯9月1日至10月16日,为了感谢消费者的厚爱与支持,寸安徽省芜湖市尚高卫浴专卖店推出“蜂”狂卫浴促销活动,吸引大量消费者抢购。