论文部分内容阅读
基于分布式的新闻爬取和推荐系统是山东省科学院内部立项“智慧科学院”的重要组成部分之一。智慧科学院旨在利用先进的大数据处理技术,研发各类热点技术、促进各团队/院所的科研合作,提高人才筛选与综合评价等,作为科研助手、合作参谋、人才猎手,全面助力科学院的科研、服务和人才工作,促进科学院精细化管理和业务升级。随着机器学习技术的不断发展和市场竞争的加剧,国内外市场上的新闻推荐类应用也越来越成熟和稳定。但是通用的新闻阅读和推荐应用,新闻来源是由新闻应用所属的企业负责的,用户无法对新闻来源提出进一步的定制需求,只能被动接受。本文所做的系统支持用户对感兴趣的新闻页面进行个性化定制,系统后台对用户的定制需求进行处理,将用户感兴趣的新闻来源添加到爬虫的数据源中,使用户更容易、更精确的获取感兴趣的新闻信息。同时本系统也为用户提供了信息检索服务,个性化推荐服务,让用户获取信息的难度进一步降低。本文的主要工作是根据用户对特定网站的需求定义(包括地址、关键字、推送时间等),利用网络爬虫抓取信息,为山东省科学院各级领导、业务科室、科研人员以网页、邮件等方式提供精准的信息检索和推送服务。依托大数据平台技术,搭建用户行为日志收集和分析系统,对用户进行建模。使用Spark分布式计算框架对从互联网上爬取到的新闻数据进行挖掘分析。利用用户建模数据和新闻建模数据进行个性化新闻推荐。本项目综合了互联网新闻爬虫、搜索引擎、机器学习挖掘新闻数据、日志搜集和分析、推荐系统等多种技术,有一定的复杂性,所以将整个系统分成了 5个子系统。新闻爬取子系统利用Nutch分布式爬虫软件爬取互联网上的新闻数据,并二次开发Nutch源代码,精准解析新闻数据的各个字段,将数据中文分词后写入HBase数据库,创建新闻语料库。新闻检索子系统利用分布式开源搜索引擎软件Solr,基于用户的信息检索需求,开发搜索API。新闻特征学习子系统利用Spark分布式计算平台的机器学习库MLlib,对新闻语料库中的新闻数据进行预处理,建模。使用主题模型LDA训练新闻的主题分布向量作为新闻的特征表示。用户特征建模子系统利用JavaScript脚本客户端收集用户行为日志,使用HTTP协议发送到后台,使用Spark Streaming流处理技术实时处理用户日志,对用户进行建模。新闻推荐子系统利用新闻的建模结果和用户的建模结果,计算用户对待推荐新闻的偏好评分,按评分排序作为推荐结果,并使用Spring框架开发Restful API供前台调用。本文完成时已经成功开发出了本系统并在山东省计算中心试运行使用。本论文提出的方案对用户定制新闻的推荐系统具有一定的参考价值。