论文部分内容阅读
据调查显示,新闻阅读是人们上网的一个重要目的,然而众多的新闻网站使得人们难以选择浏览自己感兴趣的新闻。新闻服务系统在很大的程度上解决了这个问题,但是这些商业新闻系统的实现却不得而知。
本文对现有的国内外新闻服务的技术和系统进行了分析和综述。在此基础上提出了使用NUTCH作为平台,通过修改NUTCH,增加插件的方式来使得NUTCH满足新闻服务的需求。本文的主要工作有:
第一,对目前的新闻服务技术,新闻服务系统做了较为全面的综述。介绍了开源系统NUTCH,对NUTCH的架构,特别是插件系统进行了系统、深入的研究。
第二,分析了新闻页面的采集方法,陈述了使用爬虫进行新闻采集的优点,进而对爬虫技术进行介绍。通过分析新闻网站的链接结构特征,提出并实现了基于正则表达式的URL过滤和基于评分的URL排序相结合的新闻采集策略。针对新闻页面的布局特征,分析了新闻主题内容的多种提取方法,设计并实现了可配置的分装器和基于DOM的两种新闻主题内容提取方法。
第三,介绍分析了个性化推荐方法,提出了一种基于新闻分类层次进行用户兴趣建模的新闻协同推荐算法。
第四,基于对NUTCH和新闻服务引擎各个模块的分析,实现了一个基于NUTCH的新闻服务系统。