基于NUTCH的新闻服务系统的研究

来源 :中国科学院软件研究所 | 被引量 : 0次 | 上传用户:qiuyuwusheng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
据调查显示,新闻阅读是人们上网的一个重要目的,然而众多的新闻网站使得人们难以选择浏览自己感兴趣的新闻。新闻服务系统在很大的程度上解决了这个问题,但是这些商业新闻系统的实现却不得而知。   本文对现有的国内外新闻服务的技术和系统进行了分析和综述。在此基础上提出了使用NUTCH作为平台,通过修改NUTCH,增加插件的方式来使得NUTCH满足新闻服务的需求。本文的主要工作有:   第一,对目前的新闻服务技术,新闻服务系统做了较为全面的综述。介绍了开源系统NUTCH,对NUTCH的架构,特别是插件系统进行了系统、深入的研究。   第二,分析了新闻页面的采集方法,陈述了使用爬虫进行新闻采集的优点,进而对爬虫技术进行介绍。通过分析新闻网站的链接结构特征,提出并实现了基于正则表达式的URL过滤和基于评分的URL排序相结合的新闻采集策略。针对新闻页面的布局特征,分析了新闻主题内容的多种提取方法,设计并实现了可配置的分装器和基于DOM的两种新闻主题内容提取方法。   第三,介绍分析了个性化推荐方法,提出了一种基于新闻分类层次进行用户兴趣建模的新闻协同推荐算法。   第四,基于对NUTCH和新闻服务引擎各个模块的分析,实现了一个基于NUTCH的新闻服务系统。
其他文献
卫星网络仿真是对卫星网络进行优化设计、性能分析、效能评估的有效途径。本文针对卫星网络的建模与仿真开展了如下工作:   围绕卫星网络的建模问题,本文在分析卫星网络组成
随着信息社会各个领域的发展,数据的采集和存储变得越来越重要。传统的数据库技术由于缺乏对时序关系的支持,不能有效地管理与时间相关的数据。时态关系模型的提出拓展了传统的
可计算性理论产生于对算法概念的数学研究,主要研究目标是可计算性对象的计算复杂性和不可计算对象的数学结构。本文研究了计算可枚举图灵度中的嵌入扩充的一个问题,证明了对任
以地球为中心的空间环境仿真系统中,大气效果的实时绘制对于系统的视觉效果以及仿真结果的真实性都起到重要作用。   大气散射是引起各种大气效果的主要原因,对其模拟是大气
本文在对现有网格资源发现方法进行分析的基础上,进一步结合了集中式与非集中式网格资源发现方法的优点,给出了一种具有较高资源发现性能的非集中式网格资源发现方发—树型网格
本论文依托课题组承担的空间信息服务系统预研项目,进行空间计算基本算法的并行化研究。重点研究了空间邻近问题中的“所有最近邻居问题”和“Delaunay三角剖分问题”,设计并实
最优路径问题是计算机科学、运筹学、工程设计等领域众多问题的基础。它的应用十分广泛,涉及网络路由、电路设计、交通运输、机器人运动规划、事务调度中关键路径的计算以及VL
随着计算机网络技术和信息技术的迅速发展,人们生产和搜集数据的能力得到了大幅度提高,同时也推动了数据库技术的极大发展。如何从海量的数据中提取有用的信息和知识为人类服
随着互联网和电子化办公的发展,出现了大量的文本资源。信息抽取技术可以帮助人们快速获取大规模文本中的有用信息。命名体识别与关系抽取是信息抽取的两个基本任务。本文在调
近年来,计算机网络迅速发展,各种网络应用层出不穷,各种网络性能面临挑战。对网络流量进行识别和分类,对网络性能进行测量和分析,已成为计算机网络的一个新兴课题。网络测量能够了