互联网新闻实时信息采集及主题探测研究

被引量 : 0次 | 上传用户:cwdsy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网新闻已经成为人们获取信息、了解新闻的最重要的渠道。它同其他网络资源一样,存在着信息过载的问题。搜索引擎已经在很大程度上解决了用户快速获取需要的信息的问题。凭借强大的搜索功能,用户可以很快的找到关注事件的相关新闻。这是通过传统的关键词检索技术来完成的,将导致分散的主题相关信息被孤立的检索出来,其中包含的热点事件,焦点事件都被忽视了,包含于其中的有价值的信息将得不到不充分的利用。如何快速、及时的寻找同一新闻主题相关事件之间的结构和相互关联,帮助用户及时理解和把握新闻事件的全局概貌和来龙去脉,理清事件的内在逻辑,成为当下的一个研究热点。本文首先对信息采集和主题探测的基础理论方法进行研究,介绍了互联网信息采集技术的基本原理和主题探测的产生和相关技术。然后针对实时新闻信息采集策略从两个方面进行了深入的研究。一方面,为了提高系统采集效率,从分布式系统设计的要点出发,对分布式信息采集的URL选择、负载平衡、协调策略和可扩展性这四个方面作了详细分析;另一方面,针对实时性要求,提出改进的采集频率的计算方式。有了网页信息采集结果的基础后,接下来对网页的新闻主题进行探测。首先分析现有在线增量式主题探测应用于新闻网页主题探测上的不足,提出了基于主题描述模型的主题相关性分析方法用于判断网页与某个主题之间的相关性。为了提高主题探测的效率和质量引入了主题加窗策略和动态修正主题描述实例的方法。最后针对实时信息采集和主题探测两个部分分别设计了对照实验,对本文提出方案的性能进行论证。实验结果表明该分布式信息采集系统能够实现负载均衡,并具有良好的可扩展性,实时采集效果理想,主题探测系统能够很好的检测出当前互联网上出现的各种新闻主题事件,并能准确的将当前的重大热点新闻主题反映出来。
其他文献
针对目前基于GPS浮动车的交通信息采集方法相关研究不够系统、全面,导致大量基础数据浪费、交通信息质量偏低、系统运行成本较高等问题,提出了一种新的基于GPS浮动车的交通信
目前运用GPS浮动车采集交通信息的实践中,由于系统数据存储模式的分散和不规范造成的系统数据利用效率较低、开发和运行效率不高。本文以提高系统数据利用效率、优化系统开发
摘要:目前,高速铁路正处于大规模发展时期,高速铁路桥梁是高速铁路主要的线下基础结构形式,同时,连续梁桥是高铁桥梁主要桥型之一,高速铁路大跨度连续梁桥的抗震性能及配筋水
编辑部医生:我听说晚上不适合锻炼,会导致睡眠问题。这是真的吗?读者:张女士张女士:一般来说,专家建议晚上不要锻炼身体,这是保证良好睡眠的一部分。去年10月发表在《运动医
期刊
<正>近年来,商业部以标准化为基础,以信息技术为手段,构建高效物流配送体系。结合大会"智慧物流新时代"主题,向大家介绍一下我们近几年的工作开展情况。第一,推进物流标准化
目的分析静脉药物配置中心容易出现的不合理用药情况汇总分析。方法对我院2011年1月至2014年4月份期间静脉药物配置中心115例不合理用药情况作为研究对象,将其不合理用药情况
总结了改革开放40年以来,我国在茶叶加工技术、加工设备和茶叶新产品等方面取得的重要研究进展,分析了我国茶叶加工现阶段存在的问题,并提出了相应的发展对策,同时对未来我国
2008年的罕见冰灾暴露了电力系统规划方面的缺陷,也透视了目前停电防御系统在广域信息、仿真分析、决策支持这3个核心功能上的不足。为了有效应对极端外部环境引发的巨型停电
教师的幸福感,不仅关系到教师本人职业生活的幸福,也关系到学生的人格成长和学业发展。本文首先探讨了教师幸福感的内涵和特性,然后以工作情况、社会地位等因素为主,分析了影
近年来,有关行为评价的最重要的研究进展之一,是基于建构水平理论对行为评价的心理距离效应的研究。国内外的该类研究共同发现,至少对正性行为的心理表征,相对于近距离条件,