新闻类网页内容感知系统研究与实现

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户：jff3551

【摘要】

：

随着互联网的高速发展,网络资源不断丰富,其中新闻类网络资源更成为展示和了解国内外新闻时事的主要途径,影响着广大网民对各类新闻事件的认知。对于各大新闻门户网站和为其

【作者】

：

田鹏程

【出处】

：

北京邮电大学

【发表日期】

：

2016年01期

【关键词】

：

内容感知新闻网页网页内容抽取新闻话题检测 URL特征解析

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网的高速发展,网络资源不断丰富,其中新闻类网络资源更成为展示和了解国内外新闻时事的主要途径,影响着广大网民对各类新闻事件的认知。对于各大新闻门户网站和为其提供CDN加速服务的第三方厂商而言,每天都会产生大量记录用户访问请求的访问日志,这些日志集中反映了某条新闻或者新闻话题的受关注程度,隐含着社会舆论的走向,也体现了用户对各类新闻报道的重视和喜好。新闻类网站和CDN厂商迫切希望通过访问日志中的请求URL实现对新闻网页的归属信息感知、新闻话题感知、关键内容感知等,进而把握新闻热点并为用户提供更好的服务。因此,结合新闻类网页URL的结构特征实现新闻内容分析和新闻话题检测等新闻网页内容的感知成为了研究热点。本文围绕新闻类网页URL特征解析及新闻话题检测等感知需求,对新闻类网页内容感知的相关技术方案进行了研究和实现,并开发实现相应网页内容感知系统。主要研究内容包括:(1)新闻类网页报道正文的准确提取。本文基于新闻类网页的特点,对原有的树路径匹配算法进行了改进,并基于改进后的算法生成了新闻正文所在DOM树路径的标签序列模板并设定了模板中字符含量的阈值,从而实现了有效提取报道正文;(2)新闻类网页URL结构组成及各字段特征研究。通过研究新闻类网页的重要属性——URL的组成结构及各个组成成分字段的固有特征,提出了获取网页所属网站名称字段、新闻类目字段的方法以及借助URL特征正则表达式对正文类网页和非正文类网页进行初步分类的方法,从而实现了网页的快速有效分类;(3)新闻话题检测。在新闻文本预处理的基础上,选择最接近文章形成过程的LDA(Latent Dirichlet Allocation)主题模型表示文本,并得出了适用于本文业务场景的模型初始化参数,由于待处理文本规模较大,本文利用K均值聚类算法收敛快的特点以及层次聚类算法准确度高的特点,将二者结合,形成适用于本文研究背景的两层混合聚类策略,并对聚类策略中初始聚类中心的确定方式实行了改进,从而通过聚类新闻报道进行话题检测。根据对相关技术研究所得的解决方案,本文实现了基于模板路径的新闻内容提取策略、新闻话题检测模型及网页URL特征解析策略,并通过实验结果证明了本文所用策略及模型的有效性。基于以上关键技术方案的实现,本文完成了新闻类网页内容感知系统的开发,该系统根据访问日志中的请求URL字段集合,实现了网页归属信息提取、新闻话题检测、新闻热度统计、关键词热度统计等功能,为引导和把握舆论导向提供了基础,同时为新闻类门户和CDN厂商优化自身服务提供便利条件。

其他文献

基于Bloom滤波器和改良Trie树的SDN查找结构的研究与设计

随着网络技术的高速发展,互联网已经成为日常生活和文明进步中至关重要的部分,且由于光通信技术的普及和应用,链路传输速率已不再是制约网络技术性能提升的瓶颈,而网络查找和

学位

软件定义网络流表查找Trie树算法Bloom滤波器交换机

基于多核架构的LDPC码的研究与实现

高速通信领域的扩张对通信的速率提出了更高地要求,多核架构的蓬勃发展以及逐渐成熟的并行计算模型和多线程技术在近年来受到的关注度越来越高。本文基于多核平台架构,建立了

学位

多核多线程LDPCOpenMP增量最小和算法同步

基于移动互联网的网络互动应用通用架构的研究与开发

近年来,随着移动终端技术的发展、各大互联网公司的崛起,移动互联网发展迅猛。用户对于移动应用的功能和体验的需求逐步提高,网络互动应用是现在和未来APP的主流趋势,因此研

学位

网络互动Cocos2dx-lua集群式服务器负载均衡

基于不变量的回归测试用例集约简方法研究

回归测试成本高,是软件测试过程中是必不可少的阶段。随着软件开发过程的不断深化,需要频繁地进行回归测试,测试用例集的规模越来越大,而这些测试用例集中积累了大量冗余的测

学位

测试用例回归测试约简程序不变量Daikon

马铃薯发酵饮料工艺优化及风味物质分析

马铃薯营养丰富,我国马铃薯种植面积和产量均居世界第一,但目前主要以鲜食和初级加工产品为主,且加工技术水平落后、深加工产品种类少、附加值低。为此,本研究以新鲜马铃薯为原料,通过液化、糖化、发酵工艺制备马铃薯发酵饮料。具体研究内容与结果如下:首先,通过多种营养成分分析,最终从六种不同品种的马铃薯中,确定以“布尔班克”作为试验材料。其次,分别以还原糖含量、感官评分为考核指标,采用单因素和Box-Behn

学位

马铃薯发酵饮料复合酒曲响应面风味物质

电源管理芯片中电源顺序控制器的设计和验证

便携式移动设备不断普及,使得用户对其品质要求日益提高。电源管理芯片(PMIC,Power Management Integrated Circuit)是各种便携式移动设备的重要组成部分,其品质高低不仅关系

学位

电源管理芯片电源顺序控制器UVM验证方法学受约束的随机激励

可扩展的远程虚拟硬件实验平台软件系统的研究与实现

近年来,随着网络信息技术的快速发展,传统的数字电路类实验也正在经历着信息化的变革,多种形式的远程实验、虚拟仿真实验相继被国内外各高校采用。与此同时,我国也提出建设国

学位

远程监控虚拟仿真全局架构编程插件三轴加速度计

补肾调肝汤联合人工周期治疗卵巢储备功能减退的临床观察

研究目的:本课题旨在通过观察补肾调肝汤联合人工周期(戊酸雌二醇片+黄体酮胶囊)治疗卵巢储备功能减退患者的临床症状和体征,客观评价其治疗效果,探讨其作用机理,为中西医结合治疗DOR提供更多的诊疗思路,增加临床治疗本病的选择性,通过改善患者临床症状提高其生活质量,改善其生殖能力。研究方法:选择2017年11月到2018年10月,于潍坊市中医院中医妇科门诊就诊,年龄在30-40岁之间,西医诊断符合卵巢储

学位

人工周期补肾调肝汤肝肾亏虚型卵巢储备功能减退临床观察

Laplacian中心性峰值聚类算法及其在交通小区划分中的应用研究

如今城市居民的生活水准已大大的提高,他们逐渐倾向于选择便捷舒适的出行方式,出租车日渐成为人们的不错选择。因为出租车现在大多配备有GPS设备,可以记录下其行驶的轨迹数据

学位

Laplacian中心性密度聚类浮动车GPS轨迹数据交通小区社团划分

紫外通信信道相关性与多接收技术研究

紫外光(Ultraviolet,UV)通信是一种新型的无线光通信技术,采用“日盲区”紫外波段(200～280nm)的光波,利用大气微粒的散射作用进行传输。由于其具有无须严格对准、地形适应性好

学位

紫外通信多接收信道相关性误码率测试

新闻类网页内容感知系统研究与实现

与本文相关的学术论文