论文部分内容阅读
随着互联网的高速发展,网络资源不断丰富,其中新闻类网络资源更成为展示和了解国内外新闻时事的主要途径,影响着广大网民对各类新闻事件的认知。对于各大新闻门户网站和为其提供CDN加速服务的第三方厂商而言,每天都会产生大量记录用户访问请求的访问日志,这些日志集中反映了某条新闻或者新闻话题的受关注程度,隐含着社会舆论的走向,也体现了用户对各类新闻报道的重视和喜好。新闻类网站和CDN厂商迫切希望通过访问日志中的请求URL实现对新闻网页的归属信息感知、新闻话题感知、关键内容感知等,进而把握新闻热点并为用户提供更好的服务。因此,结合新闻类网页URL的结构特征实现新闻内容分析和新闻话题检测等新闻网页内容的感知成为了研究热点。本文围绕新闻类网页URL特征解析及新闻话题检测等感知需求,对新闻类网页内容感知的相关技术方案进行了研究和实现,并开发实现相应网页内容感知系统。主要研究内容包括:(1)新闻类网页报道正文的准确提取。本文基于新闻类网页的特点,对原有的树路径匹配算法进行了改进,并基于改进后的算法生成了新闻正文所在DOM树路径的标签序列模板并设定了模板中字符含量的阈值,从而实现了有效提取报道正文;(2)新闻类网页URL结构组成及各字段特征研究。通过研究新闻类网页的重要属性——URL的组成结构及各个组成成分字段的固有特征,提出了获取网页所属网站名称字段、新闻类目字段的方法以及借助URL特征正则表达式对正文类网页和非正文类网页进行初步分类的方法,从而实现了网页的快速有效分类;(3)新闻话题检测。在新闻文本预处理的基础上,选择最接近文章形成过程的LDA(Latent Dirichlet Allocation)主题模型表示文本,并得出了适用于本文业务场景的模型初始化参数,由于待处理文本规模较大,本文利用K均值聚类算法收敛快的特点以及层次聚类算法准确度高的特点,将二者结合,形成适用于本文研究背景的两层混合聚类策略,并对聚类策略中初始聚类中心的确定方式实行了改进,从而通过聚类新闻报道进行话题检测。根据对相关技术研究所得的解决方案,本文实现了基于模板路径的新闻内容提取策略、新闻话题检测模型及网页URL特征解析策略,并通过实验结果证明了本文所用策略及模型的有效性。基于以上关键技术方案的实现,本文完成了新闻类网页内容感知系统的开发,该系统根据访问日志中的请求URL字段集合,实现了网页归属信息提取、新闻话题检测、新闻热度统计、关键词热度统计等功能,为引导和把握舆论导向提供了基础,同时为新闻类门户和CDN厂商优化自身服务提供便利条件。