论文部分内容阅读
随着我国互联网普及率的持续攀升,网络新闻作为一个较新的信息传播方式日益为人们所关注,网络新闻信息带来的多种问题也相继凸显,如参差不齐的新闻报道比比皆是。面对海量的网络新闻信息,如何辅助人们快速了解新闻内容、获知最近一段时间发生的影响力较大的热点新闻、接受个性化新闻信息以及集中阅读某类新闻内容,节省浏览时间,已经成为当今研究的一个热点。复杂网络作为对复杂系统研究的一个新方法,逐渐为学者们所熟知和认可,通过复杂网络在网络新闻信息处理的深入研究,能为净化网络环境、减少通信资源与用户时间的巨大浪费提供有效手段,有着重要的研究意义。本文对网络信息处理的数据源获取、低层处理和高层分析等过程进行了系统的深入研究,并采用复杂网络相关理论作为研究手段,分析和验证了其可行性与有效性,主要研究工作如下:实验平台方面:本文拟实现一个自动化的智能新闻信息处理系统,网络新闻抓取、信息抽取、关键词生成、新闻网页聚类及后续的研究成果等能一次配置,依次自动执行。本文在综合考虑各编程语言的优缺点基础上,选择以处理网络问题见长的java作为本文研究的编程语言,所有算法如复杂网络建模、网络特征值计算、社团发现算法等都由java及其数据结构实现。只是,在分析实验结果时,以Matlab和Pajek等辅助实现图形结果显示和可视化界面生成。在充分分析相关理论基础上,由java开发实现的实验平台,为复杂网络进一步在网络信息技术中.的应用研究提供了有效工具。新闻网页采集方面:在深入研究网络爬虫原理及Heritrix框架的基础上,改进实现了一个智能网络爬虫,通过该爬虫可以指定从特定的网站、特定的时间段抓取指定的网络信息(如网页、视频、图像等),为下一步网络新闻关键词的提取、新闻网页的聚类以及舆情发现与监控等提供必要的数据支持。新闻网页内容提取及预处理方面:在深入分析与研究现有信息抽取方法的基础上,本文选择基于Wrapper的信息抽取方法,构造了一系列的分装器程序库,对由爬虫爬取的新浪、网易、洞口党建网和西南交通大学新闻网等的新闻网页信息能进行精确解析,获得如新闻内容、标题、发表时间、来源等信息,并实现了中文分词、词性标注等预处理工作,为本文后续的网络新闻内容复杂网络的构建提供了必要前提。新闻网页关键词提取方面:在分析和研究复杂网络建模方法的基础上,本文用已经分词的新闻内容信息构建复杂网络,以新闻中出现的词作为节点,本文提出以词的词性、出现位置等作为节点的权重,以两个邻接词同时出现构造网络的边,改进构建了一个基于节点权重的复杂网络。并通过该网络的节点权重、节点的度、节点的聚类系数及中心介数等复杂网络统计参数的综合应用,排序获得网页新闻内容的前N个关键词。通过关键词抽取实验效果的比较,验证了改进的基于节点权重的复杂网络对网络新闻内容关键词提取有较大改善。新闻网页聚类分析方面:在分析了文本挖掘的一般处理过程,及数据挖掘聚类算法的基础上,本文提出了用前面实现的抽取网页新闻的关键词为降维手段,对爬取的新闻内容文档进行降维,统计降维后的各个文档的相似程度,以这些新闻文档为节点,以文档相似程度为边,构建由网页新闻文档组成的复杂网络。通过实现并改进复杂网络社团划分算法,对比实现的传统数据挖掘中的层次聚类算法和K-Means算法,指出它们之间的区别与联系;并将改进的基于电压谱的社团划分算法应用于该复杂网络,获得了社团划分结果,实现了网页聚类。实验结果表明,该改进算法在新闻网页复杂网络中能正确划分各节点,从而实现对网页新闻的聚类。这为网站聚类、不良网站的自动识别、缩小维度发现热点新闻、增加维度鉴定重复文章等研究工作提供了全新的研究手段。综上所述,本文从实验平台的建立、实验数据的获取、关键词的抽取(文本向量的降维处理)及新闻网页聚类等新闻信息处理的各个层次进行了研究,并通过实验证明了各阶段研究工作的可行性与有效性。