论文部分内容阅读
随着网络科技飞速发展,互联网提供的各种网络应用服务成为社会舆论的重要传播媒介,人们的交流越来越多地通过这些互联网服务实现。社会网络分析旨在对社会中实体及其之间的关系进行建模,可以帮助理解网络舆论进而把握社会的思想动态。因此,基于互联网应用的社会网络分析研究成为网络舆论分析与监控领域的一个热点。本文的主要贡献在于首次将超网络理论应用到实际的互联网社会网络分析中,尤其是构建社会网络实体关系分析与表征模型和网络结构挖掘的分析,对于互联网的社会网络分析给出了一条可行的研究思路。论文研究了互联网上海量信息抓取技术、网络实体间关系表征方法及社团结构挖掘,主要成果如下:1)互联网海量信息的抓取。本文采用可处理多种信息源的可扩展异构信息融合技术,研究了互联网络信息抓取和呈现方法,并开发互联网络信息获取与挖掘原型系统,可适用于文本自动分类和规范化存储技术。2)网络实体间关系的表征研究。针对现有的单一要素表征的集群关系不能反映现实社会群体关系的真实情况和整体结构这一主要问题,本文基于超网络数学理论,综合考虑兴趣相似度的隐性信息和社交关系的显性信息,构建了一种多维度互联网实体关系的衡量模型,该模型输出的有权值实体关系网络,不仅能更真实地表征网络社群的关系,还能作为预测潜在网络热点话题规模的依据。3)挖掘潜在网络结构。借鉴现有的关于社团挖掘理论研究成果,针对目前普遍采用的模块度增量为标准的算法在社团划分时产生的分辨率较低的问题,本文基于预处理思想,提出一种结合考虑实体活跃度及实体间联系强弱程度与模块度增量优化的层次凝聚社团挖掘方法。与传统社团挖掘方法相比,该方法能够发现规模较小而联系更紧密的社团,对实体活跃度指标的过滤降低了运算维度,同时算法接近线性的时间复杂度,也更适于分析大规模的现实网络。得到的更贴近现实情况的网络社团结构,对于描述互联网的网络结构和预测网络舆论的发展趋势具有一定价值。