论文部分内容阅读
随着互联网的普及和新应用的不断涌现,基于内容的信息滥用问题也日趋严重,网络内容安全面临很大挑战,直接威胁到国家安全和社会稳定。面向网络内容安全的信息挖掘技术近些年成为信息安全领域的研究热点,它主要研究的是如何利用计算机从包含海量信息且迅速变化的网络中,对与特定安全主题相关的内容信息进行获取、识别和分析。网络内容安全需要对内容信息进行高效监控、深入分析和积极反馈,对技术研究的深度和广度提出了较高要求。本论文主要研究面向网络内容安全的信息挖掘关键技术,就当前的一些热点和难点问题进行了探索性、创新性的研究并提出了解决方案,还将相关理论与技术相结合,设计了可全天候运行的舆情系统平台。本文具体贡献和创新包括:(1)提出了基于蚁群聚类方法的热点话题自动识别方法。本文启发于群体智慧具有高度的自组织特性,着重研究蚁群聚类算法在热点话题识别中的应用。论文针对基本的蚁群文本聚类算法BACTC算法后期难以收敛、蚂蚁移动盲目性过强等缺点,提出了一种改进的蚁群文本聚类算法IACTC,从概率转移函数、增加记忆器官和改变移动策略的角度解决了BACTC算法的缺陷。同时,给出了聚类后话题摘要提取的计算方法。本文在真实的网络数据集上对IACTC进行算法验证,并与其他方法进行比较。发现IACTC算法在簇数发现能力、收敛能力和算法准确性等多个指标上具有优势,经过话题摘要提取,算法形成的簇可以生成较好的话题识别结果。(2)提出基于滑动时间窗口的自适应Single-Pass算法,来解决话题跟踪任务中的困难。传统话题跟踪技术和已有的自适应话题跟踪技术,都存在话题过度漂移、话题错误偏移和假反馈等问题。ASP-SW算法引入了基于pLSA的隐含语义模型,从语义层面建立并更新话题模型,减少了反例样本对结果的影响。同时,滑动时间窗口不断排除过旧文档,使它们不参与话题模型的计算,有助于提高话题跟踪结果的准确性。同时,ASP-SW使用了“聚类阈值”策略,来指导文档进行聚类和参与话题模型计算。它包括“经验阈值”和“动态调整阈值”两部分。“动态调整阈值”使ASP-SW适应了话题时间衰减特性。本文还将新词发现技术归纳到话题跟踪任务当中,提出了一种基于零散词拼接的互联网新词汇发现方法——n-scattered。实验结果表明,本文提出的ASP-SW算法能够达到满意的话题跟踪效果,n-scattered则有效的解决了网络新词、热词的发现问题。(3)提出了社会化网络媒体中的社团发现模型CTIM和社团发现算法CD-CTIM。论文对社会化媒体当中用户、文档、社团和话题之间的关系进行了分析,并基于它们之间密不可分的关系,提出了社团-话题交互模型(Community-Topic Interacting Model, CTIM)。论文对CTIM模型的结构、属性及转移函数进行了探讨。并针对CTIM模型的特点,提出了CD-CTIM社团发现算法。该算法进行在用户-话题二分网络的构建,并采用带权重的CWP映射方法对二分网络进行单模映射。基于单模网络上的连边权重信息,本文提出了CTIM模型的模块度QCTIM的计算公式,通过对QCTIM的不断寻优过程,找到最终的用户社团划分。通过在新浪微博采样数据上进行的算法验证,证明CD-CTIM在符合CTIM模型的网络上具有很好的社团划分效果。(4)描述与分析作者领导开发的网络舆情监控与分析系统(YQ系统)的设计与研究工作。YQ系统是作者在攻读博士期间作为课题组长,领导并参与研发完成的舆情工作平台。本文对YQ系统的整体架构设计进行了描述,同时对于分布式模式和单机模式的采集系统、基于模板的内容抽取技术、三级索引程序、数据存储策略以及其他模块的设计与研究进行了详细分析。总之,本文对于面向网络内容安全的信息挖掘技术多个关键领域进行了创新性的工作,这些工作为人们提供了信息内容安全技术层面问题的解决方法和方案。