论文部分内容阅读
随着计算机和网络技术的不断发展,新的通讯方式正被越来越多的用户接受和使用。从传统的电子邮件、即时通信到时下流行的微博、微信等都为人们提供了一种便捷的信息传播方式,也为用户及时分享和交互大量的信息提供了公共平台。这些以网络通讯为媒介的信息传播方式在改变人们日常生活的同时,也为欺骗带来了新的场所和形式。现有研究表明,三分之一的人际交往中会涉及到潜在的欺骗,大量的欺骗信息充斥在各种各样的通讯媒介中。如果某个欺骗信息对个人生命、组织生存、甚至国家安全有潜在的危险,那么疏忽欺骗将会导致难以估量的损失。目前针对中文文本欺骗自动检测还没有一种行之有效的方法,因此,如何准确高效地进行欺骗信息自动检测成为当前一个迫切需要解决的问题。欺骗已在社会科学的很多学科中被广泛研究,它是指信息发送者故意传送错误的消息以导致接收者得出错误的结论,基于此,近年来自然科学领域的相关专家采用基于统计、机器学习和自然语言处理等方法开展了欺骗检测的研究。目前欺骗检测已成为信息安全领域的重要研究内容,国外对欺骗检测的研究都以英文自然语言为研究对象,主要集中在四个方面:欺骗检测的理论研究、欺骗检测的模型研究、欺骗检测的实验研究和欺骗检测的数据集研究,而专门针对中文文本的欺骗检测研究在国内外还处于初级阶段。本文以探索中文文本欺骗检测方法为主要目标,阐述了国内外欺骗检测的应用背景和研究现状,构建了中文文本欺骗检测数据集,挖掘了数据集中的欺骗性语言线索和词特征,分别提出了基于分类技术的欺骗检测方法、基于多粒度认知的欺骗检测方法和基于集成学习的欺骗检测方法,并对不同模型分别进行了实验验证和分析。具体来讲,本文的主要工作和创新点如下:(1)构建了中文文本欺骗行为检测语料库。提出了欺骗检测语料库的构建规范和原则,介绍了欺骗检测语料库中文本的来源、内容、规模及语料的加工措施。同时,基于语料库的构建原则建立了包括1493篇欺骗性文本和10191篇非欺骗性文本的欺骗检测语料库。(2)研究了欺骗特征线索抽取方法。提出了基于假设检验的语言学线索抽取方法,首先假设一组能够判别欺骗性文本和非欺骗性文本的语言线索集,再利用统计实验数据分别验证每个假设线索,最后确定对中文文本欺骗检测有用的语言线索集;提出了两种词特征抽取方法:①利用互信息、CHI统计方法抽取文本中特征值较大的词,②基于依存句法分析结果选取欺骗检测语料库中文本的核心词,将上边两种方法抽出的词作为文本词特征。(3)提出了基于分类技术的欺骗检测方法。利用分类方法能够从文本消息中区分出欺骗性和非欺骗性消息的能力,本文将欺骗检测问题转化为二分类问题,提出了一种基于分类技术的中文文本欺骗行为检测模型。该模型分别采用三种分类技术进行了欺骗检测实验,包括贝叶斯分类器、最大熵分类器和支持向量机分类器。(4)提出了基于多粒度认知的欺骗检测方法。本文从多粒度认知角度提出了两种欺骗检测模型:基于多特征的欺骗检测模型和基于多层次的欺骗检测模型。多特征的欺骗检测模型验证了不同类型的特征集对欺骗检测结果的影响;多层次的欺骗检测方法从人的认知角度提出了欺骗检测的分层模型,并对多粒度认知等方面进行了相关的理论研究。(5)提出了基于集成学习的欺骗检测方法。提出了样本集划分和个体分类器集成相结合的欺骗检测模型。针对样本集划分提出了一种改进的二分K-means划分方法;对于个体分类器集成,提出了结合个体分类器分类正确率的最小最大模块化方法。