面向中文文本的欺骗行为检测研究

来源 :山西大学 | 被引量 : 2次 | 上传用户：wzy_shun

【摘要】

：

随着计算机和网络技术的不断发展,新的通讯方式正被越来越多的用户接受和使用。从传统的电子邮件、即时通信到时下流行的微博、微信等都为人们提供了一种便捷的信息传播方式,

【作者】

：

张虎

【出处】

：

山西大学

【发表日期】

：

2014年01期

【关键词】

：

欺骗欺骗检测语料库欺骗语言线索欺骗文本特征欺骗检测模型自然语言处理

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着计算机和网络技术的不断发展,新的通讯方式正被越来越多的用户接受和使用。从传统的电子邮件、即时通信到时下流行的微博、微信等都为人们提供了一种便捷的信息传播方式,也为用户及时分享和交互大量的信息提供了公共平台。这些以网络通讯为媒介的信息传播方式在改变人们日常生活的同时,也为欺骗带来了新的场所和形式。现有研究表明,三分之一的人际交往中会涉及到潜在的欺骗,大量的欺骗信息充斥在各种各样的通讯媒介中。如果某个欺骗信息对个人生命、组织生存、甚至国家安全有潜在的危险,那么疏忽欺骗将会导致难以估量的损失。目前针对中文文本欺骗自动检测还没有一种行之有效的方法,因此,如何准确高效地进行欺骗信息自动检测成为当前一个迫切需要解决的问题。欺骗已在社会科学的很多学科中被广泛研究,它是指信息发送者故意传送错误的消息以导致接收者得出错误的结论,基于此,近年来自然科学领域的相关专家采用基于统计、机器学习和自然语言处理等方法开展了欺骗检测的研究。目前欺骗检测已成为信息安全领域的重要研究内容,国外对欺骗检测的研究都以英文自然语言为研究对象,主要集中在四个方面：欺骗检测的理论研究、欺骗检测的模型研究、欺骗检测的实验研究和欺骗检测的数据集研究,而专门针对中文文本的欺骗检测研究在国内外还处于初级阶段。本文以探索中文文本欺骗检测方法为主要目标,阐述了国内外欺骗检测的应用背景和研究现状,构建了中文文本欺骗检测数据集,挖掘了数据集中的欺骗性语言线索和词特征,分别提出了基于分类技术的欺骗检测方法、基于多粒度认知的欺骗检测方法和基于集成学习的欺骗检测方法,并对不同模型分别进行了实验验证和分析。具体来讲,本文的主要工作和创新点如下：(1)构建了中文文本欺骗行为检测语料库。提出了欺骗检测语料库的构建规范和原则,介绍了欺骗检测语料库中文本的来源、内容、规模及语料的加工措施。同时,基于语料库的构建原则建立了包括1493篇欺骗性文本和10191篇非欺骗性文本的欺骗检测语料库。(2)研究了欺骗特征线索抽取方法。提出了基于假设检验的语言学线索抽取方法,首先假设一组能够判别欺骗性文本和非欺骗性文本的语言线索集,再利用统计实验数据分别验证每个假设线索,最后确定对中文文本欺骗检测有用的语言线索集；提出了两种词特征抽取方法：①利用互信息、CHI统计方法抽取文本中特征值较大的词,②基于依存句法分析结果选取欺骗检测语料库中文本的核心词,将上边两种方法抽出的词作为文本词特征。(3)提出了基于分类技术的欺骗检测方法。利用分类方法能够从文本消息中区分出欺骗性和非欺骗性消息的能力,本文将欺骗检测问题转化为二分类问题,提出了一种基于分类技术的中文文本欺骗行为检测模型。该模型分别采用三种分类技术进行了欺骗检测实验,包括贝叶斯分类器、最大熵分类器和支持向量机分类器。(4)提出了基于多粒度认知的欺骗检测方法。本文从多粒度认知角度提出了两种欺骗检测模型：基于多特征的欺骗检测模型和基于多层次的欺骗检测模型。多特征的欺骗检测模型验证了不同类型的特征集对欺骗检测结果的影响；多层次的欺骗检测方法从人的认知角度提出了欺骗检测的分层模型,并对多粒度认知等方面进行了相关的理论研究。(5)提出了基于集成学习的欺骗检测方法。提出了样本集划分和个体分类器集成相结合的欺骗检测模型。针对样本集划分提出了一种改进的二分K-means划分方法；对于个体分类器集成,提出了结合个体分类器分类正确率的最小最大模块化方法。

其他文献

心理干预在减轻LASEK患者术后疼痛中的护理实践

LASEK又称EK,是由意大利Rovigo医院眼科中心Massino于1997年在屈光手术过程中发明的一种针对高度数,角膜相对较薄的一种新的准分子激光近视眼治疗手术。LASEK基本原理是通过

期刊

角膜上皮瓣术后疼痛角膜前弹力层LASEK准分子激光屈光手术基底细胞层疼痛感医院眼科中心眼部刺激症状

102例儿童桡骨远端骺离骨折保守治疗与分析

目的评价手法复位联合外固定法治疗儿童桡骨远端骺离骨折的疗效。方法选择2009年1月至2013年1月本院收治的桡骨远端骺离骨折患儿102例，按Salter-Harris分型将所有患儿分为4组：I

期刊

桡骨骨折骨骺保守治疗儿童

中医毫火针疗法的研究进展

毫火针疗法兼有毫针和火针治疗的优势,临床应用及基础研究日益增多。笔者总结了近年毫火针的实验研究进展和临床应用进展,为毫火针的实验及临床推广奠定基础。

期刊

毫火针进展中西医结合

二线城市的DM广告杂志发展现状与经营策略研究

摘要：DM广告杂志在国外是一种成熟的广告形式，具有较长的发展历史，其占有的广告份额也比较高，已经形成了成熟的运营模式。DM广告杂志经过12年的快速发展，已经成为重要的广告形式和

期刊

DM广告杂志营销媒介

1例乳腺导管周围间质肉瘤的临床及影像学表现

目的探讨乳腺导管周围间质肉瘤（PDSS）的临床特点、钼靶X线及超声检查的影像学特征。方法选择绍兴市人民医院经手术及病检确诊的PDSS患者1例。对该患者的临床、影像表现进行分析

期刊

乳腺肿瘤叶状肿瘤导管周围间质肉瘤钼靶X线超声检查多普勒彩色

如何做好党群路线的档案展览宣传工作

群众路线是我党的生命线，是在长期的革命建谈实践中总结出来的宝贵经验。在新的历史时期，我党结合新的实践，继承性地发展了这一理论，注入了民生，民主等元素，拓展了党群联系形式，使得

期刊

党群路线档案展览宣传

图书馆参考咨询服务的创新

图书馆参考咨询服务，承担着开发智力资源和进行社会教育的职能。本文围绕图书馆参考咨询服务建设这一平台，如何为读者学习提供帮助和服务创新。充分发挥图书馆参考咨询服务建设

期刊

图书馆建设服务创新参考咨询

认清在我国宣扬“宪政民主”“司法独立”的实质

长期以来,一些人在我国宣扬“宪政民主”“司法独立”的实质,是否定党对政法工作的领导、党对依法治国的领导、否定中国特色社会主义法治道路,否定人民民主专政和中国特色社

期刊

宪政民主司法独立依法治国

新时代大学生思想培育与传统核心价值观融合的可行力及效应分析

立足新时代的要求,重新审视传统核心价值观在新时代大学生思想培育过程中的驱动力,寻找二者进一步融合的可行力,厘清二者进一步融合形成的实际效应,更好地提升新时代大学生思

期刊

新时代大学生思想培育传统核心价值融合可行力融合效应ideological cultivation of college students in the

《遇见心想事成的自己》

<正>多年前,英国有一个马戏团失火,烧死了几头大象。后来收拾现场的时候,有人发现,那些大象只是被一根细绳栓在一根细的木杆上面,但是它们只能眼睁睁地看着火苗上身,也不会迈

期刊

《遇见心想事成的自己》

面向中文文本的欺骗行为检测研究

与本文相关的学术论文