基于隐私保护的文本分类研究

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:anbao01
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,文本分类成为包括个性化推荐、个人定制、文本归类等方面的一个基础研究。然而,如何在文本分类的过程中有效的保护用户隐私,成为国内外研究的热点之一。本文在国内外现有研究的基础上,着重对隐私保护和文本分类的结合进行了一定的研究工作。文本分类工作,往往包括文本预处理、文本分类算法等阶段。隐私保护,其目的就是隐匿用户的敏感信息。本文在原有文本分类框架基础上,对预处理阶段进行改造,增加隐私保护的环节,隐匿用户的隐私信息,对参与文本分类的元素脱敏,起到保护用户隐私的作用。首先,针对预处理阶段的隐私保护,提出基于关键特征链的隐私保护方法。隐私信息的泄露,往往是由于关键隐私信息的整体泄露,才导致用户遭受重大损失。由此,本文在文本预处理及分词后,通过对关键隐私信息的识别,来构建文本所包含的用户关键隐私信息链,并针对该隐私信息链进行虚化,完成关键隐私信息链对后续应用的不可知,进而起到隐私保护的作用。该方法的核心,是构建用户隐私信息链并虚化隐私信息。经过实验验证,本文关键隐私信息链隐私保护简单有效,在文本预处理阶段接入,能够有效的识别用户隐私信息链并完成虚化,为后续文本分类提供脱敏的元素集。其次,本文提出基于隐私保护的空间边缘识别SVM文本分类算法。对现有文本分类SVM算法进行预处理阶段的改造,将上文基于关键特征链的隐私保护方法接入该算法中,形成基于隐私保护的分类样本和待分类文本元素集。利用向量空间网格化表示以及向量密度计算,对空间边缘检测算法进行改造,利用核函数完成高纬特征的计算,提高了 SVM文本分类算法的精确性和效率。实验表明,该方法有效,为快速文本分类提供方法。最后,为便于研究,本文设计和实现了面向预处理阶段隐私保护和文本分类的实验原型平台。对单个研究阶段进行模块化设计,有效的推动当前及今后的研究的持续。
其他文献
探讨在原衬砌加喷钢纤维喷射混凝土的方法.分析了围岩、原衬砌普通混凝土、钢纤维喷射混凝土等三层材料的结构性能,并以工程中常见的地质情况为例,说明使用钢纤维喷射混凝土的优
2015年我国对《立法法》进行了一次大的修改,地方的立法权在相当程度上得到了扩展,这无疑也提高了地方的积极性,但也存在不尽人意之处,地方立法权的扩展力度如此大,会给地方
目的探讨中西医结合治疗系统性红斑性狼疮前后血脂、血流变学、血小板凝聚率变化,借以评价治疗方案的有效性。方法系统性红斑性狼疮患者83例,随机分为两组,激素联合六味地黄丸治
目的:检测间充质干细胞表面标记(CD73、CD90、CD105、CD271和CD34)在人颞下颌关节滑膜间充质细胞(synovial mesenchymal cells,SMCs)上的表达;同时比较这些标记在髁突肥大滑
蓄电池是农用车辆的主要电源之一。在发动机启动时,蓄电池给启动机提供电流.在发动机停机或怠速运转时.它向用电设备提供电流。
为对扬州土壤重金属污染修复提供参考,通过测定沿江地区197个点位的土壤样品的13种重金属含量,采用4个国家标准,运用克立格插值法和Arc Map软件对8种重金属污染进行了分析。
目的观察延续护理预防回肠造口周围皮肤损伤的效果。方法将140例回肠造口患者随机分为观察组和对照组,各70例。对照组采用常规护理,观察组在常规护理基础上联合延续护理,比较
近几年雾霾频发,国内外有关雾霾的研究大量涌现,但相关研究主要集中在雾霾的组成、来源以及导致雾霾增强的气象条件及其变化规律等,很少采用物理化学原理进行讨论。作为气溶
在民主革命时期,用和平方式解决中国未来发展道路问题,是难以想象的。但是,在第二次世界大战结束后,不仅中国人民需要和平,全世界人民需要和平,甚至极大地影响着中国政治趋
一许多人以为时间是公正的,事实却并不如此。在同一段时间里,有人在成长,有人却在变老。余光明一直以为自己是与时俱进的,至少他不承认自己是落后的。他把自己的老成,当成了