论文部分内容阅读
随着互联网的快速发展,文本分类成为包括个性化推荐、个人定制、文本归类等方面的一个基础研究。然而,如何在文本分类的过程中有效的保护用户隐私,成为国内外研究的热点之一。本文在国内外现有研究的基础上,着重对隐私保护和文本分类的结合进行了一定的研究工作。文本分类工作,往往包括文本预处理、文本分类算法等阶段。隐私保护,其目的就是隐匿用户的敏感信息。本文在原有文本分类框架基础上,对预处理阶段进行改造,增加隐私保护的环节,隐匿用户的隐私信息,对参与文本分类的元素脱敏,起到保护用户隐私的作用。首先,针对预处理阶段的隐私保护,提出基于关键特征链的隐私保护方法。隐私信息的泄露,往往是由于关键隐私信息的整体泄露,才导致用户遭受重大损失。由此,本文在文本预处理及分词后,通过对关键隐私信息的识别,来构建文本所包含的用户关键隐私信息链,并针对该隐私信息链进行虚化,完成关键隐私信息链对后续应用的不可知,进而起到隐私保护的作用。该方法的核心,是构建用户隐私信息链并虚化隐私信息。经过实验验证,本文关键隐私信息链隐私保护简单有效,在文本预处理阶段接入,能够有效的识别用户隐私信息链并完成虚化,为后续文本分类提供脱敏的元素集。其次,本文提出基于隐私保护的空间边缘识别SVM文本分类算法。对现有文本分类SVM算法进行预处理阶段的改造,将上文基于关键特征链的隐私保护方法接入该算法中,形成基于隐私保护的分类样本和待分类文本元素集。利用向量空间网格化表示以及向量密度计算,对空间边缘检测算法进行改造,利用核函数完成高纬特征的计算,提高了 SVM文本分类算法的精确性和效率。实验表明,该方法有效,为快速文本分类提供方法。最后,为便于研究,本文设计和实现了面向预处理阶段隐私保护和文本分类的实验原型平台。对单个研究阶段进行模块化设计,有效的推动当前及今后的研究的持续。