基于语义相关性分析的文本数据隐私保护方法

来源 :中南财经政法大学 | 被引量 : 0次 | 上传用户:plbplbplb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展和计算机技术的日益进步,数据成为现代社会的重要资源,人们通过收集、分析数据来获取价值。同时,对于数据中的敏感信息,隐私保护一直是人们关注的重点。与结构化数据较为完善的隐私保护体系不同,学者们对非结构文本数据的隐私保护研究较少。但这些文本数据中,可能包含着大量的个人隐私信息,人们在享受技术带来的便利时,同样面临着隐私泄露的风险。此外,在各国出台的隐私保护法规中,对企业收集用户数据的目的、传输与存储进行了严格的规定。因此,如何有效地处理文本中的隐私信息对文本数据后续的分析与分享尤为重要。然而,由于文本数据本身复杂的内部结构与包含着的大量语义信息,敏感数据的相关语义信息不能通过预定义的数据模型或模式进行结构化展示,使得敏感信息的脱敏方式一直没有得到深入的研究。现存的文本数据隐私保护方法中,仅仅处理敏感特征本身,将敏感特征进行替换或删除,然而,攻击者仍可以根据与敏感特征具有关联性的词语,来推断出隐私的部分信息。本文提出了一种基于语义相关性分析的文本数据隐私保护方法,除敏感特征本身外,同时考虑与敏感特征语义具有相关性的词语可能带来的隐私泄露风险。在本文中,与敏感特征具有语义关联性的词语被细分为特征关联词和结构关联词。其中,特征关联词是指,对敏感特征具有强烈的指示或暗示性的词汇。结构关联词则指与敏感特征在语义结构上具有相关性的词语。本文首次将自然语言处理中的句法结构分析应用到文本数据隐私保护领域,根据关键隐私所处句子的语义结构,确定句子各成分所代表的语义信息,从而进一步确定结构关联词。从文本隐私保护的目的出发,根据文本语义结构的特点,本文设计了两种隐私保护规则,即完全语义缺失处理和部分语义缺失处理。其中,完全语义缺失处理对应着脱敏程度更高的隐私保护,能够做到严格保护用户隐私,防止敏感特征的语义关联词泄露敏感信息;而部分语义缺失处理,能够做到在保护关键隐私的同时,保护隐私的语义内容,降低隐私保护结果对文本特征的影响。最后,本文分别用中文文本数据集和英文文本数据集验证了所提方法的有效性。其中,中文文本采用两类数据集,分别为清华大学自然语言处理组提供的THUCNews新闻文本分类数据集以及从中国法院网获取的中文法律案件数据集,英文文本数据集则是在Lexis Nexis数据库资源平台中由“U.S.Newspapers”发布的相关新闻。为了评价文本提出的两种隐私保护规则在语义上的体现以及对文本特征的影响,本文以只对敏感特征进行脱敏的隐私保护结果为对照,分别对以上每种数据集的三种隐私保护结果,进行语义相似度计算及文本分类实验。文中通过对实验结果的对比分析,证明了完全语义缺失处理在隐私保护力度上的优越性,以及部分语义缺失处理在文本特征保护上的优势。
其他文献
从坚持和发展中国特色社会主义、建设社会主义现代化强国、实现中华民族伟大复兴的高度来审视,中国高等教育既面临艰巨的挑战,又迎来了难得的机遇。是迎难而上、开拓进取,还是按部就班、满足于现状?答案不言而喻。经过改革开放四十多年来艰苦卓绝的努力,中国高等教育在课程育人、科研育人、实践育人等方面都取得了骄人的成绩,而管理育人作为高校思想政治工作质量提升工程的重要一环,在高校工作实践中始终占有重要地位,也是其
学位
针对过度维权行为是否构成敲诈勒索罪这一问题,我国司法实务界和法学理论界始终存在肯定论与否定论之争。司法机关对同一案件态度反复的现象不仅容易使人感到公平的缺位,也损坏了司法的权威性。本文首先从过度维权行为的概念入手,概括过度维权行为、普通维权行为以及普通敲诈勒索行为之间的共性与差异。由于篇幅限制,本文将研究范围限定在侵权损害所引发的赔偿矛盾中。过度维权行为的权利基础既可以来源于法律规定,也可以产生于
学位
行为人通过利用民事诉讼程序,拟披着合法外衣的形式达到非法目的的虚假诉讼的行为不仅严重妨害了司法秩序的正常运行和纯洁性,也严重侵害了他人的合法权益。《民事诉讼法》第112条、第113条对虚假诉讼行为进行了规制并设置了相应的后果和处罚方式;《刑法修正案(九)》也增设了虚假诉讼罪这一罪名,进一步打击了日益猖獗和手段隐秘的虚假诉讼行为。随后最高人民法院出台《关于防范和制裁虚假诉讼的指导意见》,最高院、最高
学位
生态贫困问题是制约人类社会发展的障碍,改革开放四十多年来,中国高度重视生态贫困问题,在实践中探索了生态扶贫政策,并取得了积极的政策绩效。目前国内外学者对中国生态扶贫政策有了一定程度的研究,但主要是将其置于工具视野中来考量,还没有深入观察生态扶贫政策本身的演变过程,也很少有学者从公共政策的角度来分析中国的生态扶贫。运用政策扩散理论来分析中国的生态扶贫政策,弥补了学界当前在生态扶贫研究领域的空白,通过
学位
预重整是债务人等利害关系人在法院受理破产重整前,预先达成重整方案,并于重整启动后,提请法院裁决通过的困企拯救机制。2018年我国最高人民法院在《全国法院破产审判工作会议纪要》明确提出:探索推行庭外重组和庭内重整的衔接。预重整兼采庭外重组的自治性和正式重整的司法强制性,可以有效降低重整成本,提高重整成功率。然而,预重整制度在我国实践时日尚短,又缺乏统一的高效力层次的立法规范,学界研究也不充分。未来我
学位
爱国主义是一个随时代变化的历史范畴。在历史发展过程中,形成了关于爱国主义的一套有层次的体系,表征了爱国主义的大致涵义。爱国主义是一种情感体系、规范体系,更是一种民族精神。爱国主义作为中华民族生存发展的价值主线,推动着中华民族不断向前发展。根据这一历史传统,开展爱国主义教育必不可少。在中国,爱国主义教育表现为一种情感教育、一种知识和一种政治教育,作用于人们的知情意行,以培养中国公民的爱国之情、强国之
学位
近年来,随着社会的发展,企业的各种营销方式层出不穷,医药行业也不例外。通过观察发现医药产品做广告的时候倾向于使用不同的诉求方式来刺激消费者的需求,如“胃康灵颗粒”广告使用了促进医药广告诉求,“息斯敏录雷他定口腔崩解片”广告使用了防御医药广告诉求。此外,也有不同诉求方式结合不同类型表情符号使用的情况,如“好状态软胶囊”广告,将促进医药广告诉求与积极表情符号进行结合使用;“999感冒灵”广告将防御医药
学位
报纸
认罪认罚从宽制度是我国现行的刑事处理机制体系内的组成要素与重要一环,对于有认罪情节的刑事案件的处置和审理工作具有相当的影响力、作用力,本文通过对认罪、认罚以及从宽处罚的内涵的探究与界定,进一步明确认罪认罚的含义及其适用范围,并且从量刑论的视角出发对此制度在刑罚裁量上的影响予以反映。认罪认罚从宽机制兼具实体性与程序性,其正当性的发挥不能脱离这两个方面的理论性基础支撑。人身危险性等理论形成了认罪认罚从
学位
信息披露透明是证券市场有序发展的基石。现代公司所有权和管理权的分离导致信息不对称,使高管能够利用其信息优势来最大化自身利益,在这个过程中,虚假报告、盈余管理都有可能发生。鉴于公开可靠的信息可以减少这种信息不对称,充分的信息可以帮助投资者识别出公司的盈余管理行为,这种情况下,盈余管理容易被识别,管理层就会减少盈余操纵;信息是一切投资决策的前提,资源具有稀缺性,资源的分配依靠所获得的信息,投资决策依赖
学位