基于实体抽取的中欧互联网公司隐私政策比较分析

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:liuln6
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
欧盟在2018年5月25日发布了《一般数据保护条例》(GDPR),旨在保护欧盟和欧洲经济区内所有公民的个人信息和隐私。2018年5月28日,Facebook和Google等美国企业成为GDPR法案下第一批被告。2018年9月10日,中国人大网公布《十三届全国人大常委会立法规划》,个人信息保护法是第61个项目,这意味着我国个人信息保护将迎来专门立法。由此可见,个人信息保护是一个趋势,企业应该做好应对。隐私政策一般出现在公司官方网站的底部,它既是一种行业自律手段,也是一种用户隐私保护手段。隐私政策通常很长,人们在短时间内无法阅读理解,通过人工阅读理解来分析大量隐私政策文本也是很困难的。一个地区(比如中国)的隐私政策在结构、内容上都具有很强的一致性,这些企业的隐私政策都是根据该地区的法律等相关规定来制定的。但这些隐私政策分散在各个企业的网站,非结构化的文本信息让人无法从全局获取信息进行分析。实体抽取是指从文本集中自动识别并抽取人名、地名、机构名称等实体。对同一地区的隐私政策进行实体抽取并构建实体关联图,可以将杂乱无章的隐私政策文本以实体和关系形式存储到图数据库中,进行宏观把握对比分析,且通过查询语句可以获取所需要的信息,从实体层面进行细致的分析。本文拟从隐私政策入手,基于实体抽取等方法技术,通过对中国和欧洲互联网公司隐私政策的对比分析,并结合GDPR中的相关规定,对互联网公司的隐私政策提出建议,从而在一定程度上解决个人信息保护的问题。
  首先对实体抽取和构建实体关联图的方法进行选择。本文实体关联图的构建和分析流程为:数据预处理,实体抽取,存入图数据库,查询需要的信息。在数据预处理的过程中,使用POStagger进行词分割和词性标注,并对文本格式进行调整,使其符合CRF++工具的使用要求。实体抽取有三种方法:有监督的方法,半监督方法和无监督方法。有监督的方法就是把实体抽取问题变为序列标注问题。本文选取有监督方法中的条件随机场(CRF)来进行实体抽取。条件随机场模型将最大熵马尔可夫模型(MEMM)中的条件概率转化为特征函数形式,通过训练得到不同特征的权重。条件随机场(CRF)结合了生产模型的特点,它不仅避免了隐马尔科夫模型(HMM)的强独立性假设,而且有效地解决了最大熵马尔可夫模型(MEMM)中的标注偏移问题,在序列标记中具有良好的效果。本文实体抽取具体实现过程采用CRF++工具,是本文实体关联图构建的核心和难点。先把完成预处理的语料分为训练集和测试集(本文训练集与测试集的数量比例为1∶1),对训练集进行人工标注(BIO标注),并构造特征模板(Unigram模板),再利用CRF++中的程序对训练集进行训练生成模型,最后利用生成的模型对测试集进行预测,并对实体抽取结果进行评估,评估指标为精确度、召回率和F值。随后把抽取出来的实体以“.csv”格式存入Neo4j图数据库,形成实体关联图,最后使用Cypher查询语句在图数据库中查询所需要的信息。
  其次是中国和欧洲互联网公司隐私政策的比较过程,分为两部分:总体分析和基于实体关联图的分析。在进行两部分对比分析之前先进行样本选择,本文根据“中国互联网协会、工业和信息化部信息中心联合发布2018年中国互联网企业100强榜单”和欧洲Informilo网站评选的“欧洲最受欢迎的25家互联网公司”这两份名单分别进行样本选择和语料准备。需要指出的是,本文所研究的中国互联网公司隐私政策指的是中国大陆互联网公司面向中国大陆人民的隐私政策。总体分析是对中欧隐私政策的基本特征进行概括性的统计对比。在寻找隐私政策链接的过程中,发现有些公司没有隐私政策,有些公司很难找到他们的隐私政策。此外,更新时间通常出现在隐私策略的开头或结尾,容易统计。因此,从以下三个角度进行了总体比较:是否有隐私政策、隐私政策的位置、隐私政策的更新时间。结果表明:(1)所有样本的欧洲互联网公司都有隐私政策,但一些中国互联网公司没有;(2)欧洲互联网公司的隐私政策位置比中国互联网公司更容易找到;(3)欧洲互联网公司隐私权政策的更新时间集中2018年5月25日前后,中国互联网公司的更新时间是分散的。而后按照本文实体关联图的构建方法,分别选取隐私政策中“我们收集的信息”和“联系我们”的部分进行实体关联图的构建和分析。一般来说,虽然在表述上略微不同,但隐私政策都包含以下几个部分:“我们收集的信息”、“我们怎样使用收集的信息”、“Cookies/Beacons的使用”、“联系我们”等。由于从“我们收集的信息”和“联系我们”这两部分可以抽取需要的实体构建相应的实体关联图,并且这两部分对于评估隐私政策的质量有很强的重要性,而从其它部分如“我们怎样使用收集的信息”、“Cookies/Beacons的使用”无法高质量地提取需要的信息,所以本文选择“我们收集的信息”和“联系我们”这两部分分别构建实体关联图并比较分析。关于隐私政策中其他部分的分析,可在未来研究中用其它方法技术继续探索。在“我们收集的信息”部分,抽取收集的用户信息作为实体构建实体关联图,由于“收集信息”的实体关联图包含的实体过多,使用Cypher语句在该图数据库中进一步查询,对结果进行比较。在“联系我们”部分,抽取“邮箱”、“地址”、“电话”、“回复时间”作为实体分别构建实体关联图,并对比分析。结果表明:(1)部分中国互联网公司没有隐私政策,并很难找到隐私政策链接。(2)欧洲互联网企业的隐私政策发布日期集中在2018年5月25日,中国的较为分散。(3)欧洲互联网公司详细列出了他们在隐私政策中收集的个人信息,但中国互联网公司喜欢概括他们收集的个人信息。(4)欧洲的互联网公司喜欢收集健康数据、Facebook账户和其他带有西方色彩的个人信息,而中国的互联网公司喜欢收集位置和信用卡卡号等个人信息。(5)中国和欧洲互联网公司都至少提供一种联系方式,但样本中欧洲的互联网公司没有给出回复期限。
  最后,结合GDPR的相关内容,对对比分析结果做进一步讨论,并对互联网公司的隐私政策提出建议。根据调查结果,并结合GDPR,对互联网公司提出以下五点建议:(1)制定隐私政策并将其放在明显的位置;(2)及时更新隐私政策;(3)在隐私政策中详细列出收集到的个人信息;(4)不收集与目标无关的个人信息;(5)在隐私政策中提供有效的联系方式,并设置回复期限。中国互联网公司的隐私政策虽然存在一些优点,但与欧洲互联网公司仍有很大差距,所以另一个建设性建议是,中国应尽快根据国情制定自己的个人数据保护法律。
  关于隐私政策的对比研究大部分停留在文本的解读和基本特征的统计分析,也有基于自然语言处理技术的文本分析,但没有研究从实体的角度去细微解读。本文将实体抽取应用于隐私政策研究,从比较的视角分析了中欧互联网公司的隐私政策,并结合GDPR对比较结果进行分析,提出建议,同时也为中国《个人信息保护法》的制定提供参考。
  应当指出的是,本研究用的实体抽取方法并不适用于所有样本。因为本研究的重点是比较,而不是技术评估指标的提高,因此当遇到实体抽取结果不完美的问题时,对其进行了人工处理,最终得到了良好的结果。在样本不太大的情况下这种方式可行,但是如果实体达到数百万或更多,手工作业就无法解决。基于上述局限性,可以提出一个展望:尝试利用其他技术提高实体抽取效果。另一个展望是开发一个系统来简化隐私政策的人工阅读过程。通过研究,发现隐私政策对于用户来说太长而难以阅读,这不利于用户的网络隐私保护。如果开发一个简化阅读的系统,本文抽取的隐私政策实体可以应用其中。各地相应的法律法规也可以作为标准引入到该系统,构建一个隐私政策质量评分体系,帮助用户对隐私政策有一个客观的认识。例如,可以将GDPR设置为欧洲企业隐私政策的标准来帮助欧洲用户阅读隐私政策。
其他文献
贫困地区的扶贫开发是中国的长期历史任务,政府通过多项政策使扶贫工作取得了显著的成就。中国贫困地区往往分布于自然资源匮乏、自然灾害频发、交通运输系统欠发达、且多以传统农业营生的地区,因地制宜探寻、培育和发展贫困地区的特色产业成了缓解区域性贫困的不二选择,而通过培育新型农业经营主体来带动贫困户发展是产业扶贫的重点任务。从贫困地区新型农业经营主体参与扶贫来看,政府明确扶持新型农业经营主体扶贫带动产业发展
中国农业正处于转型升级的重要时期,实现农业现代化以及乡村振兴,人才支撑是关键。一方面,要适应传统农业向产业化、企业化、集约化的现代农业转型的经营需求,尤其是随着农村土地流转速度及规模化水平不断提高、农业生产方式不断改革以及新型农业经营主体的兴起和发展,迫切需要一批善经营、懂管理、会技术的现代化农业复合型经营人才;另一方面,城镇化、工业化的发展使得农村劳动力大量外流,农村空心化、农业兼业化问题日益凸
随着社会的发展,中国人口结构呈现老年状态,提前进入了老龄化社会,老年人具有“城乡倒置”和“未富先老”的特征,但目前政府的社会政策、老年公共服务体系尚不健全,难以满足老年群体的服务需要,尤其是农村老人,在经济、医疗、养老方面长期处于缺位状态。同时,大批的年轻劳动力倾向于留在城市工作而将父母留守于家乡,这直接导致了大规模空巢老人的产生。当老龄化遭遇“空巢”现象时,空巢老人的贫困状态便突显出来,他们具有
学位
精准扶贫作为中国决战决胜全面建成小康社会的贫困治理创新举措,意义非常重大,其既是2020年前乡村振兴战略的重要内容,也是乡村振兴战略谋篇布局的基础工程。当前,中国的精准扶贫已进入攻坚拔寨时期,产业扶贫作为中国实施扶贫开发以来重要的扶贫策略,为改变贫困地区落后的面貌、提高农村居民生活水平做出了巨大的贡献。但随着产业扶贫项目的进一步落地,其效果呈现出边际效益递减的内卷化特征,贫困户对产业扶贫项目逐渐表
学位
在坚决打赢脱贫攻坚战,全面建成小康社会背景下,阜平县作为革命老区、山区县、国家贫困县三合一重点县,脱贫攻坚任务非常艰巨。2012年底习近平总书记到阜平县实地调查贫困现状并作出重要讲话,将贫困地区脱贫致富作为全面建成小康社会最艰巨最繁重的任务,而扶贫开发和脱贫致富的难题之一是农民居住分散,基础设施条件差,且土地利用效率较低。2015年国土部明确规定将阜平县作为全国城乡建设用地增减挂钩项目试点,并同意
学位
品牌农业是现代农业的重要标志,也是适应农业供给侧结构性改革和实现乡村振兴战略的必由之路。发展品牌农业对于提高农产品质量、增加农民收入、降低小农户经营风险、适应消费升级新需求、提高农产品的国际竞争力具有重要意义。自2004年起,中央一号文件多次提到要支持农业品牌的建设,尤其是2017年首次提出要推进农产品区域公用品牌建设,支持地方以优势企业和行业协会为依托打造区域特色品牌,各地积极开展农产品区域公用
学位
农村是我国生态文明建设的缺失之地,作为农村生活的一种新形式,生态移民理应承担起农村生态文明建设的重任。然而,移民生态知识匮乏、生态意识薄弱,加之其生活、生产行为没有高度的自我审视与修正,缺乏相应制度规则的约束,其行为后果都将直接影响迁入地的生态环境。因此,研究移民迁入地农民的生态意识与生态行为的关系具有较强的理论与现实意义。  本文在回顾国内外相关文献的基础上,以宁夏生态移民迁入地农民为研究对象,
中国特色社会主义进入新时代,我国社会主要矛盾已转化为人民日益增长的美好生活需要和不平衡不充分的发展之间的矛盾,针对当前农产品安全问题频发,对农业生产提出了优化品种结构、质量结构、区域结构和市场结构的要求。农产品安全问题根源是农药不合理施用导致的农药残留,其负外部性表现为人类健康风险、食品安全和生态环境破坏,目前我国农药年投入30万吨,单位施药强度是国际平均水平的2.5倍,四川为0.91kg/亩,使
学位
在国家大力培育家庭农场、合作社、农业企业等新型生产经营主体、解决“谁来种田、如何种田”的大背景下,一支运用现代经营管理理念和先进实用技术,专业从事规模化、集约化农业生产经营的职业化经营管理群体——农业职业经理人队伍应运而生。农业职业经理人主要依托农民合作社、家庭农场等实体,其诞生和发展有效缓解了农业粗放经营、增长后劲乏力等难题,而且对于推动农地使用权制度改革、农业现代化进程等均具有重要而深远的意义
学位
开展自然保护区管理成效评估,被认为是自然保护区管理的重要工作,是生物多样性保护的成果展览,然而在中国传统抢救式保护历程中,很多保护区并没有得到有效管理,既有自然保护区内部管理质量等影响,但也有周边农户的生产活动影响。而农户作为生物多样性保护的直接参与者,大多数自然保护区管理工作均以生态效益为主,而忽略了是否对农户造成负面影响,从而令农户与保护区之间冲突矛盾,影响自然保护区管理成效。因此,本文立足于