正在窥探的大佬们

来源 :新电脑 | 被引量 : 0次 | 上传用户:zhuang321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  免费获取信息、货比三家地购物,还有各种形式的通信和娱乐服务,互联网的好处实在太多,绝对不容错过,而且这些服务几乎都是免费的。不过,为什么免费的服务能够让Google这样的互联网公司最终盈利数十亿呢?这是因为它们获取了我们的数据,这些数据经过处理和分析之后,最终将产生利润,例如有针对性的商业广告。其次,所有的数据还可能被作为情报来收集,例如一个众所周知的秘密计划:棱镜。
  网站运营商收集数据的方法最为简单,访问网站的用户,产生的每次点击、每次文本输入,浏览器都会将大量相关的数据(元数据)提交到网站上。其次,在Google+、亚马逊和Facebook之类的大型社交网站上,供应商可以通过用户填写的个人信息以及使用过程中泄漏的更多信息,结合元数据创建一个更全面的用户配置文件。此外,数据分销商还将收集离线数据,例如姓名、住址,并出售这些数据给商业广告公司之类的机构。软件提供商也同样会收集我们的数据,除了收集其他相关软件的信息外,还可能收集我们使用软件的时长信息以及定位数据之类的内容。
  对于用户来说,要弄清楚是谁收集了数据、收集了什么样数据以及这些数据如何被利用是非常困难的。IT巨头通常都将自己塑造成用户的朋友,但是当我们对它们如何收集和利用数据心存疑虑时,它们通常都会说数据只会用于为用户提供更好的服务,并信誓旦旦地表示它们将严格遵守隐私政策。但实际上隐私政策是企业自己制定的,并且除了专业的律师以外,这些政策中的法规部分普通用户基本无法理解,涉及到重要问题的部分,巨头们通常也都是含糊其词。如果IT巨头最终不得不承认自己将用户的数据提供给了第三方,那么经典的说辞会是:“我们只向我们的附属机构和其他值得信赖的公司与个人提供用户的个人资料……”。不过,这样的慷慨陈词一点意义都没有,究竟提供给什么公司和个人?这样的说辞和“我们想给谁就给谁”,实际上并没有什么不同。
  事实上,Google、Facebook等许多IT巨头对于用户个人隐私的处理方法已经被许多国家、地区判定为违法,但是通常IT巨头最多也只会针对这一国家或者地区的用户修改相关的法律条文,其他国家和地区的用户仍然无法得到保护。目前,围绕数据收集与利用的法律纠纷不断,但是仍然没有一个有效的方法对相关的企业进行约束。因而,对于用户来说,更有必要学习相关的知识,并学会如何保护自己。
  先收集再分析
  对于一个没有边界的互联网来说,通过法律约束难度极大。信息的全球流动,每天数百万GB的数据通过粗粗的光纤和电缆流入巨大的数据中心,要了解这些数据,就必须先收集,之后再进行分析。大型互联网公司在多年前就已经开始了这一工作,Google公司分析搜索请求,在用户输入搜索关键字的过程中给出最可能符合用户需要的关键字建议。亚马逊则分析我们一直以来的购物行为,因而,总是能够给出精确的采购建议。而警察通过数据的分析致力于预测罪犯的行为,这种技术已经在洛杉矶、西雅图和其他几个城市使用了很长的一段时间。至于情报部门和反恐单位,则更是依赖大量的数据分析,以求能够尽早发现潜在的恐怖分子。
  然而,如果需要做出预测,不仅需要个人的数据,还必须结合用户的配置文件。为了识别用户,通常需要较长的一段时间汇总数据和创建用户配置文件。通过网站保存在用户电脑上的Cookie,可以跟踪用户并收集用户点击哪个链接之类的数据,结合浏览器访问网站时提供的软件版本、插件等相关的元数据,创建用户的配置文件,这就好像是在产生一个用户独有的指纹。
  在离线世界中使用的数据收集方法技术含量较低,但这并不会影响其效果。除了一些政府机构公开地贩卖所掌握的资料外,数据经销商也收集数据并将它们卖给保险经纪人、房地产中介。这些批量销售的数据集,除了包含吸引购买者关注的特定“线索”外,通常还会包含用户的姓名、地址、电子邮件信息或者电话号码。另外还会包含一些其他的细节,例如大概的收入,是否是动物爱好者等。在美国,这种数据批发生意正在蓬勃发展,而在其他隐私保护法律相当薄弱的国家自然就更不在话下了。以美国为例,美国LeadsPlease公司销售的邮件地址价格最为低廉,1 000个地址仅售85美元,并且购买超过50 000个地址的可以获得超过40%的折扣。
  在线和离线数据
  对于用户来说,在线和离线个人数据的结合是一件非常令人担心的事情,不过,对于利用数据的人来说,这自然是一件非常令人兴奋的事情。结合在线和离线数据的公司,最有名的是美国的Acxiom。根据该公司自己的声明,Acxiom公司拥有全世界5亿多人、每人约1 500个数据项的庞大数据池。该公司使用超过75 000个网站收集在线数据,并结合运作数十年之久的离线数据库,建成了一个令人难以置信的巨大数据池。
  Acxiom公司在德国的历史,可以追溯到1962年,首先建立起的是医疗公司和出版社的地址池,电话营销的运作始于1982年,2005年开始电子邮件营销。尽管在德国禁止将在线和离线数据建立关联,但是该公司仍然掌握着许多德国用户的资料。根据Acxiom公司德国总经理卡斯滕的介绍,该公司掌握4 000多万个德国用户的个人资料,其中包括姓名、邮政地址及大概的收入等信息,其中部分数据来自联邦统计局、国家统计局办公室直接公布的数据。不过,Acxiom公司强调,这一部分的数字并不指向个人,而是5户、1 000户,甚至是整个地区的统计数字,这意味着Acxiom公司可以向其客户提供统计概率,告诉他们,在目标地区他们应该销售什么产品。
  情报机构的数据收集
  美国国家安全局和其他情报机构也试图将网上收集的数据和离线数据合并,并将数据与具体的人联系起来。2013年6月初以来,前国家安全局分析师爱德华·斯诺登披露的数据显示,美国当局以反恐战争为借口进行了大范围的深度数据收集,电话和互联网服务供应商都是数据收集的目标。在当局认为涉及刑事起诉的情况下,电话和互联网供应商必须提供相关的数据,并允许调查人员监控个人通信。而且,情报机构不仅收集犯罪嫌疑人的数据,还通过网络接口进行深层的数据包检测,例如对数据进行过滤,去除流媒体数据和文件共享服务的数据,捕获电子邮件。据介绍,德国联邦情报局同样使用类似的方法过滤并检索特定的内容,例如检索用于制造炸弹的材料。不过,根据德国的相关法律,联邦情报局必须向德国联邦议会G10委员会提出关键词申请,在联邦议会监控委员会委员认可的情况下,才可以执行为期3个月的数据过滤分析。但是仅在2011年,联邦情报局已经对约300万人的电子邮件和电话交谈进行了分析。   供应商并不是数据的唯一来源。事实上,情报机构直接在网络节点和水下电缆连接点上截取数据,世界上最大的节点DE-CIX在法兰克福,其运营商断言外部无法访问该设施,但是世界各地还有约340个类似的节点,其中80个位于北美,是否外部也是无法访问,就不得而知了。据英国“卫报”报道,英国的监控程序“TEMPORA”有能力直接访问大西洋的光纤电缆,这是欧洲和美国之间的互联网数据大动脉。据报道,“TEMPORA”可以监控200多条光纤,同一时间能够并行捕获高达46条光纤的数据,捕获的数据存储时间长达30天。由于情报机构截取数据的海底电缆是各国互联网提供商的转接点,因而,这将会影响到全世界的互联网用户。
  互联网服务供应商本身是第三个数据源,据爱德华·斯诺登所说,美国棱镜电子监听计划的程序能够直接访问Google、Facebook、微软、苹果、雅虎、Dropbox、AOL、Paltalk等网络服务提供商的服务器。2013年7月中旬,斯诺登详细介绍了棱镜电子监听计划的具体操作情况。据他介绍,尽管微软公司此前曾否认这一说法,但微软确实给国家安全局提供了直接访问的接口,国家安全局除了可以对数据进行深度挖掘之外,甚至还可以访问加密的数据。而对于微软下属的VoIP服务商Skype,国家安全局可以通过其服务产品录制音频和视频,美国国家安全局有一个接口可以采集数据。然而,微软和美国国家安全局则说,这种数据访问方式,只发生在法院批准的情况下。
  通过不同来源收集的大量数据如何处理,情报部门面临着和Google相同的问题。这些非结构化数据中包含大量的信息,并且以不同的格式存储,处理和分析这些数据是相当复杂的事情。在几年前,这些数据的处理有时会需要花费几个星期。不过,使用现有的“大数据”挖掘处理工具,这种数据的处理和分析可以实时地进行。
  过滤大数据的算法
  在过滤、分析数据的过程中,首先需要将非结构化的语音输入、连接数据、文本和其他各种类型的信息进行处理,生成结构化的数据库。这样才可以通过简单的查询,例如谁和谁沟通?他们说什么?表达什么样的心情?获得可视化的搜索结果,这类似于Facebook新的搜索工具,我们可以输入一些像“3月在慕尼黑出生的朋友”的语句来进行查询,对Facebook的数据进行搜索和排序。
  大数据处理最常用的工具是Hadoop,这是一个支持数据密集型分布式应用的软件框架,在此框架的支持下可以对分布式计算网络中PB级的数据进行分析,这个分析过程基于Google开发的MapReduce算法,Hadoop会将数据划分为块,其中每个都包含大约64MB的数据,然后将这些块单独排序。这种经过划分的数据对于接下来的步骤非常有帮助。数据集中的数据将被分发给分布式计算网络上的节点,每个节点会周期性地把完成的工作和状态的更新报告到中央收集点。在Hadoop的框架下,这个过程只需几分之一秒。
  分析处理过程的第二个步骤将创建预测模型,根据目的的不同,该过程的具体方法有一定差异,通常是检测异常数据,并根据数据的特点或者关联,对数据流进行聚类分析,目标是将对象根据某些共同的或者相似之处划分成组(群),例如根据人们的电话或者电子邮件,获得一个可视化的社交网络。情报部门通过这种方法识别不同的人之间存在的关系,他们的方法跨越国界并且经过多年的时间积累。而我们则可以通过在线工具Immersion(immersion.media.mit.edu),检索自己的Google电子邮箱,以类似的方法标识自己的家人、朋友和同事。
  根据国家安全局主任助理约翰·英格利斯的说法,监测范围大约是2个或3个层级的联系人。如果每个人的社交圈人数是100人,那么这个人的第三个层级的联系人就多达百万人(100×100×100),这意味着,在监控一个嫌疑人时,情报部门的分析师将收集百万人的信息,通过这些信息发现和调查某人。
  数据收集的是与非
  从数据分析的角度来看,关键的问题是能从数据中推断出什么。有一些积极的应用可以为人们带来巨大的价值,确实是必须通过数据收集分析实现的。例如信用卡公司通过分析用户的行为模式,可以更快地发现用户的信用卡被盗等问题。Google通过分析搜索查询的数据,甚至可以预测流感疫情。研究人员分析人类基因组,同样也需要收集大量的数据并加以分析。
  然而,即使是积极的应用也可能会有危险,例如Google可能会显示错误的搜索建议;亚马逊可能会推荐我们不感兴趣的商品;最坏的情况下,问题可能会很严重,例如情报机构可能由于一个无辜的人在社交网络的观点而怀疑他,甚至和穆拉特·库纳茨一样,在错误的行为分析基础下被关押在关塔那摩湾,这从社会的角度看是绝对不能容忍的。
  在两个极端之间存在一个广阔的灰色区域,对于大部分用户来说,身边的这些数据具体发生了什么,基本上是一无所知。而事实上别人将利用这些数据赚钱,例如从广告业的角度来看,有关病历、家庭状态和即将建立一个新家的个人资料与信息是非常有价值的。而对于网络犯罪分子来说,个人数据是非常重要的。从他们的角度来看,最有价值的是个人的完整记录,即所谓的“Fullz”,这一般包括个人的姓名、银行卡或者信用卡信息和电话号码、电子邮件等个人信息。利用这些信息可以伪造信用卡或驾驶执照,转手贩卖给其他人也同样价值不菲。根据戴尔SecureWorks公司的介绍,个人信息的价值可以高达1 000多美元,其中所谓的“Fullz”约值550美元。
  然而,当我们清楚自己每一个点击的数据都将被收集起来、每一个操作及输入的每一个字符都可能有人在窥探时,我们完全可以有意识地决定给他们留下些什么,例如牺牲一点时间和精力采取一些小措施等。
  大数据分析
  实时:处理数个PB量级的数据
  在线公司和情报机构需要解决一个相同的问题,那就是他们必须使用自己的数据中心实时处理巨大的数据量。通过复杂的算法,例如Google开发的MapReduce算法,就可以有效地解决这一问题。
  数据分析的结果
  群集分析方法,可以通过电子邮件提供商的数据可视化用户的社会关系。
  数据销售
  我们的数据为什么那么宝贵
  有关疾病的信息,从广告业的角度来看,是最有价值的信息点,因为它可以帮助相关的行业投放有针对性的药品广告。
  我们如何保护自己
  对我们的通信进行加密
  使用Gpg4win(gpg4win.de/index.html)加密我们在Outlook、Thunderbird等邮件客户端处理的邮件。
  隐藏我们的IP地址
  使用Tor(www.torproject.org)客户端连接到Tor网络,我们可以匿名上网冲浪,不留痕迹。
  处理好我们的隐私
  使用Privacyfix(www.privacyfix.com)检测并学习如何处理好自己的隐私问题。
其他文献
近日,英特尔在北京举办了2013英特尔芯平板蓝色圣诞主题派对。在这场以“爱由芯生”为主题的活动上,英特尔展示了由14家合作伙伴推出的30多款基于英特尔架构的平板电脑,并宣布从2013年12月19日起在京东、天猫等电商平台启动为期两周的英特尔芯平板促销活动,促销形式包括了“超级大礼包”、“买平板赢免单”、“买平板送配件”、“聚划算品牌团”、“豪礼试用”……其优惠力度甚至秒杀了天猫的“双11”。  也
期刊
连续的“购物节”轰炸,让消费者也变得“花钱疲劳”,毕竟钱包不是无底洞,如果商家不能拿出实在的优惠,早晚都是要被消费者“抛弃”的。  今年淘宝的“双12”显得冷清不少,如果说天猫的“双11”是购物狂欢节,那么淘宝网的“双12”倒更像是全民参与的年终温情谢幕。和“双11”不断翻新的各种成交额不同,“双12”里更抢眼的倒是750万双色球奖金的归属者——一位在12月12日通过手机只买了81块钱东西的女孩。
期刊
之前,NEC的专业显示器主要由高端PA系列和入门级EA系列构成,而本次发布的全新SV子系列(PA242W-SV/PA272W-SV/PA302W-SV)在PA系列的基础上,采取了更先进的背光及均匀度控制技术以及ΔE≤3的色彩精准度保证。而且,该系列显示器采用了10bit广色域AH-IPS液晶面板、Adobe RGB的色域覆盖率更高达99.3%等业界的高标准。同时,该系列显示器还采用了先进的图像稳定
期刊
常规论调  如今,电视业界的4K是指3840×2160分辨率(像素点),也就是829万个像素点,该数值是已大量普及的1920×1080(207万像素点)的4倍。这似乎意味着,4K电视具备相当于1080p电视4倍的清晰度。但事实果真如此吗?  技术事实  对于消费者来说,无论是1080p还是4K,电视都是摆放在客厅或卧室中进行观看的,而超高清晰度的视觉体验是由两方面的条件综合决定的:其一是屏幕的尺寸
期刊
在本次发布会上NEC除展示尖端产品外,更加注重整体解决方案的打造。发布会上推出了多款解决方案,每种方案都根据相应的适用范围推出了具有针对性的产品。  NEC目前正从单纯的产品研发厂商,转型为一体化解决方案供应商,在加强软件研发力度的同时开展多方合作,努力为客户提供包含产品、技术、服务在内的整套解决方案。“分布式激光7K融合解决方案”正是这一理念的良好体现,通过分布式融合系统完整地采集4K信号,使用
期刊
千呼万唤始出来的4G牌照终于在2013年12月4日发放了,中国移动、中国电信和中国联通均获得TD-LTE牌照。和之前的诸多猜测相符,中国移动获得130MHz频谱资源,分别为1880MHz~1900MHz、2320MHz~2370MHz、2575MHz~2635MHz;中国联通获得40MHz频谱资源,分别为2300MHz~2320MHz、2555MHz~2575MHz;中国电信获得40MHz频谱资源
期刊
在过去的两年中,Google停止了多项服务,原因是这些服务被Google认为不成功或者与Google公司的其他服务产生冲突。然而,许多提供类似服务的其他网络公司却大受欢迎,部分公司甚至获得了丰厚的回报。  Google Knol是一个类似维基百科的博客和知识综合类服务,不同的是作者可以通过自己的文章挣钱。2012年Google放弃了该项目,而提供同类服务的博客平台WordPress.com的母公司
期刊
相变存储(PCM)是一种非易失存储技术,它利用材料的可逆转的相变来存储信息。同一物质可以在诸如固体、液体、气体、冷凝物和等离子体等状态下存在,这些状态都称为相,相变存储器便是利用特殊材料在不同相间的电阻差异进行工作的。  据宁波时代全芯科技董事长张龙介绍,PCM与闪存一样是非挥发性的,但是它比闪存更耐用。“不仅如此,PCM极大地提高了云存储数据中心里大数据交换与处理的速度,这可以让人们更快速地获得
期刊
人人公司董事长兼CEO陈一舟在2013年11月向公司内部员工发送了一封邮件,邮件中提到,陈一舟对公司过去几年来的起伏进行了反思,认为这些起伏都和战略方向有关。他也承认,公司最近几个季度的业绩确实让人失望,在项目的把控力和优先级判断上都需要反思,并表示在游戏业务上,必须放慢扩张的节奏,把精力集中在游戏运营和精品研发上,而不是四面出击,这将增加可持续的正向现金流能力,而终极目标还是力争人人网独立上市。
期刊
在洛克希德·马丁公司之后,Google和美国航空航天局(NASA)也向加拿大公司D-Wave订购了一台量子计算机。而对于量子计算机的商用,世界各地担心和怀疑的声音接踵而来,人们普遍关注的一个事实是,这样的一台机器可以破解所有目前流行的加密编码。量子计算机基于量子物理学原理,在这个复杂难懂的原子世界,各种观念往往有悖于我们的日常生活经验。量子计算机中信息的最小单位被称为量子位(quantum bit
期刊