结构化深层网络数据库的探测估计

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:zhuyanmei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着当今互联网的飞速发展,互联网上的信息挖掘也变得越来越重要。而在这大量的数据中,深层互联网中的信息不仅从数量还是从质量上来说,都大大地优于表层互联网。然而,相对于表层网络来说,由于深层网络的数据隐藏在网页的查询表单之后,所以,已有的技术(包括Google)都无法抓取和索引深层网络中的信息。由此可见深层网络数据的巨大价值。 本文是目前该研究领域中第一个研究“结构化深层网络数据抓取”的工作。我们通过有创见的数学建模,将这个困难的问题划分为:“基于图的半监督学习”(Semi-supervised Learning based on Graph),“主动学习”(Active Learning)和“图融合”(Graph Fusion)这3个数学问题。并且对它们都作出了深入有创新的探讨。 在“基于图的半监督学习”中,我们首创的将这一2004年刚出现的工作运用到实际的场景中,在这之前,关于该问题的工作往往在停留在理论的分析上,而我们是第一次将这一工作运用到大规模的数据集上。并且,由于我们的问题特殊性,其他的传统学习方式都无法解决我们在深层网络数据的探测估计中遇到的困难。在“主动学习”中,我们创新的在理论上提出突破,将“基于图的半监督学习”等价变形为“惰性随机游走”,并且在此意义下,从概率论的视角原创的推导出了“基于半监督学习的主动学习”的松弛最优解,使在我们这一特定问题下计算该解的复杂度降到了O(1),并且该松弛解的有效性在实验中得到了证明。在“图融合”中,我们仔细考察了Amazon.com站点上所有的数据分布,提出了2种在这样的结构化数据中进行“图融合”的框架。并且在实验中得到了非常好的结果。 最后,我们在实验过程中,花费了2个半月的时间,在互联网上收集了Amazon.com等六个庞大的互联网数据库,多达400,000,000个数据对象,进行了实际应用场景下的大规模实验。取得了接近90%的估计精度。并且该工作在我于微软亚洲研究院实习研究时,获得了很高的评价。
其他文献
实时调度研究的核心就是探讨以时间限制为条件,合理调配资源,以完成目标处理的最优策略。本文针对机场航班运营管理系统(Flight operation and management system,FOMS)的定时序
随着信息技术的发展,图像资源的日益丰富,基于关键字和描述文本的传统图像检索模式已不能胜任使用需要,有效检索海量图像数据的需求变得日益迫切。针对这一需求,基于内容的图像检
为了研究对象的行为,人们需要用传感器对对象的行为进行采样,但不幸的是很多情况下很难保证传感器接收到的信号是仅仅是感兴趣的信号,通常情况下传感器接收到的信号会被各种各样
网络处理器是一种专门针对网络数据处理而设计的处理器,其具有可伸缩、可扩展和可编程等特性。网络处理器不仅被用来开发网络路由和交换设备,同时,也被用来开发网络安全设备,如硬
文本分类是指按照预先定义的主题类别,根据文档集合中的每个文档的内容,自动地分类到预先设定的类型集合中,使其对应类型集合中的某一类别或者某几个类别。由于这些类别是可以重
机器博弈是人工智能一个传统而重要的研究领域.近些年,随着家庭电脑时代的来临、网络的兴起,计算机游戏在人们的娱乐生活中占有越来越重要的地位.以机器博弈为代表的人工智能
在计算机辅助语言学习CALL(ComputerAssistedLanguageLearning)中,语音处理技术的应用越来越广泛。当今已经存在很多方法来判断和评估发音的准确性,并取得良好的结果。对于口语中
危险化学品种类繁多,且具有易燃、易爆、毒害、腐蚀等特性,对我国的城镇、人群、河流造成不可忽视的威胁,其安全经营、储存、运输等工作显得十分重要。本文旨在上海市科委“现代
软件能力成熟度模型集成(Capability Maturity Model Integration,CMMI)是由美国卡内基·梅隆大学的软件工程研究所提出的一套针对软件过程的管理、改进与评估的模式,其根本
近几年,随着因特网的普及,计算机网络信息安全研究得到飞速的发展。但是,有线网络中的信息安全与无线网络既有联系也有区别。因此,研究无线网络的安全问题,在移动通信的高度