论文部分内容阅读
随着当今互联网的飞速发展,互联网上的信息挖掘也变得越来越重要。而在这大量的数据中,深层互联网中的信息不仅从数量还是从质量上来说,都大大地优于表层互联网。然而,相对于表层网络来说,由于深层网络的数据隐藏在网页的查询表单之后,所以,已有的技术(包括Google)都无法抓取和索引深层网络中的信息。由此可见深层网络数据的巨大价值。
本文是目前该研究领域中第一个研究“结构化深层网络数据抓取”的工作。我们通过有创见的数学建模,将这个困难的问题划分为:“基于图的半监督学习”(Semi-supervised Learning based on Graph),“主动学习”(Active Learning)和“图融合”(Graph Fusion)这3个数学问题。并且对它们都作出了深入有创新的探讨。
在“基于图的半监督学习”中,我们首创的将这一2004年刚出现的工作运用到实际的场景中,在这之前,关于该问题的工作往往在停留在理论的分析上,而我们是第一次将这一工作运用到大规模的数据集上。并且,由于我们的问题特殊性,其他的传统学习方式都无法解决我们在深层网络数据的探测估计中遇到的困难。在“主动学习”中,我们创新的在理论上提出突破,将“基于图的半监督学习”等价变形为“惰性随机游走”,并且在此意义下,从概率论的视角原创的推导出了“基于半监督学习的主动学习”的松弛最优解,使在我们这一特定问题下计算该解的复杂度降到了O(1),并且该松弛解的有效性在实验中得到了证明。在“图融合”中,我们仔细考察了Amazon.com站点上所有的数据分布,提出了2种在这样的结构化数据中进行“图融合”的框架。并且在实验中得到了非常好的结果。
最后,我们在实验过程中,花费了2个半月的时间,在互联网上收集了Amazon.com等六个庞大的互联网数据库,多达400,000,000个数据对象,进行了实际应用场景下的大规模实验。取得了接近90%的估计精度。并且该工作在我于微软亚洲研究院实习研究时,获得了很高的评价。