基于知识型数据的监督学习

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:hongyanzhiji761112
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文研究基于知识型数据的学习问题。传统机器学习问题主要依赖于带标注的训练样本来完成建模与预测。但是一个公认的问题是标注数据是非常费时与费力的,已经成为机器学习继续发展的一个很大的瓶颈。机器学习的一个很重要的应用就是网页,文本数据的分类。为了能够对网页数据进行高质量的分类,需要大量的文本训练集。本文注意到一个新的趋势,就是随着互联网的飞速发展和广泛应用,越来越多的服务和应用出现在互联网上。这些数据不仅仅是平面的文本数据,同时带有类标,结构等等格外的信息。考虑到任何人都可以很容易的得到大量的互联网数据,本文解决的的问题是,通过互联网知识对机器学习的过程进行监督,从而减少机器学习算法,特别是文本分类算法对人工标注数据的依赖。为了达到这样的目的,本文从两个角度来解决问题。第一是设计知识型数据的获取算法,第二是设计知识型数据进行监督学习的算法。对于知识型数据获取的研究算法,本文研究如何将平面的,没有任何额外信息的网页数据进行自动标注,从而使得其成为知识型数据。本文的研究思路是依照网络上大量存在的层次结构,对网页数据进行自动分类。研究的难点是,待选择的类的数量非常庞大,传统的机器学习和分类算法无法取得很好的效果。与此同时,基于知识型的算法要求很高的效率,对于算法的设计有很大的限制。本文在这方面取得了一定的突破。本文注意到朴素贝叶斯分类器具有速度快,易实现,通用性强等在当前问题中非常需要的特性。虽然传统朴素贝叶斯分类器的效果非常差,通过深入挖掘朴素贝叶斯分类器在大规模类空间的特性,找到了朴素贝叶斯分类器存在的两个严重问题,通过修正这些问题,使得朴素贝叶斯分类器的效果得到了大幅度的提升。从而能够提供可靠的知识型数据。对于设计知识型数据进行监督学习的算法,本文研究如何利用带有类标信息的知识型数据,来取代文档分类中的训练集,达到相当于有训练集的学习效果。研究的难点是互联网知识型数据涵盖大量的语义信息,而待分类的文本的语义信息比较集中。为了克服这样一个差距,本文设计了一个两阶段风险最优化算法。在第一阶段中,该算法生成对于待分类文本最相关的知识型数据。在第二阶段,知识型数据与待分类数据进行深度交互,从而挖掘出知识型数据中对于学习任务有用的信息。整个学习的过程是在风险最优化框架下,利用概率模型进行建模。该算法在实验中取得了较好的结果。不仅大大高于对比试验,同时能够取的和使用标注数据集的分类算法相近的表现效果。
其他文献
PDF格式文件目前已成为数字化信息事实上的一个工业标准,它的跨媒体、跨平台、安全性使其在网络中应用越来越广泛,对其研究显得日益重要。如何生成PDF文件在国内研究的较少,
信息化时代的部队建设和未来高技术战争对军官素质都提出了新的更高的要求。未来战争,是敌我双方军官整体素质的较量。作为部队建设的组织者和领导者,军官是整个部队的“大脑
随着Peer-to-Peer(P2P)网络技术的不断进步,各种P2P应用的流行程度越来越高,近年来Internet上P2P流量的比例也在不断攀升。在科研或工作环境中,以P2P为基础的文件共享、即时
在基于身份的密码学中,通常身份信息是确定的,如IP地址、电子邮件地址等,但是在实际应用中,很多情况下,用户的身份信息是不确定的。在2005年的欧洲密码学会上,Sahai和Waters
通过研究目前主要桌面防火墙产品,分析了它们的工作机制和原理,以及在数据封包过滤的有效性,高效性以及过滤系统本身的安全性等方面存在的问题。指出了基于NDIS中间驱动程序的数
随着我国经济的持续发展、人民生活水平的不断提高,公众对交通出行服务质量的要求也越来越高。可以清醒地看到,我国民航的信息化水平、面向公众及全行业单位与部门的数据共享
随着电子邮件越来越普及的使用,电子邮件已经是人们日常生活网络交流的重要途径。然而垃圾邮件作为商业广告、病毒程序或敏感内容的载体,占用信箱空间和网络带宽,威胁系统安
轻量级J2EE应用程序开发方兴未艾,多种框架分别适用于Web应用程序不同的层次,但组合应用这些框架可极大地减轻系统的开发难度,提高系统的可靠性和可维护性。文中介绍的JSF是
随着计算机技术的高速发展,计算机的应用已渗透到人们工作和生活的各个领域。股票分析在金融投资领域占有重要地位,而基于数据挖掘技术对股票价格进行分析和预测则为古老的股票
本体论(Ontology)来自哲学领域,旨在研究客观事物存在的本质和组成。联合国粮食与农业组织认为本体论是指“包括一个领域中各类标准术语词汇,并对这些术语词汇进行准确定义,以及