基于知识型数据的监督学习

来源 :上海交通大学 | 被引量 : 0次 | 上传用户：hongyanzhiji761112

【摘要】

：

本文研究基于知识型数据的学习问题。传统机器学习问题主要依赖于带标注的训练样本来完成建模与预测。但是一个公认的问题是标注数据是非常费时与费力的,已经成为机器学习继

【作者】

：

张从乐

【机构】

：

上海交通大学

【出处】

：

上海交通大学

【发表日期】

：

2008年期

【关键词】

：

知识型数据机器学习文本分类朴素贝叶斯分类器风险最小化框架

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

本文研究基于知识型数据的学习问题。传统机器学习问题主要依赖于带标注的训练样本来完成建模与预测。但是一个公认的问题是标注数据是非常费时与费力的,已经成为机器学习继续发展的一个很大的瓶颈。机器学习的一个很重要的应用就是网页,文本数据的分类。为了能够对网页数据进行高质量的分类,需要大量的文本训练集。本文注意到一个新的趋势,就是随着互联网的飞速发展和广泛应用,越来越多的服务和应用出现在互联网上。这些数据不仅仅是平面的文本数据,同时带有类标,结构等等格外的信息。考虑到任何人都可以很容易的得到大量的互联网数据,本文解决的的问题是,通过互联网知识对机器学习的过程进行监督,从而减少机器学习算法,特别是文本分类算法对人工标注数据的依赖。为了达到这样的目的,本文从两个角度来解决问题。第一是设计知识型数据的获取算法,第二是设计知识型数据进行监督学习的算法。对于知识型数据获取的研究算法,本文研究如何将平面的,没有任何额外信息的网页数据进行自动标注,从而使得其成为知识型数据。本文的研究思路是依照网络上大量存在的层次结构,对网页数据进行自动分类。研究的难点是,待选择的类的数量非常庞大,传统的机器学习和分类算法无法取得很好的效果。与此同时,基于知识型的算法要求很高的效率,对于算法的设计有很大的限制。本文在这方面取得了一定的突破。本文注意到朴素贝叶斯分类器具有速度快,易实现,通用性强等在当前问题中非常需要的特性。虽然传统朴素贝叶斯分类器的效果非常差,通过深入挖掘朴素贝叶斯分类器在大规模类空间的特性,找到了朴素贝叶斯分类器存在的两个严重问题,通过修正这些问题,使得朴素贝叶斯分类器的效果得到了大幅度的提升。从而能够提供可靠的知识型数据。对于设计知识型数据进行监督学习的算法,本文研究如何利用带有类标信息的知识型数据,来取代文档分类中的训练集,达到相当于有训练集的学习效果。研究的难点是互联网知识型数据涵盖大量的语义信息,而待分类的文本的语义信息比较集中。为了克服这样一个差距,本文设计了一个两阶段风险最优化算法。在第一阶段中,该算法生成对于待分类文本最相关的知识型数据。在第二阶段,知识型数据与待分类数据进行深度交互,从而挖掘出知识型数据中对于学习任务有用的信息。整个学习的过程是在风险最优化框架下,利用概率模型进行建模。该算法在实验中取得了较好的结果。不仅大大高于对比试验,同时能够取的和使用标注数据集的分类算法相近的表现效果。

其他文献

PDF文档的生成与原始性验证研究

PDF格式文件目前已成为数字化信息事实上的一个工业标准,它的跨媒体、跨平台、安全性使其在网络中应用越来越广泛,对其研究显得日益重要。如何生成PDF文件在国内研究的较少,

学位

PDF文件PDF文件生成C#iTextSharpMD5水印原始性验证

基于ASP.NET的军官素质评估系统设计与实现

信息化时代的部队建设和未来高技术战争对军官素质都提出了新的更高的要求。未来战争,是敌我双方军官整体素质的较量。作为部队建设的组织者和领导者,军官是整个部队的“大脑

学位

军官素质评估数据库开发平台数据查询功能

基于流信息的P2P流量监测系统的设计与实现

随着Peer-to-Peer(P2P)网络技术的不断进步,各种P2P应用的流行程度越来越高,近年来Internet上P2P流量的比例也在不断攀升。在科研或工作环境中,以P2P为基础的文件共享、即时

学位

Peer-to-Peer流量识别流量特征网络测量

基于模糊身份和动态门限加解密方案的研究与设计

在基于身份的密码学中,通常身份信息是确定的,如IP地址、电子邮件地址等,但是在实际应用中,很多情况下,用户的身份信息是不确定的。在2005年的欧洲密码学会上,Sahai和Waters

学位

基于身份基于模糊身份动态门限加密解密

基于Windows的桌面防火墙的研究与设计

通过研究目前主要桌面防火墙产品，分析了它们的工作机制和原理，以及在数据封包过滤的有效性，高效性以及过滤系统本身的安全性等方面存在的问题。指出了基于NDIS中间驱动程序的数

学位

网络安全NDIS中间驱动程序包过滤个人防火墙SPI

基于语义服务的民航综合信息平台的研究与实现

随着我国经济的持续发展、人民生活水平的不断提高,公众对交通出行服务质量的要求也越来越高。可以清醒地看到,我国民航的信息化水平、面向公众及全行业单位与部门的数据共享

学位

本体语义Web服务服务组合Petri网民航

基于人工免疫的中文反垃圾邮件系统的研究与实现

随着电子邮件越来越普及的使用,电子邮件已经是人们日常生活网络交流的重要途径。然而垃圾邮件作为商业广告、病毒程序或敏感内容的载体,占用信箱空间和网络带宽,威胁系统安

学位

垃圾邮件邮件解码人工免疫中文分词特征提取反馈学习

基于JSF、Hibernate和Spring框架的网上商店系统的设计和实现

轻量级J2EE应用程序开发方兴未艾,多种框架分别适用于Web应用程序不同的层次,但组合应用这些框架可极大地减轻系统的开发难度,提高系统的可靠性和可维护性。文中介绍的JSF是

学位

网上商店JSFHibernateSpringMVC模式

基于数据挖掘的证券投资决策支持系统

随着计算机技术的高速发展，计算机的应用已渗透到人们工作和生活的各个领域。股票分析在金融投资领域占有重要地位，而基于数据挖掘技术对股票价格进行分析和预测则为古老的股票

学位

数据挖掘证券投资投资决策决策支持系统股票分析神经网络

渔业领域本体构建关键技术研究

本体论(Ontology)来自哲学领域，旨在研究客观事物存在的本质和组成。联合国粮食与农业组织认为本体论是指“包括一个领域中各类标准术语词汇，并对这些术语词汇进行准确定义，以及

学位

本体论本体构建本体建模知识工程渔业领域本体知识库

基于知识型数据的监督学习

与本文相关的学术论文