序列数据多分类问题的研究与实现

来源 :复旦大学 | 被引量 : 0次 | 上传用户:QQ329431503
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
模式分类是机器学习领域重要的研究内容,也是计算机应用领域中普遍存在的问题。支持向量机作为经典的模式分类算法,基于VC维理论和结构风险最小化原理,克服了传统机器学习分类算法很多缺陷,目前,已表现出很多优于已有方法的性能。传统的支持向量机用于解决实值型数据的二分类问题已表现得很成熟,随着信息产业的发展和互联网技术的进步,出现了大量的序列数据,分类问题也更多地以多分类的形式出现,面向序列数据的多分类问题逐渐引起研究者的重视,成为机器学习领域新的研究热点之一本文以序列数据多分类问题为研究目标,分析了当前基于核方法和统计学习理论的分类算法,立足于多任务学习理论,提出了一个新的基于多数据域描述模型用来解决多分类问题,并将其用于转录因子结合位点识别和用户浏览网页行为序列挖掘。论文的主要内容包括以下几个方面:1.对本文采用的背景知识进行了简单介绍。主要包括统计学习理论,核方法,以及序列数据分类问题的基本思想和研究现状。讨论了序列数据分类的若干关键问题,给出序列数据的形式化定义。2.建立了一个用于多分类问题的多数据域描述模型,并用于解决转录因子结合位点识别和用户浏览网页行为序列分类问题。相比先前基于0-1编码的多项式核,采用新的字符串核能较好地度量序列之间的相似度。从算法的时间代价考虑,给出相应的并行算法以提高运算效率。3.设计并实现了转录调控挖掘系统ITREP,其中包括转录因子结合位点浏览与挖掘平台。该平台提供转录因子结合位点在线浏览服务,实现了转录因子结合位点识别算法,允许用户调整不同的参数以获得最佳的效果,为生物学家进行转录调控研究提供了一个良好的生物信息学工具。
其他文献
支持向量机是由Vapnik等人提出的一种分类算法,因其具有良好的泛化性能,在机器学习和数据挖掘领域中被研究者广泛使用。传统分类算法中假设对于属于不同类型的样本的错误分类
解决日益严重的水污染问题,最行之有效的手段就是加强对水质的监测。因此,水质监测技术的研究就显得十分重要。继传统的水质理化检测技术之后,近几十年来应用水生物进行水质
网格计算是分布式计算领域的一个重要分支。由于网格计算本身所具有的高度复杂性,网格计算理论的验证实验难度较高。网格资源大都比较珍贵,网格研究人员在实际网格资源中进行
随着农村电力市场的不断发展,国家电网公司提出了建设信息化新农村的发展目标,对农电企业的电网供应能力和电力营销经营水平以及电力生产管理水平提出了信息化的新要求。从目
无线射频识别技术(简称RFID)是一种非接触式的自动识别技术,它利用无线射频信号实现物体识别与信息传递功能。与传统的识别技术相比,由于具有多目标识别、快速识别等优点,在
随着计算机技术和成像技术的发展,数字图像处理技术在日常生活、军事、工业和医疗等许多领域得到了广泛的应用。提高图像处理的速度,使图像处理过程更加可视化,是设计基于图
随着科技尤其是电子技术的发展,以及制造业的更进一步,无线传感器网络技术有了很大的发展。为了得到人们感兴趣的数据,要在一些地区大量部署传感器,因而要求传感器成本更低廉
随着云计算的迅速发展,越来越多的企业和个人用户倾向于将自己的应用和数据托管给云服务商。然而云计算环境中数据存储服务由半可信的云服务器提供,传统的访问控制方案难以直
随着计算机科学技术的不断进步,计算机监控系统也被越来越广泛地应用到各个科学领域。尤其是在一些无人值守的工业生产现场,计算机控制系统发挥出了它无与伦比的功能。为了响
传统的储层参数预测方法有很多,比如经验公式、回归分析等,其中大部分方法都是基于线性的、单变量的;而地质参数具有数量多、维数高,且存在较大随机性和不确定性等特点,所以常