若干图像和语音数据分类问题研究

被引量 : 0次 | 上传用户:n19851020
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据可分为无时序性数据和时序性数据两大类。对以图像数据为代表的无时序性数据的分类和对以语音数据为代表的时序性数据的分类,都是目前数据挖掘领域的研究热点。其中,引导干细胞分化的小分子化合物的高通量筛选是图像数据分类研究的重要应用,而独立于语言的语音识别是语音数据分类研究的重点。前者的本质是对多样本(同一类数据中具有多个样本值)图像数据进行分类,后者的本质是对单样本(同一类数据中只具有一个样本值)语音数据进行分类。对常用的高通量筛选方法而言,图像数据的分类需要借助图像分割的结果,在统计图像特征信息时需要人工干预,并且也需要耗费大量存储空间来保存图像的特征信息。常用的语音识别方法通常基于对统计模型的训练结果,而对多种语言训练数据进行搜集存在较大难度,同时将用户信息上传到远程服务器也存在隐私泄露的风险。本文主要基于信息距离理论和动态时间规整算法分别对图像数据和语音数据分类方法进行研究,有效解决了上述数据分类方法存在的问题和不足。本文的研究成果以及主要创新点包括:1.基于信息距离理论设计并实现了细胞质图像分类算法(Cytoplasm Image Classification,CIC)以及信息距离分类算法(Information Distance Classification,IDC)。与常用的多样本图像数据分类方法不同,CIC和IDC算法不需要借助图像分割的结果进行图像分类,避免了对图像进行特征提取,因此不需要占用大量的存储空间;避免了对细胞核染色导致的破坏,从而不会打断生物学家对生长中的干细胞进行细胞动力学研究;避免了因图像分割不准确而造成的误分类结果。此外,CIC算法和IDC算法在应用中有效避免了传统分析方法及机器学习方法中所涉及到的人工干预,不需要提取关于细胞大小、数量以及明亮度等信息。实验结果显示,本文提出的CIC算法能够成功分离两类不同性质的图像及其代表的化合物,且与生物学家的传统分析方法获得了类似的分类结果。考虑到生物确认实验的高成本,我们未对CIC算法处理的数据集进行二级生物实验验证,但针对后期大批量实验数据,我们对IDC算法、传统分析方法以及五种机器学习方法挑选出的全部活性化合物和部分非活性化合物进行了二级生物实验验证。结果显示,本文提出的IDC算法的有效性高于传统的分析方法以及机器学习方法。总体而言,本文提出的干细胞分化图像分类算法具有“黑盒”分类过程,可操作性强,非常适合于生物学家做高效且鲁棒的高通量筛选工作。需要指出的是,CIC算法和IDC算法是首次将信息距离理论应用于高通量筛选的算法。2.基于动态时间规整算法(Dynamic Time Warping,DTW)、模糊逻辑理论(Fuzzy Logic),设计并实现了合并—权重动态时间规整算法(Merge-Weighted Dynamic Time Warping,MWDTW)以及一对多权重动态时间规整算法(One-Against-All Weighted Dynamic Time Warping,OAWDTW)。与目前常用的语音数据分类方法相比,MWDTW和OAWDTW算法为独立于语言的语音识别提供了一种轻权重依赖于说话人的语音数据分类方法。在这里,轻权重依赖于说话人指的是对于每一类语音数据只有单个样本。MWDTW和OAWDTW算法不需要对大量数据进行训练,从而避免了对多种语言训练数据的搜集。此外,两种算法能够在脱机(offline)状态下进行语音数据的分类,避免了隐私泄露的风险。在对安静环境下录制的语音数据分类中,MWDTW算法与DTW、合并DTW(merged DTW)、隐马尔科夫模型(Hidden Markov Model,HMM)相比,获得了更好的性能。OAWDTW算法适用于对在噪音等多种环境下录制的语音数据进行分类,可比DTW算法获得更高的正确率。需要指出的是,MWDTW算法和OAWDTW算法是首次用于语音数据分类的权重DTW算法。3.针对噪音环境下录制的语音数据,结合支持向量机(SVM)和DTW算法的特性,设计并实现了支持向量机—合并动态时间规整算法(SVM-Merged Dynamic Time Warping,SVM-MDTW)。该方法是将SVM和DTW算法结合使用的早期尝试,具有潜在的研究价值。
其他文献
随着大数据时代的到来,传媒和社会发生了重大的变化,政府的公信力受到显著影响。不少媒体或公司已经利用大数据取得了关键性的发展,政府作为社会管理者更应该重视并充分利用
溃疡性结肠炎的疗法较多,以中医、西医、灌肠、内服、针灸、微波治疗、隔姜灸、手术、综合疗法等多种方式治疗,本文查阅近年来有溃疡性结肠炎治疗的相关文献并对其进行整理、
公有领域是知识产权法上的十分重要的概念,在著作权法中尤其应该值得重视。一般认为,公有领域是社会的公共财富,社会成员皆可自由之利用。但这并不意味着著作权中公有领域是
建筑单位要想顺利的实现可持续发展的战略,招投标制度能否合理有效的实施是一个重要的影响因素。作为一种应用十分广泛的采购模式,工程项目的招投标工作不但能够提升国有资金
明代举人是一个重要的群体,其中江西举人占据着重要的地位。经考证,明代江西89科乡试共产生8934名举人。这8934名江西举人的时空分布颇具特点,表现在地域上,各府、各县的举人
随着中国与中亚国家文化交流与贸易往来越来越密切,尤其是“一带一路”发展战略思路的提出,来华学习汉语的中亚留学生越来越多,其中的东干族留学生是非常独特的一个群体。东
<正> 骨性关节炎也称增生性(肥大性)或退行性骨关节病,在脊柱常见于頸椎和腰椎,在下肢多见于膝、踝、髋是临床常见病之一。本病虽不致引起严重残废,但往往因关节疼痛,活动不
以过渡金属元素为基础设计合成复合材料作为电催化电极材料的研究受到电化学科研工作者的广泛关注。本论文围绕Ni、Co、Fe基纳米复合材料及其电催化性能研究展开一系列研究工
城市水系整体空间作为城市地域内通过河道、湖泊等水系要素联系起来的所有滨水空间的集合,其建设状况与我国当前城市生态化发展进程密切相关。本次研究目的在于通过对已有水
近年来,随着认知心理学、数学教育哲学、教学教育研究方法的重大进展,对数学理解的研究已经成为世界范围内数学教育界关注的一个中心话题。函数概念具有高度抽象性和概括性,