【摘 要】
:
拉曼光谱与机器学习的结合目前已是各个领域研究的热点,随着它的迅猛发展,已经有越来越多的研究者用其进行生物医学方面的研究。本文介绍了共聚焦拉曼光谱与机器学习的结合在
论文部分内容阅读
拉曼光谱与机器学习的结合目前已是各个领域研究的热点,随着它的迅猛发展,已经有越来越多的研究者用其进行生物医学方面的研究。本文介绍了共聚焦拉曼光谱与机器学习的结合在肺腺癌检测中的研究意义,并结合癌症组织和正常组织的拉曼光谱数据作为研究对象,并分析拉曼光谱数据的特征峰和强度之比以及每处的成分结构,分析拉曼数据的特点所在,并进行特征选择与提取,建立数据集,再结合机器学习对数据进行分类决策,并针对参数进行优化。文章的主要研究工作如下:1.提出使用机器学习解决拉曼光谱分类的算法。选择可能会同在胸水中出现的A549与Met-5A,使用WITec光谱仪测量出两种拉曼光谱数据,建立数据集。生物样本的拉曼光谱数据即是在600-1800cm-1范围内的获得,本文分析了在此范围内的特征峰位置以及峰值,还有在两个样本间的拉曼位移变化,进行特征峰筛选。2.建立数据集以后,对数据集中的数据进行分析,本文使用了两种方法:基于主成分分析的特征分析与多变量间相关性分析,本文使用三大相关系数中的皮尔森系数。使用PCA进行实验,证明11个特征的贡献率达到100%,表明这11个特征便能代表全部信息的覆盖。在使用多变量间相关性分析时,分别以每一个特征向量为因变量,经验证得到最高的准确度,同样证明了前11个主成分达到了最好的效果。PCA在聚类方面取得了不错的效果,得到准确度90.06%、灵敏度94.62%、特异性85.28%和MCC是80.39%。此部分的特征分析为后续的分类提供了很好的数据输入。3.在对建立的数据集继续进行分类研究,分别建立不同的分类模型:阈值分类、SVM、K-means。在这之前,本文比较了三种数据集划分的方法,实验中选择交叉验证,将划分5个子集。针对阈值分类显然并不能将非线性的数据有效地分离,虽然也是经过公式演算的。而SVM是一种有效的分类器,针对此算法,本文选取了不同的核函数来进行比较,并对不同核函数的不同参数进行优化。最终确定RBF核函数参数的构建模型效果最好。K-means的可选择参数只有k,选定为2,不过最终分类结果没有SVM优异。4.对拉曼光谱数据进行分类,只是一个在临床上的初筛的步骤,而想要进一步的确诊,还需要对分类为癌症的样本精确定位,本文选择共聚焦拉曼成像技术,可广泛用于生物信息成分的表征与分析。
其他文献
图像描述是一项图文融合的技术,目的是用文字对图像内容进行概括性描述。在图像检索、机器人问答、儿童教育等领域具有广阔的应用前景。目前图像描述生成的描述语句的准确性和生动性有待提高,本文基于图卷积神经网络和注意力机制对图像描述任务进行研究分析,主要工作如下:第一,提出基于Dense Net和自适应注意力机制的图像描述模型D-ada。考虑到图像描述很难正确提取图像的全局特征,同时大多数注意力机制方法强制
散在倍增插入变异是一种常见的人类基因组DNA插入类型,在人类癌症的发生过程中起着促使基因组不稳定的重要作用,准确检测散在倍增插入的位置及序列,对变异基因的筛选分析和对癌症等疾病的靶向药物选定具有重大意义。随着第二代测序技术的发展,越来越多检测插入变异的算法逐渐被提出,但是使用第二代测序数据很难检测散在倍增插入变异,这是因为源自测序样本中散在倍增插入区域的读段很可能完全映射到参考序列中的其它区域。而
《燕语生意筋络》是清末以北京话为载体的商务汉语用书。《燕语生意筋络》为我们提供了一个较新的语料去研究清末北京官话。本文从版本、语言、商业文化三个层面对这本专书进行研究。首先,对该书的成书背景、渊源、体例等版本信息作了细致的溯源和介绍,发现与《燕语生意筋络》同一内容不同年代的历时系列语料——《生意初阶》《贸易须知》(炳记)、《贸易须知》(嘉庆本)与《燕语生意筋络》形成的系列语料,也具有较高的研究价值
随着中国的发展进步,老百姓对健康越来越关注,对医疗保障的要求也进一步提高。同时,随着我国医疗改革的加快和医疗保障受众的全覆盖,加上人口老龄化加剧、医疗保障经费大量使用,医疗费用支出大幅增加,以前的医疗经费管理和服务方法暴露出诸多不足。通过推动医疗保险公共服务流程改进来破解老百姓看病难、养病难、报销难、没病预防难等问题,已经成为D市医疗保障公共服务改进工作面临的重要课题。本文首先对我国目前整个医疗保
VB族金属钒(V)是重要的氢分离和纯化材料,由于其低成本、高氢渗透和良好的机械强度而受到人们的青睐。但是,纯V易发生氢脆和氧化,对氢的解离和重组效率较低,在实际应用中非常容易受限制。经研究表明,对V合金化后,可以改善氢脆效应、表面氧化以及提高氢解离和重组效率,从而提高V合金的氢渗透性和机械性能。为此,我们使用第一性原理计算系统地研究了H在V(1 0 0)表面和体内以及过渡金属元素(M=Mo、W、P
随着互联网的高速发展,人类可获取的信息量呈指数级增长,如何从海量数据中挖掘有效的信息成为亟待解决的问题。信息抽取研究正是在这种情况下产生的,其目标是将自然文本中的无结构化信息进行结构化处理,以统一的形式存储,并对获取的知识进行关联融合。实体关系抽取是其中重要组成部分之一,其通过理解文本语义,抽取文本中实体之间的现实关系,形成<实体-关系-实体>三元组作为知识图谱的最基本组件。因此,实体
智慧城市建设背景下,为应对人口高龄化、空巢化的加速发展,智慧养老应运而生。智慧养老的技术核心是利用信息技术,信息技术的发展在为老人养老带来智能、适老产品的同时,对老人的隐私权保护也提出了严峻的挑战。论文以老人隐私权保护为研究对象,运用隐私合理期待理论、感知隐私风险理论,以及层次分析法、熵值法、模糊综合评价法等分析工具,分析了老人隐私权风险等级,提出了老人隐私权保护的政策建议。论文从五个方面展开论述
随着互联网的高速发展,移动群智感知系统越来越多地应用于各个领域,如环境监测、交通状况等。群智感知系统可以通过社会中的群众和专业技术人员解决大范围的监测、交通、新闻等方面的技术问题。然而我们没有利用庞大的群众基数来发挥更有效的力量,这使得生活中的许多问题无法更有效率的解决。由于用户参与数量不足、上传感知数据量过少等问题,激励机制的研究在移动群智感知系统中显得尤为重要。设计激励机制的困难在于无法兼顾合
数字图像处理研究已经有多年的历史,许多相关理论均已成熟,各种算法和技术丰富。焊缝质量的高低直接影响到产品的使用安全性,要保证产品的安全性就需要对焊缝进行缺陷检测。X射线成像由于成本较低、成像速度较快等特点,一直是首要选择的成像方法。但由于成像技术的影响,X射线焊缝图像存在噪声多、对比度较低等缺点,人工识别的方式存在主观性且识别效率低下等问题,使得当前的检测方式准确率较低、识别速度低下。基于此,本文
近年来,随着全球各大卫星导航系统不断增强与完善,位置服务相关产业也在飞速发展。与此同时,互联网技术的不断成熟,也加速了互联网产业与位置服务产业的结合。本文以TC-OFDM