基于复杂网络理论的糖尿病肾病辨证建模研究

来源 :北京中医药大学 | 被引量 : 11次 | 上传用户:zhangjiakou00
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
研究目的在糖尿病肾病的计算机辅助辨证研究背景下,基于复杂网络理论解决以下建模工作中存在的实际问题:1.提出并分析糖尿病肾病数据的多标签属性特点,探索糖尿病肾病多标签数据的处理方法,解决以往单纯采用单标签学习所导致的证型分类结果偏离实际的问题。2.建立适合糖尿病肾病的多标签数据特征选择方法,解决建模过程中数据维度高而稀疏、缺乏典型特征组合对模型性能造成严重影响的问题。3.建立糖尿病肾病的多标签辨证模型,完善糖尿病肾病的多证型及兼夹证型的诊断问题。研究方法1.针对糖尿病肾病数据的多标签属性,在广泛文献调研的基础上,利用复杂网络理论构建糖尿病肾病辨证网(DNBZN),对糖尿病肾病多标签数据进行合理、有效的表征。2.针对中医药数据维度高而稀疏的特点,首先提出一种新的特征选择方法对糖尿病肾病数据进行预处理。该特征选择方法建立在复杂网络广义社会合作网的理论基础上,利用重叠社区发现Bitector算法对网络进行重叠社区发现,进而选择出对证型分类代表性强且区分度高的典型特征组合。然后在网络社区发现结果的研究基础上,建立糖尿病肾病多标签特征数据集,并将数据集结构化处理,为下一步多标签分类模型研究提供数据基础。3.针对糖尿病肾病的多证型分类问题,探索和使用多种建模策略,利用SVM、 AdaBoost、ANN和KNN最近邻等多种机器学习方法进行建模,并尝试使用多种不同的基础分类器组合形成不同的多标签分类器,依据训练结果学习和调整模型参数,寻找适合糖尿病肾病的多证型辨证模型。4.针对辨证模型的分类性能评估问题,调用Hamming Loss、Ranking Loss、One-error、 Coverage、Average Precision等5种公认的多标签学习评价指标对每种多标签辨证模型的性能进行综合评价。研究结果1.经过文献调研,共收集来自256篇文献中的113个症状(特征)和15个证型(标签),每个症状至少属于1个证型,至多属于6个证型。建立的DNBZN具有113个症状节点和15个证型节点,边代表症状节点对相应证型节点的特异度,边权由基尼指数量化表示。使用二分网络Bitector算法对DNBZN进行重叠社区发现后,发现了肝肾阴虚、气阴两虚的重叠社区和脾肾气虚、脾肾阳虚、阴阳两虚重叠社区,以及其余10个非重叠社区。每个社区内部的节点是对该证型标签区分度高及代表性强的特征组合,其余未进入该社区的节点被视为该证型的冗余或不相关特征删除,有效降低了特征维数。结合中医理论对特征选择结果进行验证,结果表明基于重叠社区发现的特征选择方法选择出的症状特征合理有效,符合中医理论和临床实际。2.依据文献调研和网络构建结果,建立了一个拥有113个特征和15个类别标签的糖尿病肾病多标签特征数据集。在数据集中构建特征及特征组合与证型标签之间的映射关系。单个症状与其所归属的证型标签之间的映射关系为189条,在此基础上结合社区发现结果,扩展特征组合与证型标签之间的映射关系。最后建立的特征数据集中共拥有1759条映射关系,作为后续多标签辨证建模工作的数据来源。3.在“转化问题”和“算法适应”两种多标签学习的建模策略下完成建模工作。在“转化问题”策略下使用SVM和AdaBoost建立多个二分类基础分类器对糖尿病肾病特征数据集进行多标签分类建模;并分别选择线性核函数、二次方程核函数、多项式核函数、径向基核函数和多层感知核函数等5种核函数作为支持向量机的核函数进行建模,评估模型的分类效果,发现模型对每个证型二分类准确率达到97%以上;分别使用Real AdaBoost, Gentle AdaBoost和Modest AdaBoost算法作为AdaBoost的基础二分类分类器进行多标签建模,发现模型对每个证型的二分类准确率接近98%。在“算法适应”策略下,使用ANN和KNN直接在特征数据集上进行多标签分类,优化参数后,ANN模型整体分类准确率达到96.2%;KNN模型整体分类准确率达到94.67%。4.使用10折交叉验证方法,计算Hamming Loss、Ranking Loss、One-error、Coverage、 Average Precision等5个指标的平均值,对SVM、Adaboost、ANN和KNN模型的性能进行综合比较,结果表明这四种模型都达到了令人满意的分类精度,具有良好的性能。相比较之下SVM的综合性能最佳,其次是AdaBoost和ANN,KNN的综合性能相对较弱。研究结论1.多标签学习更符合中医临床实际,多标签数据处理方法和多标签机器学习策略可以提高糖尿病肾病计算机辅助辨证的准确性、完善多证型及兼夹证型的诊断,进一步为临床遣方用药提供参考。2.本文提出的基于复杂网络重叠社区发现算法的特征选择能有效提取出对证型代表性强且区分度高的典型特征组合,显著提高分类器的分类性能,是糖尿病肾病数据特征选择的一种新的有效方法。3.本文使用的多种建模策略能够胜任糖尿病肾病多证型分类任务,分类性能令人满意;同时模型也适用于中医药领域具有高维度、稀疏性和非线性特点的其他数据和类似问题的建模研究。
其他文献
在数学核心素养背景下,笔者通过在三声和谐课堂中运用师友合作的学习方式,培养学生之间的互助合作意识.在实际的教学过程中通过问题串的方式,使学生对数学产生兴趣和自信心,
新亚欧大陆桥东起太平洋西岸的中国连云港,经陇海、兰新铁路线至新疆阿拉山口出境,通过中亚、西亚、欧洲到大西洋岸的荷兰鹿特丹港,构成了亚欧两大洲全长10900公里的亚欧铁路线,
目的探讨Narcotrend监测下依托咪酯及丙泊酚麻醉维持在老年患者腹腔镜手术中的应用效果。方法选取2016年3月~2017年3月我院麻醉一科收治的100例需实施腹腔镜手术的老年患者为
本文结合两座平原水库泄水涵洞下游的消能问题进行了讨论,分析了矩形扩散消力池的水力设计,指出平原水库泄水涵洞的实际最大过流能力必须同下游消能结合在一起考虑来确定,并就存
鉴于压裂滑套球座在水平井裸眼分段压裂工艺中的重要性,从化学成分、金相组织及性能等方面优选了具有可钻性强、满足工艺要求的QT5-A型球墨铸铁球座材料,提出了一种锥面锥段+球
高职院校女生是学校中的一个重要群体。根据高等职业院校女生群体的特点,分析了女生在理想、学习生活、情感、人际交往和求职就业等方面存在的困惑,从多方面探讨了实现女生自
从烃源岩的丰度、纵向发育及横向分布情况等方面对大民屯凹陷烃源条件进行研究,并对其油气运移条件进行分析。结合该区的勘探成果,分析烃源岩在太古宇古潜山油气成藏中的控制
布局与空间营构,是当代中国人物画创作中非常重要的问题,是画家在作画之前首要考虑的。本文试从具体的中国画创作经验谈起,认为当代人物画中的布局形式和空间营构是在传统绘
目的:探讨医院医护人员在KPI(医院关键业绩指标)考核、JCI(国际联合委员会)认证标准执行力状况,总结科室执行力在医院管理中的重要性。方法:2015年5月医院自行设计问卷对160
目的观察盐酸戊乙奎醚(长托宁)在胆绞痛中的治疗作用。方法将40例胆绞痛病人随机分长托宁组和阿托品组,各组20例。除抗感染及补液支持外,长托宁组给予长托宁;阿托品组给予阿