基于Bert模型的中医针灸腧穴分类研究

来源 :聊城大学 | 被引量 : 0次 | 上传用户:haiyang1979
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中医针灸治疗疾病的独特之处在于腧穴与腧穴之间的复杂组合,利用腧穴与病证之间的对应关系特性对腧穴进行分类,探析腧穴主治优势病证和配伍规律等,是近年来的研究热点。同时,计算机技术的发展带动了医疗领域的信息化、科技化,中医文献、中医药组方、针灸腧穴等文本数据成为医疗领域必不可少的挖掘、研究对象。针灸古籍文献中蕴含了丰富的腧穴、病证数据信息,挖掘文本中潜在的知识关系,利用类别分类提高腧穴治疗疾病的准确率,为病证提供最佳的治疗组方,在实际临床应用中具有较高的实用价值,但文献内容的冗杂性和不规范性,对分类准确率产生一定的影响。本文采用大数据与自然语言处理技术相结合的研究方式,首先对中医数据进行规范化处理,再基于Bert模型对针灸数据进行分类,从针灸文本语句的相似性、相关性更深入的探析腧穴与病证之间的关联,找寻类别与类别之间的微小差异。本文主要工作如下:(1)构建针灸腧穴数据库。首先,进行数据的采集工作,利用古籍、文献查询平台收集1949年10月1日前的古文数据以及1949年10月1日后的现代文献数据。然后,根据研究需求,制定纳入、排除标准,对收集的文献进行筛选、整理。最后将古籍文献文档型数据存入Mongo DB数据库,将人工标注整理的结构化数据存入SQL Server数据库中。存储的文本数据中,按照文言文与现代汉语的语言类型进行分别存储,在Mongo DB中创建古籍集合与现代文献集合,在SQL Server中创建古籍表与现代文献表。将两种数据库的优点进行结合,既可以方便对文档信息进行浏览与检索,根据关键字实现相关文档的查询,又可以存储海量数据,为自然语言处理、数据挖掘提供可利用的语料,便于以后的工作研究。(2)构建Bert-Chinese-Acupoint语言模型。改进Bert-Base-Chinese语言模型,在针灸腧穴数据库的基础上重新预训练,构建Bert-Chinese-Acupoint模型。按照文本数据的可用格式,对语料句子进行去重,计算每个字出现频率,形成特定的语料字典,利用谷歌云平台进行预训练。利用针灸腧穴训练数据进行模型微调策略,增强领域针对性,增加对中医针灸腧穴方面专业名词的语义表示能力。在模型学习率、训练轮数等设置上进行实验,以便于找到更适合腧穴分类任务的参数。将最终得到的结果与支持向量机、朴素贝叶斯、长短期记忆网络分类器结果进行对比,结果显示,本文构建的Bert-Chinese-Acupoint模型在腧穴分类上准确率能够达到97%。利用Bert-Chinese-Acupoint模型具有较高分类准确率的优势,可以预测得到与疾病最匹配的腧穴类别,结合腧穴类别间的关系发现最佳穴位组方,应用于针灸腧穴的推荐。本文创新点如下:(1)将Mongo DB和SQL Server数据库相结合,建立文档型针灸腧穴数据库和结构化针灸腧穴数据库。一方面,为Bert-Chinese-Acupoint模型预训练阶段提供语料支撑。另一方面,将中医腧穴文献信息数字化、规范化,为腧穴规律的挖掘分析提供基础。(2)在Bert-Base-Chinese模型基础上,利用收集的针灸腧穴文本,结合五腧穴语料特点,重新预训练得到Bert-Chinese-Acupoint模型参数,在谷歌云平台历时两个周左右完成预训练过程。对腧穴类别进行分类预测,准确率能够达到97%,比对比基准模型准确率提高了3个百分点。
其他文献
随着科技的进步与发展,微波光子技术在雷达系统、无线通信以及微波光子信号的产生与处理方面的应用前景变得十分广阔,其中微波光子信号的产生在其中有着非常重要的基础性作用。在以往的微波信号产生系统中,电微波器件的使用,极大地限制了整个系统的操作带宽。为了解决系统的操作带宽小以及“电子瓶颈”等问题,纯光学微波振荡器是一种有效的手段之一。同时,半导体器件具有尺寸小、响应速度快和易集成等特点,它不仅可以克服电微
互联网的高速发展给人们的生活带来便利,同时也给网络安全带来了前所未有的挑战,恶意代码数量每年以亿计的趋势增长。为了对抗恶意代码,恶意代码检测技术不断更新进步。现有的检测方法中,基于动态分析的方法能取得较高准确率,但检测时间长、资源消耗严重;基于静态分析的方法能够实现快速检测,但存在对长序列处理不佳,同时对可视化方法的可解释性有待改进。而深度学习技术自然语言处理领域和图像处理领域取得杰出的研究成果。
随着世界范围内化石能源的紧缺,人类需要利用能源转换技术来解决这个日益让我们焦虑的问题。因此,世界各国研究员们开始进行能量储存和转换技术的研究,这些技术也因此取得了迅猛的发展。电催化析氧反应(OER)是燃料电池、金属-空气电池及电解水等能量储存和转换技术的核心反应,高效的电催化剂研究成为可持续能源技术探索中的核心关键。电催化剂的性能好坏决定了反应过程中的能量消耗,高效的电催化剂可以提高析氧反应能量转
由于在雷达、传感器、信号处理等方面的重要应用,微波任意波形的产生与控制备受关注。通常,微波任意波形的产生是在电域内实现的,但由于电子瓶颈的存在,导致产生的波形带宽受到很大限制而无法满足现代通信系统的需求。而光子技术具有大带宽、低损耗、抗电磁干扰能力强等优点,可以很好地解决电子技术带宽受限的问题。基于此,光学任意波形产生技术应运而生。本论文介绍了几种主要的光生任意波形方法,着重分析时域合成和频域合成
抛物线脉冲以其优良特性受到广泛关注,主要体现在两个方面。其一,抛物线脉冲可以在增益光纤中高功率输出而不产生波形畸变,并且带有线性啁啾。因此广泛用于光纤激光器,光放大器中产生超短超高功率脉冲。其二,抛物线脉冲可以通过交叉相位调制(XPM),电光相位调制等物理过程使信号带上线性啁啾,因而在时间透镜,全光信号处理等方面有着广泛应用。现有的抛物线脉冲产生方案主要有两类。第一类是基于自相似传播理论,控制初始
硅纳米管是一种具有丰富结构和优良属性的半导体材料。硅纳米管微观结构将决定其宏观性能,若能搞清楚硅纳米管加热过程中的稳定性规律,对于控制材料按需求生长和深刻理解材料的宏观性能与微观结构之间的关系,有重要的理论和实际意义。本文采用分子动力学方法系统地探索了加热过程中单壁硅纳米管及双壁硅纳米管微观结构演变规律。为进一步解释其形变机理,基于密度泛函理论对其进行分析计算。本论文为设计开发高性能硅纳米管提供了
委托计算是云计算与大数据环境下解决任务授权的一种计算方式。理性委托计算通过在传统委托计算中引入博弈论思想,将参与者视为基于理性思考的自利者,探究理性参与者的“偏好”和“行为”给计算任务带来的影响往往更具有现实意义。通用可组合(Universally Composable,UC)框架作为一种形式化的安全协议分析与设计方法,它适用于协议执行的异步性及并发性、多用户和多实例的复杂网络环境下的应用需求。因
随着人类社会的快速发展,对资源的需求量也日益剧增。由于石化资源的储量有限以及不可再生性,促使人类急需寻找一种可再生资源来替代它。生物质储量丰富、廉价易得具有广阔的应用前景。将生物质资源转化为燃料以及一些高附加值化学品是当前可持续化学领域研究的重点之一。生物质基茴香脑具有特殊的气味和药理特性,在食品和制药工业中应用广泛。本论文将设计一条绿色可持续的路线,构建以有机膦酸铪双酸材料为催化剂,生物质基4-
在电力系统中,油浸式电力变压器承载着电压变换与电能输送等功能,是保障电网安全运行、用电人民安全的关键设备。随着近年来我国经济的高速发展,用电需求量增加,对保障工业用电、居民用电以及商业用电等的要求越来越高,因此保证电力变压器安全可靠运行成为重要任务。目前,在变压器故障诊断方法中,最常用的是油中溶解气体分析(Dissolved gas analysis,DGA)方法,但是此类方法通常基于人为经验判断
Tau蛋白在人的神经系统中发挥着重要作用,它通过调节神经元微管的组装促进微管稳定。然而,Tau蛋白的过度磷酸化会发生Tau蛋白聚集,进而形成神经原纤维缠结引起诸如阿尔茨海默氏病(Alzheimer’s Disease,AD)等神经退行性疾病。Tau蛋白作为AD的生物标志物之一,其水平的异常可以揭示相关疾病的发生和发展,因此,对Tau蛋白水平的检测在AD的早期筛查和干预治疗中具有重要意义。本论文设计