中医药症状的中文分词与句子相似度研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:ruoxich
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中医药是中国传统医药,也是中华民族的文化瑰宝。随着医学技术的发展,中医药由于其整体性、动态性、辩证性等特征,越来越被人们重视。信息技术、人工智能的不断突破,也为中医药的发展提供了新思路。目前国家已将中医药信息化列在国家信息化发展战略纲要中。由于中医药信息化起步较晚、长期投入不足,中医药信息化的研究总体滞后。本文结合自然语言处理技术,对中医药信息化过程中的中医药症状,进行了深入的研究。重点研究了中医药症状分词和中医药症状句子相似度计算,具体贡献如下:1)研究了中医药症状的数据特征。在大量的观察实验和互联网搜索的基础上,将其总结成表达各异、理解不同、表述不清、单字成词、部分字词用法特殊、用字不规范、词典不完善这七大特征。2)研究了中文分词的主要算法、技术难点以及评价指标。分析了每种算法的优点和缺点。针对已有分词算法的不足和中医药症状数据的特征,设计了一种基于双向条件概率统计模型和相对位置的中医药症状分词算法。通过与互信息模型、二元文法模型、正向条件概率模型、双向条件概率模型比较,本论文的方法在准确率和召回率上分别较其他算法平均提高了 13.39%和17.88%。3)研究了汉语句子相似度计算的主要算法、技术难点以及评价指标。分析了每种算法在中医药环境下的优缺点。改进了已有的词语相似度计算方法。提出了中医药症状词语的分级概念,按照症状词语的重要性将其分为六个等级。综合词语相似度和词语重要性两个指标,改进了原来的基于语义向量的句子相似度计算方法。新方法较传统的方法在句子相似度打分的准确性上提高了 11%。4)为使中医药算法可以方便的被中医药领域的研究者使用,本文从中医药信息化角度出发,设计并实现了一个完整的、易用的、可扩展的中医药数据挖掘平台。该平台将所有算法看成一个算子,用户通过组合不同的算子来进行实验。
其他文献
试驾江淮2013款悦悦国际版随着国人购车用车心态的逐步成熟,微型车、小型车在路上越来越多。毕竟。停车、行车所古空间小、油耗小、车的总价低。显然更符合现代人的环保理垮金
老捷达的优势为新捷达在市场中的竞争奠定了基础,更何况这次又配备了大众的EA211发动机+带有运动模式的6AT(AQ250)或5MT变速箱。据了解,这套动力系统出自大众新MQB战略项目,全铝缸
以高纯纳米银线作为导电介质,采用低成本丝网印刷法在普通透明玻璃基底上制备纳米银线薄膜层。经低温退火处理后,采用冷场发射扫描电子显微镜对薄膜的形貌进行表征;分别采用
期刊
目的通过将一次性吸痰管应用于内科老年便秘患者灌肠的这项研究,评价该项改良灌肠方法的灌肠效果。方法用实验研究的方法,共有98例研究对象,在三个月的时间内,按随机数字表法
本文分析了反应烧结过程中温度场分布对碳化硅(SiC)镜坯的影响,提出安全升降温速率与陶瓷坯体尺寸的平方成反比关系;测试了SiC素坯热膨胀系数、导热系数与温度的关系,在此基
盐湖是一种特殊的湖泊,常被定义为含盐量≥0.3g/L的各种湖泊。我国拥有一千多个盐湖,面积达到4.1万km~2,主要分布在我国西部和东北部。其中西藏高原是世界上最高最大的盐湖区
简要介绍了转换GPS高程的二次曲面拟合法和神经网络方法。然而 ,这 2种方法都有缺点 ,介绍的CF&NNM方法充分利用了 2者的优点 ,通过 2个平坦地区的工程实例 ,证实该方法的有