论文部分内容阅读
中医药是中国传统医药,也是中华民族的文化瑰宝。随着医学技术的发展,中医药由于其整体性、动态性、辩证性等特征,越来越被人们重视。信息技术、人工智能的不断突破,也为中医药的发展提供了新思路。目前国家已将中医药信息化列在国家信息化发展战略纲要中。由于中医药信息化起步较晚、长期投入不足,中医药信息化的研究总体滞后。本文结合自然语言处理技术,对中医药信息化过程中的中医药症状,进行了深入的研究。重点研究了中医药症状分词和中医药症状句子相似度计算,具体贡献如下:1)研究了中医药症状的数据特征。在大量的观察实验和互联网搜索的基础上,将其总结成表达各异、理解不同、表述不清、单字成词、部分字词用法特殊、用字不规范、词典不完善这七大特征。2)研究了中文分词的主要算法、技术难点以及评价指标。分析了每种算法的优点和缺点。针对已有分词算法的不足和中医药症状数据的特征,设计了一种基于双向条件概率统计模型和相对位置的中医药症状分词算法。通过与互信息模型、二元文法模型、正向条件概率模型、双向条件概率模型比较,本论文的方法在准确率和召回率上分别较其他算法平均提高了 13.39%和17.88%。3)研究了汉语句子相似度计算的主要算法、技术难点以及评价指标。分析了每种算法在中医药环境下的优缺点。改进了已有的词语相似度计算方法。提出了中医药症状词语的分级概念,按照症状词语的重要性将其分为六个等级。综合词语相似度和词语重要性两个指标,改进了原来的基于语义向量的句子相似度计算方法。新方法较传统的方法在句子相似度打分的准确性上提高了 11%。4)为使中医药算法可以方便的被中医药领域的研究者使用,本文从中医药信息化角度出发,设计并实现了一个完整的、易用的、可扩展的中医药数据挖掘平台。该平台将所有算法看成一个算子,用户通过组合不同的算子来进行实验。