论文部分内容阅读
疾病预防在当代仍有重要意义。但是,一方面,现代中医预测方法仍以基于经验的人工预测为主,因此可信度和准确度都较低;另一方面,个体疾病预测问题具有高复杂度、小样本、多先验的特点,因此单纯的采用传统的机器学习模型也难以取得较高的准确度。所以,本文试图结合中医先验知识与机器学习预测方法对个体疾病预测问题进行建模。中医先验知识认为疾病发生的主要原因是个体内部状态对于外部状态变化的不适应,其中外部状态可以通过本地气象反映,内部状态可以通过个体经络反映。为了捕获气象的变化规律,本文着重于研究基于HMM的序列分类方法。现有的基于HMM的序列分类方法存在速度与精度上的不足。因此本文基于邻域相似则序列相似的猜想,提出了一种基于邻域信息HMM的序列分类方法。该方法首先将样本序列所定义的有约束HMM空间转换到无约束HMM空间,然后在标准HMM处提取邻域信息,最后将所有邻域信息导入到SVM中进行分类。在该方法的基础上,本文又提出了两种邻域信息及其提取算法,即导数邻域信息和频域邻域信息。特别的,对于导数邻域信息的提取,由于在离散HMM中存在相互约束的参数,求导往往采用近似方法,因此速度和精度都较差。为了解决该问题,本文提出了一种基于无约束HMM空间的求导方法。实验结果表明了与其他现有的序列分类方法相比,提出的基于邻域信息HMM的序列分类方法确实能较大的提高分类的速度和精度。同时,实验结果验证了邻域相似则序列相似猜想的正确性和基于该猜想设计出的两种邻域信息的有效性。除此之外,提出的序列分类方法也具有很好的可推广性和可集成性。以个体疾病的统计分析结果为指导思想,并以提出的邻域信息HMM为建模工具,本文设计了一套个体疾病预测模型。该模型以个体经络向量和历史气象序列作为输入,以个体疾病类号作为输出。实验结果表明了本文设计的个体疾病预测模型具有出色的预测性能。同时,实验结果也验证了中医先验知识所认为的疾病与经络、气象之间的相关性确实存在。