论文部分内容阅读
针对各种疾病的发展和转化过程路径的研究是临床路径研究中的一个重要课题。随着医疗信息化技术的不断发展,相关临床数据的不断积累使我们能够从临床数据中挖掘关于疾病发展路径的知识。从数据挖掘的角度来看,对疾病发展路径的挖掘本质上是一个时序模式挖掘问题。然而,传统的时序模式挖掘算法在临床数据的挖掘上仍然面临很多问题。以诊断数据为例,诊断记录中包含了上万种不同的疾病、症状,而其中大多数的疾病又有很低的发病率,导致整体数据的稀疏性,继而使传统时序模式挖掘算法产生的结果包含大量噪音,湮没真正有意义的模式。其次,不同的疾病,症状间具有复杂的关联关系,同类疾病可能关联多种完全不同的临床症状,需要从海量数据中找出和某类疾病相关的时序发展模式。本文提出了一种基于主题建模的时序模式挖掘方法,该方法以主题建模对序列数据集进行过滤和聚类,达到了去除噪音以及按主题组织海量时序模式的目的。我们将该方法应用于诊断数据中的疾病发展时序模式挖掘,该方法能够发现代表不同类型疾病的诊断主题,并找到相关的疾病发展模式,为临床路径研究提供帮助。