论文部分内容阅读
提出了用术语频率-逆文档频率(Term Frequency-Inverse Document Frequency,TF-IDF)相对熵作为证候量化的表示方法。TF-IDF思想来源于文本信息挖掘,是文本自动分类中一种重要的方法。TF-IDF算法也体现了中医证候的自动分类思想:一个症状在特定证候中出现的频率越高,说明它在区分该证候方面的能力(即TF)越强;一个症状在所有证候中出现的范围越广,说明它区分某证候的能力(即IDF)越低,并用具体实例进行了验证。