论文部分内容阅读
目前大多数文本自动分类系统都采用向量空间模型(VSM)来表示文档.针对常规的VSM文档表示方法不能反映概念的问题,文章对VSM进行了改进.在VSM的基础上,选取在同一个窗口单元中出现的高频词,用Apriori算法从这些高频词中挖掘出最大频繁词共现集,以此对VSM进行扩展后用来表示文档.实验表明,与用VSM表示文档相比,该方法使文本自动分类系统的性能有了显著的提高.