论文部分内容阅读
向量空间模型(VSM)是文本信息处理的经典模型,它把文本用向量表示,以特征项的权值作为分量,这个架构很大程度上提高了信息处理的性能。模型中广泛用到的计算特征项权值的公式是标准化的词频倒排文档频(TFIDF)公式。
研究发现,向量空间模型并不是一个完善的模型,其最大的缺陷是假设特征项之间是相互独立的。这使得用向量空间模型表示文本集时,很可能造成信息遗漏或冗余。此外TFIDF公式同样不够准确,它简单地认为特征项权值与包含该特征项的文档数成反比,而没有考虑特征项分布的比例情况。
本文使用中文信息处理工具从中文文本集中抽取词条,并通过知网系统把词条空间映射到概念空间。用概念代替词条作为特征项的方法间接达到了降维目的,并在很大程度上消除了向量空间模型特征项之间的相关性。
文本的一个主要研究内容是对TFIDF公式进行修正。基于分布比例高的特征项具有较高的贡献度和特征项在文本集中分布越离散则代表性越强这两方面的考虑,本文构造了一个平衡因子BF,并将其加权到TFIDF公式中,得到了修正后的公式M-TFIDF。简单数值例子和中文文本聚类实验都表明,M-TFIDF公式保留了TFIDF公式的优点并弥补了其缺陷,提高了向量空间模型对文本集的表示性能。