论文部分内容阅读
以向量空间模型作为Web文本的表示方法,结合Web文本的结构特征对向量空间模型中的特征选择算法进行了分析并加以改进。在改进的算法中,体现出了特征词在Web文档结构中的位置信息;引入了信息论中熵的概念,用词的熵函数对权值进行调整,从而更加准确地选取有效的特征词。实验验证了改进算法的可行性和有效性。