论文部分内容阅读
根据汉语语言自身的特点,在基于原有的特征项提取方法基础之上,提出了基于文本集密度的特征词选择的思想,对于特征项个数和选择进行了界定,找出了不损失文本有效信息的最小特征词语集,并且利用其中的中间值作为词语权重计算的一部分,创造出更为合理的权重计算方案.最后利用一种新的衡量权重好坏的标准--元打分法,对文中所提出的方法的正确性和有效性进行了实验和证明.