基于改进TFIDF的文本特征选择算法

来源 :2008年全国模式识别学术会议 | 被引量 : 0次 | 上传用户:zhaofaqiang0124
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在中文文本自动分类系统中,文档通常采用向量窄问模型(VSM)表示,所有文档属件构成一个高维度的属性空间,而在文本分类中高维度的特征空间是一个难以解决的问题。TFIDF是文档特征权值表示常用方法,该方法简单易行,但传统的TFIDF没有考虑特征词项在各个类之间分布的不均衡性,本文对TFIDF特征选择算法进行了深入的分析,并基于基尼指数原理提出了一种新的TFIDF特征选择算法,实验结果表明,改进后的算法可以有效地提高文本分类的精确度。
其他文献
结合小波变换、奇异值分解和核主成分分析的特点,提出一种人脸识别方法。首先,利用小波变换对人脸图像进行预处理,保留图像的低频段,有效地降低了罔像维数并去除冗余噪声。然
会议
本文研究了基于细胞DNA定量分析的宫颈癌筛查技术。对宫颈组织样本进行Feulgen染色,通过CCD摄像机采集细胞核的显微图像,综合应用区域和边界的方法实现细胞核的图像分割。计
步态识别足一种新的生物识别技术,它通过人行走的姿势来实现对人身份的鉴别。本文提出了一种新的基于标准差能量图的步态识别方法,首先将视频序列中分成若干个步态周期,然后
会议
为实现CT图像上肝脏区域自动分割,本文提出一种基于梯度向量流-蛇模型的方法。首先采用直方图均衡与各项异性扩散滤波的方法对图像进行预处理,之后采用基于区域分析的方法获
本文针对维吾尔文字的特点,提出了一种应用BP学习算法对维吾尔文字符识别。首先利用投影分离出连体段中的字符,再将预处理后的维吾尔文字符图像利用BP神经网络对子块图像进行
本文提出一种利用自动语音识别技术来有效检测第二语言学习者的错误音素发音系统。本文的方法通过预测语言学习者发音中可能导致错误发音的音素混淆规则来扩展标准发音词典,
会议
音频分类主要以一些主观或者客观的音频特征为基础,音频特征的选取要能够充分体现出音频在时域和频域中的重要分类特性。因此,音频特征的分析与提取也就成为音频分类问题的基
随着互联网上可用信息的日益增多,怎样快速而有效地获取有用信息成为人们研究的重要课题,信息自动分类就应运而生了。贝叶斯作为其中的一种分类方法,应用在很多领域。本文将
会议
处理指纹图像中存在的非线性形变是目前指纹匹配研究所面临的难题之一。在指纹采集过程中,由手指弹性及按压压力等闪素所引入的非线性形变给识别同一手指的多个不同样本带来
会议
针对现有变压器故障诊断方法在诊断性能、适用性及知识获取等方而存在的不足,利用人工免疫系统强大的识别、学习能力和粗集的属性客观约简,提出一种融合粗糙集理论的变压器故
会议