论文部分内容阅读
互联网带来了信息的急剧膨胀,促成了诸多新型应用需求,如垃圾邮件过滤,垂直搜索引擎,数字图书馆等,这些系统迫切要求对文本进行自动分类。中文文本的自动分类也一直是该领域中的重要研究内容。
中文文本的分类涉及中文分词,文本的特征表示,分类模型的建立和分类的实现等多个方面的研究,本文对这些方面使用的技术和方法进行了回顾和研究,使用特征选择方面较为优秀的卡方检验和分类算法中较为主流的支持向量机(SVM,Support VectorMachine)模型构建了一个初步实用的文本分类系统。
通过对两个较为常用的中文语料库的实验观察,总结了中文文本特征的分布规律,并提出了符合该规律的特征选择方法——基于有效信息比的特征选择方法,以实验数据证明该方法能够有效改善类别间分类的均衡性,提高总体分类效果。结合语言信息的层次性特点,提出了使用上下文词对作为新特征,对传统词汇特征加以补充的建议,同样以实验证明了其有效性。