论文部分内容阅读
该文所取得的主要成果和创造性工作如下:1.提出了基于二次熵的互信息QEMI特征选取的方法.特征选取是文本分类挖掘中的关键技术,是文本分类的基础.该文以广义信息论为理论基础,通过对特征和类别的关系进行分析,提出用基于二次熵的互信息为选词标准,独立评估特征集中的每个特征,然后对所有的特征按照其评估分值的大小进行排序,选取一定数量的最佳特征作为结果.实验表明,QEMI特征选取方法能够从高维的特征空间中选取出对于文本分类有效的特征,降低文本特征空间的维数,提高文本分类的性能.2.提出了基于简单贝叶斯的CLIF_NB文本分类学习方法.该文针对在简单贝叶斯分类方法中条件独立性假设常常与实际相违背的情况,利用条件互信息理论,计算特征属性之间的最大相关性概率,引入中间变量集组合替代线性不可分属性,改善条件独立性假设的限制,并学习一系列的分类器,缩小训练集中的分类错误,综合得出分类准确率较高的CLIF_NB分类器.实验表明,CLIF_NB分类方法在分类准确率上优于其它几种同类方法.3.提出了模糊划分聚类FPCM与简单贝叶斯增量学习相结合的文本分类方法,该方法用于实现无标记训练样本的Web文本分类.该文通过对传统的模糊聚类方法进行改进,提出模糊划分聚类方法FPCM,并结合简单贝叶斯增量学习方式进行分类器的学习,将聚类的无监督性和样本的先验知识结合起来,用估计分类误差损失的方法平衡选取候选样本,提高分类准确率,构造应用范围更加广泛的分类学习模型.实验表明,该方法能够从无类别标记样本中取得比较客观的簇和少量标记文本,结合简单贝叶斯增量学习分类,进一步提高了文本分类性能.4.设计并实现了一个Web中文文本自动分类系统,该系统从实际的应用需求出发,采用模块化的结构设计,使系统在应用范围和分类方法选取方面具有良好的灵活性,易于系统功能的扩充和性能的完善.