基于贝叶斯模型的文档分类及相关技术研究

被引量 : 0次 | 上传用户:lpucicy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的迅猛发展和电子文档信息的不断丰富,文档自动分类日益成为信息检索和自然语言处理领域的研究热点。基于贝叶斯模型的文档分类具有简单、直观、性能稳定的优点,但面对复杂的文档分类问题,仍然存在许多急待解决的问题。本文将针对贝叶斯文档分类的几个关键问题进行深入研究和探索,具体内容和创新成果概括如下:(1)对以朴素贝叶斯模型、半朴素贝叶斯模型、树形增强朴素贝叶斯模型为代表的广义朴素贝叶斯模型在网络结构、分类原理、学习方法等方面的异同进行理论分析,证明通过有效的贝叶斯结构改进,可以提高模型的文档分类性能。这为进一步提升贝叶斯模型提供了理论依据。(2)提出一种基于关联特征扩展的特征选择算法。特征选择对文档分类的性能影响很大,即便是同样的分类器在不同的特征集上的性能也会有很大的差异。论文通过对现有特征选择算法的分析,总结出现有特征选择算法的三个问题:特征空间不完备;特征集中信息冗余明显;特征选择的效率不高。针对这些问题,论文提出先利用关联特征对原始特征集进行扩展,再利用改进的相关性分析测度和启发式规则进行冗余检测和特征选择的方法。由于算法避免了对所有特征对之间的相关性分析,因此具有O ( NlogN)的算法时间复杂度,同时通过冗余分析和排除,增加了特征集的信息量。(3)提出一种贝叶斯潜在语义模型。与传统贝叶斯模型相比,该模型最大的特点在于不仅考虑了词条在文档中的统计特征,而且对每个词条在不同上下文中的语义进行了辨析。通过将概念特征引入到贝叶斯模型中,建立起传统特征与概念,概念与类别之间的映射关系,借助这种映射关系可以更好的利用词频和词义进行文档分类。对模型训练时面临的数据缺失和效率问题,论文采用了改进的EM算法和特征优化、概念选择等预处理,提高了潜在语义模型的分类精度和学习效率。(4)提出一种新的半监督语义分类模型。模型以语义支持向量机和贝叶斯潜在语义模型为基础,利用大量无标记样本和协同训练算法Co-models,对模型在少量标记样本集中的性能加以改进。与传统协同算法Co-training不同,算法Co-models不对文档集有任何依赖和限制,而是利用不同模型间的固有差异,反复对无标记样本进行分类和样本集扩充,并借此逐步提高协同模型对无标记样本的分类精度。通过在文档集Reuters-21578和20NG上的实验,证明该模型在少量标记样本集中同样可以取得较好的泛化性能。(5)提出一种语言独立的贝叶斯集成分类模型。现有文档分类模型一般只针对
其他文献
<正>学生素质综合评价是学校素质教育过程中的一个重要环节,它是以学生的发展状态与水平为评价对象的教育评价活动,是对学生素质的各个方面、各个过程进行多渠道认证的教育评
期刊
随着大跨空间钢结构建筑的迅速发展,人们在结构设计与建造等方面积累了丰富的可供借鉴的实例,另一方面现代结构工程学的发展使高效的应用这些实例中所蕴含的信息成为可能,而
从理论和实验两方面分析了现有各种确定型钢轧制宽展变形的方法。其结果表明,现有的各种宽展模型的预报精度不能满足需要。实用的高精度宽展模型必须分不同的孔型系统和轧机布
早在1998年初,不少国内著名网络公司的老总放出话说“要等着在美国上市”。因此,1999年被人们称为“盼望和努力在美国上市”的一年。正当人们还在议论“中国网络公司能否到美
考察了各种锌盐催化尿素和1,2-丙二醇(PG)合成碳酸丙烯酯(PC)的催化性能。几种催化剂中,氯化锌具有最佳的催化性能。以氯化锌为模板催化剂,考察了反应条件如:反应温度、反应
随着Internet在人们日常生活和企业办公中的广泛应用,原本支撑传统邮政的信函、电报、报刊发行等业务已经大大萎缩,如果仅依靠传统业务,必然无法在激烈的市场竞争中取胜。因
目的探讨研究鼻咽癌(nasopharyngeal carcinoma,NPC)患者血清EBV-DNA的表达以及其临床意义。方法选择该院收治的其中200例NPC患者作为观察对象,分别在治疗前、治疗后每3月以
目的研究不同自身免疫性甲状腺疾病(AITD)钠/碘同向转运体抗体(NISAb)与甲状腺球蛋白抗体(Tg Ab),甲状腺过氧化物酶抗体(TPOAb)含量之间的相关性,并观察甲亢患者药物治疗前后
随着数据中心能耗的持续增长,对机房空调系统和气流组织的要求越来越高。在众多数据中心高热密度解决方案中,冷通道封闭技术方案受到推崇。以自建机房为研究对象,介绍了一种