基于机器学习的高性能中文文本分类研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:myjoys
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类是信息处理领域中的一个重要的研究方向。随着信息技术的发展,特别是20世纪90年代基于机器学习的文本分类方法的逐渐成熟,文本分类技术在自然语言处理与理解、信息组织与管理、内容信息过滤等领域中有着广泛的应用。由于这些领域对文本分类技术的不断需求,极大地推动了文本分类技术的深入研究,使文本分类技术成为计算机技术的热点研究课题。在基于机器学习的文本分类研究中,按照分类学习方式的不同,可分为有监督分类、半监督分类和无监督分类三种。有监督分类通常简称为文本分类(text categorization,简称TC),它的主要任务是在预先给定的类别标记(label)集合下,根据文本内容判定它的类别;无监督分类称为文本聚类(clustering),文本聚类是按照某种准则对文本集合进行组织或划分,使得相似的文本划分到同一簇中,差异较大的文本划分到不同簇中;半监督学习介于有监督分类与无监督分类之间,它主要关注的是当训练样本不足或者数据的部分信息缺失的情况下,如何获得具有良好泛化能力的学习机器,对文本类别进行正确区分。无论是哪种分类算法,对于高维文本来说,特征提取和特征选择作为降维的重要方法,是降低计算复杂性、提高分类器性能的重要手段。它们与上述的分类算法一样,面临着海量数据、非结构化、维数灾难与数据集偏斜等方面的挑战。本文主要研究中文文本分类,重点就文本的特征提取、特征选择、分类和聚类四个方面进行深入研究。本文首先提出了基于句子成分的文本特征提取算法、均衡特征选择算法和特征选择维数下限;接着,提出了特征索引与特征补偿的KNN分类算法,同时将均衡特征选择应用于非线性半监督分类;最后,在Hartuv and Shamir工作的基础上,提出了加权图聚类算法——WGC算法。本文研究中主要的创新点包括:1、基于句子成分的文本特征提取。在文本特征提取中经常会出现一些跟主题无关的词条。本文根据不同的句子成分在表达主题中所起的作用不同,利用句法分析实现句子成分的标注,并由此提出了基于句子成分的文本特征提取算法。实验结果显示,该算法不但能有效地过滤一些跟主题无关的词条,而且避免了停用词表或词性过滤的局限性。2、均衡特征选择算法研究。针对目前关于数据分类的假设在实际中难以满足以及数据偏斜的问题,本文通过对文本分类目标函数的分析,提出了均衡的特征选择算法。通过理论的分析和公开文本集的实验表明,该算法能够有效地处理子类间的数据偏斜问题。此外,提出了特征选择函数在某一文本集中特征选择维数的下限的计算方法,以及在特征维数下限条件下的非平均维数的特征选择算法。3、高性能文本分类算法研究。为了减少未标记样本与无关向量集的比较从而有效地提高分类的速度,本文利用选择的特征集作为待标记文本分类的索引,提出了基于特征空间索引的最近邻分类算法。实验表明,该算法分类时间受维数增加的影响较小。为了提高分类的准确性,本文将未包含在特征空间中且具有区分类别能力的特征词作为分类的补偿特征集,提出了基于特征补偿的KNN算法。最后,在均衡特征选择的基础上结合鲁棒路径正则化,实现文本的非线性半监督分类。4、基于最小割集的加权图聚类算法。在Hartuv and Shamir工作的基础上,提出了图论聚类算法——WGC算法,该算法有低多项式复杂度,可证明的聚类性质以及在聚类过程中自动地确定聚类的类数等优点。
其他文献
一个颇有潜力的新兴市场,老板也同意大力支持,凭借公司在这个行业的经验和积累,李志强信心十足地开始了又一次的“创业”。然而在实践中,当初以为不在话下的事情现在全都成了问题
编者按埃及著名经济学家萨米尔·阿明(SamirAmin)以其“依附论”而知名。80年代以来,他继续致力于当代世界“中心”与“外围”关系问题的研究,并试图用“依附论”的观点回答世界经济的新问题
在全面预算管理过程中,由于预算的执行结果是激励的考核依据,所以某些个人或组织往往为了局部利益而牺牲整体利益。出现预算松弛和操纵结果的现象。为解决上述问题,笔者将对预算
本文所要阐述的是从农村进入城市后的东乡族人,在适应城市生活的过程中,逐渐形成了自己独特的聚落及其饮食文化.这种独特性表现在饮食习俗方面既继承了传统。同时又接受了城市文
文章按照风险界定、风险识别、风险评价的思路对现阶段民办高等学校办学风险进行定量分析。通过实地调研,准确识别民办高等学校办学过程中的政策风险、市场风险、管理风险、
摘 要:朱自清是一位十分有名的文学家,他创作的很多作品至今都具有十分重要的影响力。比如:《背影》,这篇文章主要出现在初中语文课本中,并且还影响到了一代又一代的青年人。作者从生活细节入手,表达出了一种无私父爱,每次品读都会产生巨大感慨。本文主要以《背影》这篇文章为例,并分享读后感。  关键词:朱自清;《背影》;分享读后感  古往今来,有很多的文学作品都是歌颂母亲,且很少有作家能够将如此深沉的父爱淋漓
[摘 要:高中班主任的心理健康教育对于学生的心理发展和德育工作的开展有重要的作用,所以班主任一定要运用合理的方式,才能高效地促进学生的心理健康发展和维护。本文主要是围绕学生心理健康教育展开论述,同时对于班主任的心理健康教育提出建议,促进班主任工作的开展。  关键词:班主任;心理健康;策略]  在高中阶段,学生的心理发展正处于自我和社会的矛盾对立中,学生的自我意识增强,但是家庭、学校、社会的反对往往
<正> 建立社会主义市场经济体制,发挥市场对优化资源配置的功能,首先要有健全的市场活动主体。在众多类型的市场主体中,最基本最重要的是与市场竞争机制相适应的企业。个体企
[摘 要:学科核心素养作为整体核心素养的一部分,是学生在接受相应学段的教育过程中,逐步形成的适应个人终身发展和社会发展需要的必备品格与关键能力。英语学科核心素养的内涵包括文化意识、思维品质以及语言能力和学习能力四个方面,在高中教育中,高中学生应当具有相应的核心素养。因此文章主要对基于学科核心素养开展高中英语课堂教学的方式进行了相应的探究,从而为培养学生的学科核心素养提供更多的帮助。  关键词:学科