基于半监督学习的中文文档分类技术研究

来源 :中南大学 | 被引量 : 0次 | 上传用户：qidezhong

【摘要】

：

文本分类是指分析文本内容并按一定的策略把文本归入一个或多个合适的类别的应用技术。随着Internet的出现,大量的文字信息开始以计算机可读的形式存在,以传统的手工方式对这

【作者】

：

何尧

【机构】

：

中南大学

【出处】

：

中南大学

【发表日期】

：

2005年期

【关键词】

：

信息分类文本分类半监督学习聚类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

文本分类是指分析文本内容并按一定的策略把文本归入一个或多个合适的类别的应用技术。随着Internet的出现,大量的文字信息开始以计算机可读的形式存在,以传统的手工方式对这些信息进行组织整理既费时费力且效果不理想,文本分类由于利用机器来对文本进行分析整理,使用户从繁琐的文档处理工作中解放出来,并能极大地提高信息的利用率,而受到越来越多的重视,已广泛应用于文本处理和文本检索的各个领域,成为处理和组织大规模文本信息的关键技术,并推动了信息处理朝着自动化的方向发展。本文首先研究了文本分类的背景和发展现状,阐述其系统结构,对文本分类的几个关键技术:文本特征生成、特征选择与降维、权重的计算和文本分类技术的各个算法进行了分析和评价。然后鉴于高分类精度需要大规模已标记训练集而已标记文档缺乏,利用未标识文档进行学习的半监督学习算法已成为文本分类的研究重点这一情况,着重研究了半监督分类算法。对现有的各个算法进行了比较分析,发现当已标识文档很少时,比如每类少于10个已标识文档时,这些算法会错误地估计最初的数据分布而降低了其分类的正确性。对此提出了一个基于聚类的分类算法,对已标识文档和未标识文档一起聚类,通过聚类扩大已标识文档集,提高了分类器分类的准确性。最后本文设计了一个中文文本分类原型系统,为保证测试的准确性,采用了不同的数据源进行测试,并根据网页文档的特殊格式、特征词的频率、文档的长度以及特征词的长度四个因素对文本特征进行了加权处理,最后用SVM,TSVM,Co-training与本文提出的算法进行了有监督学习性能测试和半监督学习性能测试。通过以上测试表明,当有足够的已标识文档时,本算法与其它算法性能相当,但当已标识文档很少时,本算法优于现有的其它算法。

其他文献

基于数据集成中本体自动构建的研究

随着Internet的飞速发展,信息技术在各行各业的广泛应用,人们迫切需要将大量异构的数据集成为一个整体以进行分析处理。数据集成的目的正是用于解决数据源异构这一问题。

学位

本体本体构建数据集成知识挖掘概念相关度

基于.net技术的人力资源管理系统的设计和实现

企业步入信息化时代，企业的管理行为和管理模式如果不实行现代化、信息化，则企业很难在信息时代保持灵敏的嗅觉和高度的灵活性和高效性。企业管理信息化的最低要求是企业可以通

学位

人力资源管理系统加密技术存储过程互联网企业管理

雾霾天气下交通限速标志识别技术研究

大部分的交通事故都是因为驾驶员超速行驶而引起的,加之这几年我国雾霾天气的逐渐加剧,更是对驾驶员准确、及时地识别限速标志产生很大的影响。因此,雾霾天气下限速标志识别

学位

限速标志识别暗通道去雾HOG 特征SVM卷积神经网络

基于XML的WEB数据抽取与存储的研究

　　本文讨论了XML较其它半结构化模型的优势，以及现有的基于XML的Web数据抽取技术，考虑到HTML页面的特点，引入了采用基本项方式描述的页面树，给出了将HTML文档转换为XML文档的基

学位

XMLHTML数据抽取数据挖掘关系数据库

无线传感器网络目标穿越策略研究

随着微电子技术、传感技术、通信技术以及嵌入式技术等学科的发展,集信息传感、数据处理、GPS定位以及网络通信功能于一体的无线传感器网络由于自身的突出特性近年来已经被广

学位

无线传感器网络反监控策略Voronoi图动态启发算法

匿名通信系统攻击分类及模型改进研究

匿名通信的一个重要目的就是隐藏通信双方的身份或通信关系,从而实现对网络用户的个人通信隐私及对涉密通信的更好的保护。而匿名通信系统中所有的安全防御技术都是针对具体

学位

匿名通信攻击分类法公开密钥加密组群接收者匿名

基于DICOM协议的医学图像处理系统的研究与实现

近几十年来,医学影像设备在临床辅助诊断中的作用越来越突出,越来越多的医学影像设备产生了大量的医学图像数据。为此,各个医疗机构纷纷采用计算机归档、传输和处理医学影像

学位

PACSDICOM标准医学图像解析医学图像处理

基于J2EE技术的放贷管理系统设计与实现

随着Java、J2EE 技术的日渐成熟,我国金融行业在严格考查J2EE技术及其工具的可行性后,将其外围应用开发采用J2EE 技术实现。本文所依托的项目是交通银行上海总行的大集中项目

学位

CMIS放贷管理系统J2EEStruts工作流

小波分析技术在电容层析成像系统流型识别中的应用研究

过程层析成像(PT)技术是近年来飞速发展起来的一门新技术,该技术在解决多相流检测问题上有巨大的发展潜力和广阔的工业应用前景。电容层析成像(ECT)技术是基于电容敏感机理的

学位

电容层析成像小波分析流型识别模糊识别敏感场

基于Web服务的网上销售系统研究与开发

随着Internet技术的发展，电子商务迅速普及，应用日益广泛，成为当前信息领域的研究热点之一。目前大多数电子商务的应用在处理购买者、供应商的方式上各不相同，如何将这些应用以方

学位

电子商务Web服务SOAP技术UDDI技术XML技术安全认证网上销售系统

基于半监督学习的中文文档分类技术研究

与本文相关的学术论文