基于半监督学习的中文文档分类技术研究

来源 :中南大学 | 被引量 : 0次 | 上传用户:qidezhong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类是指分析文本内容并按一定的策略把文本归入一个或多个合适的类别的应用技术。随着Internet的出现,大量的文字信息开始以计算机可读的形式存在,以传统的手工方式对这些信息进行组织整理既费时费力且效果不理想,文本分类由于利用机器来对文本进行分析整理,使用户从繁琐的文档处理工作中解放出来,并能极大地提高信息的利用率,而受到越来越多的重视,已广泛应用于文本处理和文本检索的各个领域,成为处理和组织大规模文本信息的关键技术,并推动了信息处理朝着自动化的方向发展。 本文首先研究了文本分类的背景和发展现状,阐述其系统结构,对文本分类的几个关键技术:文本特征生成、特征选择与降维、权重的计算和文本分类技术的各个算法进行了分析和评价。 然后鉴于高分类精度需要大规模已标记训练集而已标记文档缺乏,利用未标识文档进行学习的半监督学习算法已成为文本分类的研究重点这一情况,着重研究了半监督分类算法。对现有的各个算法进行了比较分析,发现当已标识文档很少时,比如每类少于10个已标识文档时,这些算法会错误地估计最初的数据分布而降低了其分类的正确性。对此提出了一个基于聚类的分类算法,对已标识文档和未标识文档一起聚类,通过聚类扩大已标识文档集,提高了分类器分类的准确性。 最后本文设计了一个中文文本分类原型系统,为保证测试的准确性,采用了不同的数据源进行测试,并根据网页文档的特殊格式、特征词的频率、文档的长度以及特征词的长度四个因素对文本特征进行了加权处理,最后用SVM,TSVM,Co-training与本文提出的算法进行了有监督学习性能测试和半监督学习性能测试。通过以上测试表明,当有足够的已标识文档时,本算法与其它算法性能相当,但当已标识文档很少时,本算法优于现有的其它算法。
其他文献
随着Internet的飞速发展,信息技术在各行各业的广泛应用,人们迫切需要将大量异构的数据集成为一个整体以进行分析处理。数据集成的目的正是用于解决数据源异构这一问题。
企业步入信息化时代,企业的管理行为和管理模式如果不实行现代化、信息化,则企业很难在信息时代保持灵敏的嗅觉和高度的灵活性和高效性。企业管理信息化的最低要求是企业可以通
大部分的交通事故都是因为驾驶员超速行驶而引起的,加之这几年我国雾霾天气的逐渐加剧,更是对驾驶员准确、及时地识别限速标志产生很大的影响。因此,雾霾天气下限速标志识别
  本文讨论了XML较其它半结构化模型的优势,以及现有的基于XML的Web数据抽取技术,考虑到HTML页面的特点,引入了采用基本项方式描述的页面树,给出了将HTML文档转换为XML文档的基
随着微电子技术、传感技术、通信技术以及嵌入式技术等学科的发展,集信息传感、数据处理、GPS定位以及网络通信功能于一体的无线传感器网络由于自身的突出特性近年来已经被广
匿名通信的一个重要目的就是隐藏通信双方的身份或通信关系,从而实现对网络用户的个人通信隐私及对涉密通信的更好的保护。而匿名通信系统中所有的安全防御技术都是针对具体
近几十年来,医学影像设备在临床辅助诊断中的作用越来越突出,越来越多的医学影像设备产生了大量的医学图像数据。为此,各个医疗机构纷纷采用计算机归档、传输和处理医学影像
随着Java、J2EE 技术的日渐成熟,我国金融行业在严格考查J2EE技术及其工具的可行性后,将其外围应用开发采用J2EE 技术实现。本文所依托的项目是交通银行上海总行的大集中项目
过程层析成像(PT)技术是近年来飞速发展起来的一门新技术,该技术在解决多相流检测问题上有巨大的发展潜力和广阔的工业应用前景。电容层析成像(ECT)技术是基于电容敏感机理的
随着Internet技术的发展,电子商务迅速普及,应用日益广泛,成为当前信息领域的研究热点之一。目前大多数电子商务的应用在处理购买者、供应商的方式上各不相同,如何将这些应用以方