文本分类算法及其应用研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:lu_bright_zhang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Internet技术的迅速发展导致网站上的文档信息成指数级增长,因此如何自动处理这些海量文档信息成为目前重要的研究课题。信息分类是文档信息处理中的一个重要环节。信息分类主要是将从网上抽取到的文档信息自动有效地分成一定的类别,以便于信息的检索。本文主要研究文本信息分类和超文本信息分类的相关算法。 本文首先介绍了信息分类的发展概况和相关技术,对常用的分类算法性能进行分析和评价,为文本分类和超文本分类算法的研究提供理论基础。 对于文本分类,本文着重于研究半监督的分类算法。针对高分类精度需要大规模已标记训练集而已标记文档资源缺乏的问题,本文从两方面着手,做了一定的研究和改进工作。一是从扩大分类器训练集方面考虑,本文在分析传统的SVM算法和EM_NB算法及模型的特性的基础上,提出一种EM_SVM分类算法。实验结果表明,在相同的已标识数据集规模下,结合未标识数据的EM_SVM分类算法较传统SVM算法具有更好性能;在小规模数据集训练下,EM_SVM分类算法的分类精度高于EM_NB分类算法。另一方面,从改进传统的分类算法训练分类器的方式入手,本文提出一种新的协同训练分类算法,利用TFIDF分类器协同NB分类器进行增量训练已标记和未标记文档。实验结果表明,协同训练算法具有分类精度较高和平均分类错误率较低的特点。 对于超文本分类,本文着重于研究超文本信息规则的协调和综合。针对超文本信息的多样化和灵活性,单独使用某种超文本信息规则不能较全面的综合超文本信息且分类稳定性不高的问题,本文在分析已有的超文本分类规则和算法的基础上,综合利用超文本的各种多元化信息规则,提出一种基于多元信息加权协调的超文本分类算法。实验结果表明,相较于单独利用某种超文本结构信息进行分类的方法,基于多元信息加权协调超文本算法具有更好的分类性能。
其他文献
采用全国各地的261个大豆品种为材料,研究豆乳和豆腐产量、品质及有关加工性状的遗传变异。结果表明豆乳和豆腐加工过程中每100g 干籽粒平均生产干豆乳71.92g,生产干豆腐51.8
“诗中有画”,是研究王维诗歌艺术所必然涉及的重要方面,也是唐诗艺术研究和中国传统诗学的重要课题。然而,近年来,对这一观点的质疑之声四起,理解上的分歧越来越大。今人研究王维
采用斜率比法,以七水硫酸锌为参照物,通过研究添加不同水平的Zn-AA对肉鸡生产性能、组织锌残留量和免疫功能的影响,评定Zn-AA的相对生物学效价,确定Zn-AA适宜的添加量。试验采用2
金融是现代经济的核心,商业银行作为各国金融体系的主体,其经营状况的好坏对整个国家金融业的稳定发展具有举足轻重的作用。随着金融全球化、自由化的迅猛发展,特别是中国加入WT
新疆野核桃是我国珍稀的重要野生植物资源。在亚洲,成片分布仅在伊犁州巩留县野核桃沟自然保护区。为了更好地保护该珍贵资源,本研究对新疆巩留野核桃树的30cm处地径、树高、
<正>现在,我国的天气尤其是在北方,不但寒冷且空气干燥,很多人感到皮肤瘙痒,特别是晚上睡觉前刚刚脱下衣服时,从胳膊到腿都痒得厉害。
长期以来,如何提高小学低年级识字写字教学的效率一直是广大小学语文教师关注的重点。虽然小学低年级的学生能基本掌握识字写字的方法,并拥有一定的词汇量。但是这并不能满足
民营企业技术创新管理是民营企业管理的重要内容之一。民营企业若想在激烈的市场竞争中立于不败之地,技术创新是它所面临的最艰巨同时也是最重要的任务之一。本文以民营企业
面对入世后外资银行的进入和金融深化的双重挑战,我国银行业的未来竞争将是一项极具综合性、挑战性的系统工程。如何建立一种竞争战略架构,指导银行培育竞争力的活动,使其不断开
目的:探讨慢性肾病(chronic kidney disease,CKD)与冠心病(coronary atherosclerotic heart disease,CHD)常用阿司匹林与氯吡格雷抗血小板作用的关系,为临床用药提供参考。方