用AdaBooster算法实现中文文本分类问题

来源 :现代计算机:上下旬 | 被引量 : 0次 | 上传用户:jsdfyxl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类是文本挖掘的一个重要内容,在很多方面都有着广泛的应用。为了实现中文文本分类问题,先采用分词技术和特征词统计相关方法得到每类训练文档的特征向量中心(质心),通过比较测试文档到质心的距离来实现中文文档分类,然后采用Ada Booster算法通过不断调整每类训练文档的质心构建一个强分类器。实验表明:采用Ada Booster算法进行中文文本分类时,算法简单、分类速度快、正确率高、占用内存小而且可以根据训练文档的不同实时地调整迭代次数。
其他文献
中古汉文佛典是研究汉语词汇的重要语料,文章对这部分语料中若干词语的意义或用法作了解释,可用来补正《汉语大词典》等大型辞书的漏阙。
微博以其独特的网络交流与传播方式而成为一些企业开展营销活动的新平台。本文从社会学角度论述了企业微博营销的实质在于建立社会信任基础上的社会资本,并进一步分析了由微
我科于2002年1月-2003年12月用中药内服,外擦,配合0.1%维甲酸乳膏(重庆华邦制药有限公司生产)及2.5%氟脲嘧啶软膏治疗扁平疣66例,取得满意疗效.并与单纯中药组及西药组进行对
针对在用抽油机减带器普遍存在的渗漏油问题,提出了一种新型减速器轴头密封结构。这种密封结构是将机械密封运用到轴头密封上,尖轴承端盖内部安装由动静环、O形橡胶圈及弹簧等组
房地产业由于具有较强的前向、后向和旁侧关联度,已经成为我国产业链中重要的支柱产业之一。本文以Eviews6.0为平台,运用计量经济模型对泰安市GDP增长与房地产投资之间的关系进
随着我国犯罪学的发展,其研究渐次展示出一些不同于域外犯罪学研究的特质和趋向:在视域上具有明显的应对性、在话语上蕴含刑法倾向性,在运用犯罪理论上具有移植性,在分析问题上出
位于山东省中部的历史文化名城泰安市在改革开放三十年来,非政府组织(NGO)得到极大发展,并且呈现出发展快速、门类齐全等良性特点,同时,也存在着资金缺乏,办公场所不固定等问题。在
改革开放30年来农地改革的表面繁荣不过是权力和学者的自娱自乐,作为土地主人的农民的土地愿望长期“被表达”,农地改革成了被绑架的玩偶。农地改革绝不仅仅是一个学术问题,更是
综合考虑各种因素的影响,结合本校的实际情况,筛选出对高校教师教学质量影响较大的四类因素,与其它的评价指标体系相比,本文增加了教学改革这一因素,对教师在创新创业教育方面所作