基于Bootstrapping的文本分类模型

来源 :中文信息学报 | 被引量 : 0次 | 上传用户：ewen2005

【摘要】

：

本文提出一种基于Bootstrapping的文本分类模型,该模型采用最大熵模型作为分类器,从少量的种子集出发,自动学习更多的文本作为新的种子样本,这样不断学习来提高最大熵分类器

【作者】

：

陈文亮朱慕华朱靖波姚天顺

【机构】

：

东北大学

【出处】

：

中文信息学报

【发表日期】

：

2005年2期

【关键词】

：

计算机应用中文信息处理文本分类最大熵模型权重因子 computer application Chinese information processin

【基金项目】

：

国家自然科学基金委员会-微软亚洲研究院联合资助项目，教育部科学技术基金，国家自然科学基金

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

本文提出一种基于Bootstrapping的文本分类模型,该模型采用最大熵模型作为分类器,从少量的种子集出发,自动学习更多的文本作为新的种子样本,这样不断学习来提高最大熵分类器的文本分类性能.文中提出一个权重因子来调整新的种子样本在分类器训练过程中的权重.实验结果表明,在相同的手工训练语料的条件下,与传统的文本分类模型相比这种基于Bootstrapping的文本分类模型具有明显优势,仅使用每类100篇种子训练集,分类结果的F1值为70.56%,比传统模型高出4.70%.该模型通过使用适当的权重因子可以更好

其他文献

试论石油企业重组改制后的关联交易

目前,石油企业正在按照党中央、国务院的统一部署,抓紧进行重组改制工作。重组改制后,石油企业将分成以油气开发、炼油化工及油气销售为主业的股份公司和以钻井勘探、辅助生

期刊

关联交易股份公司服务公司石油企业企业重组改制关联方交易关联方关系披露交易价格钻井勘探

基于邻接矩阵全文索引模型的文本压缩技术

基于不定长单词的压缩模型的压缩效率高于基于字符的压缩模型,但是它的最优符号集的寻找算法是NP完全问题,本文提出了一种基于贪心算法的计算最小汉字平均熵的方法,发现一个

期刊

计算机应用中文信息处理邻接矩阵文本压缩压缩模型基于不定长单词的Huffman编码computer applicationChinese infor

精心办刊稳中求进力求创新——马松平同志在第三届编委会三次会议上的发言(摘要)

1998年,编辑部认真执行办刊方针,坚持为企业、为读者和作者服务的宗旨,树立精品意识,从提高刊物整体质量入手,积极采取措施,努力改进工作,办刊质量有了进一步提高。全年共出

期刊

稳中求进办刊质量改进工作办刊宗旨天然气创新通讯员编辑部精品意识稿件

把握商机的六大秘诀

几乎人人都想赚大钱,但真正赚到大钱的人毕竟是少数。这是因为他们在无限商机的商海中,没有驾驭好赚钱的机会。那么把握商机的秘诀是什么呢? 以下几个方面的内容会告诉你答案

期刊

基本的生存条件无限商机消费者顾客社会机会潮流脉搏保护

基于词汇吸引与排斥模型的共现词提取

共现词提取在信息挖掘和自然语言处理中有着十分重要的地位.而传统的共现词提取方法仅仅局限在单一的一种统计量上,其结果十分不精确,需要人工再进行整理.本文提出了一种基于

期刊

计算机应用中文信息处理共现词词汇吸引与排斥模型共现距离computer application Chinese information proces

第六届汉语词汇语义学研讨会（CLSW6）

期刊

全球经济复苏为时尚早但长期乐观

过去30年是全球化大发展的年代，形成了统一的世界市场。国际金融危机爆发以后，其影响通过贸易、投资和金融的传导机制迅速传递到了世界的各个角落，世界所有主要国家和地区都受到

期刊

全球经济复苏国际金融危机乐观时尚世界市场贸易逆差发展中国家传导机制

2010非洲能源矿产研讨会在京开幕

日前，由中非工业合作发展论坛组委会主办，中非合作、网承办，中国国际贸易展览集团有限公司协办的“2010非洲能源矿产研讨会”在北京召开。此次研讨会以“贸易互惠，资源共享”为主

期刊

能源矿产非洲中非合作国际贸易中国企业开发和利用发展论坛工业合作

转换经营机制调整产业结构促进队伍结构的调整

一、明确思路,把转换经营机制和发展多种经营作为调整队伍结构的突破口川西南矿区是一个有40年历史的老矿区。进入"八五"以来,生产经营遇到了严重困难,勘探领域狭窄,后备资源

期刊

队伍结构转换经营机制调整产业结构多种经营企业老矿区川西南矿区分流人员钻井队提高效益生产经营

半结构化中文信息检索中查询结果相关度算法的研究

本文研究了对富含文本信息的XML数据进行基于关键字的查询时,查询结果与查询条件之间相关度的计算问题,分析了利用传统信息检索技术解决该问题时存在的一些不足,提出了一种基

期刊

计算机应用中文信息处理XML息检索相关度算法and a ranking function that consider both the frequen

基于Bootstrapping的文本分类模型

与本文相关的学术论文