基于Bootstrapping的文本分类模型

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:ewen2005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文提出一种基于Bootstrapping的文本分类模型,该模型采用最大熵模型作为分类器,从少量的种子集出发,自动学习更多的文本作为新的种子样本,这样不断学习来提高最大熵分类器的文本分类性能.文中提出一个权重因子来调整新的种子样本在分类器训练过程中的权重.实验结果表明,在相同的手工训练语料的条件下,与传统的文本分类模型相比这种基于Bootstrapping的文本分类模型具有明显优势,仅使用每类100篇种子训练集,分类结果的F1值为70.56%,比传统模型高出4.70%.该模型通过使用适当的权重因子可以更好
其他文献
目前,石油企业正在按照党中央、国务院的统一部署,抓紧进行重组改制工作。重组改制后,石油企业将分成以油气开发、炼油化工及油气销售为主业的股份公司和以钻井勘探、辅助生
基于不定长单词的压缩模型的压缩效率高于基于字符的压缩模型,但是它的最优符号集的寻找算法是NP完全问题,本文提出了一种基于贪心算法的计算最小汉字平均熵的方法,发现一个
1998年,编辑部认真执行办刊方针,坚持为企业、为读者和作者服务的宗旨,树立精品意识,从提高刊物整体质量入手,积极采取措施,努力改进工作,办刊质量有了进一步提高。全年共出
几乎人人都想赚大钱,但真正赚到大钱的人毕竟是少数。这是因为他们在无限商机的商海中,没有驾驭好赚钱的机会。那么把握商机的秘诀是什么呢? 以下几个方面的内容会告诉你答案
共现词提取在信息挖掘和自然语言处理中有着十分重要的地位.而传统的共现词提取方法仅仅局限在单一的一种统计量上,其结果十分不精确,需要人工再进行整理.本文提出了一种基于
期刊
过去30年是全球化大发展的年代,形成了统一的世界市场。国际金融危机爆发以后,其影响通过贸易、投资和金融的传导机制迅速传递到了世界的各个角落,世界所有主要国家和地区都受到
日前,由中非工业合作发展论坛组委会主办,中非合作、网承办,中国国际贸易展览集团有限公司协办的“2010非洲能源矿产研讨会”在北京召开。此次研讨会以“贸易互惠,资源共享”为主
一、明确思路,把转换经营机制和发展多种经营作为调整队伍结构的突破口川西南矿区是一个有40年历史的老矿区。进入"八五"以来,生产经营遇到了严重困难,勘探领域狭窄,后备资源
本文研究了对富含文本信息的XML数据进行基于关键字的查询时,查询结果与查询条件之间相关度的计算问题,分析了利用传统信息检索技术解决该问题时存在的一些不足,提出了一种基