基于关键词的文本分类研究

被引量 : 0次 | 上传用户:gz200009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的高速发展,各种电子文档飞速增长,为了有效地管理和组织这些海量信息,文本分类技术应运而生。然而,传统的监督学习算法需要标记大量的训练样本来建立满意的分类器。一方面,标记大量的训练样本是一项代价昂贵且单调枯燥的过程;另一方面,人们容易获得大量的未标记样本。当前,克服标记瓶颈问题是文本分类中的热点研究领域。为了减少人工标记样本的代价,本文提出了通过关键词和未标记样本建立分类器的新方法。首先,借助知网对关键词进行语义扩展,从未标记文档中检索相关文档;其次,从检索到的文档中,采用关联规则算法去除不相关文档,标记部分正例样本;然后,借助已标记的部分正例样本,从未标记样本中抽取更多的正例样本;最后,基于抽取出的正例样本和未标记样本建立分类器。通过与标记部分正例样本的PU学习算法对比,实验证明该方法能够建立性能较好的分类器。鉴于维基百科丰富的知识,本文提出了通过关键词和维基百科知识建立分类器的新方法。首先,通过关键词从维基百科中找出与之相关的维基百科文档;其次,通过得到的维基百科文档从未标记样本中抽取相关的正例样本;最后,基于抽取出的正例样本和未标记样本构造分类器。通过与全标记训练样本的NB学习算法和仅标记正例样本的NB-SVM学习算法对比,实验证明这种方法构建的分类器性能与全标注的NB学习算法性能相当,好于仅标注部分正例的NB-SVM学习算法性能。在现实的文本分类应用中,人们常常面对无任何标记样本的情况。本文提出的两种基于关键词的文本分类新方法不需要人工标记训练样本,比较适用于现实的文本分类应用中。本文提出的方法能提高文本分类技术的易用和实用性。
其他文献
在低压直流溅射沉积的纳米Au薄膜表面喷涂有机固体晶体2,5-二苯基恶唑(DPO),制成具有(Au+DPO)单元结构的多层纳米薄膜。利用XRD表征多层纳米薄膜的晶体结构,通过SEM表征各层
目的分析比较预防性压疮护理和常规护理在老年重症患者中的临床护理效果。方法选取2018年1月~7月我院收治的老年重症患者80例作为研究对象,根据随机分组的方式将其分为观察组
分析了广东省目前的公路养护管理体制的现状,研究了现行公路养护管理体制下国省道、经营性收费公路管理中存在的主要问题以及公路养护管理体制与运营机制改革的关系,提出了广
建立微电子专业嵌入式系统学研产平台,对嵌入式系统教学方法改革和嵌入式系统考核方法进行研究,以市场为导向、以企业为依托,为微电子专业嵌入式系统学研产合作探讨新的教育模式
拉尔夫·埃里森(Ralph Ellison,1914—1994)是当代美国著名的黑人作家,他在一生中只写了一部长篇小说——《看不见的人》(Invisible Man,1952)。正是这本小说确立了他在美国
类风湿性关节炎(RA)是一种以关节周围对称性、多发性滑膜炎症为特征的慢性全身性、消耗性自身免疫性疾病,好发于青壮年及少儿,患病高峰年龄为30-50岁,女性发病率高于男性,为
本文对西方社会福利思想——吉登斯“第三条道路”福利思想进行系统的研究,力求在追踪该思想的过程中了解西方福利思想发展的历史和福利国家面临的困境以及改革,最后对于化解
本研究目的是运用经济社会学的组织新制度主义学派分析中国足球职业化的起源、演变和面临的突出问题,探讨可能的职业体育制度改革的动力和路径。方法论上"结构与行动"相结合,
随着我国改革开放的深入和社会主义现代化建设步伐的加快,企业的厂房和办公楼规模越来越大,居民区也变得日益庞大。传统的安全防范措施是采用建立高高的围墙,并辅以保安人员
目的:研究焦虑障碍患者的人格特征、行为类型以及失眠和焦虑间的关系,从病因学角度研究焦虑发生的因素;并且探讨焦虑障碍中医证候学特征,以指导临床对于焦虑易感人群的筛选、预