基于条件随机场模型的文本分类研究

被引量 : 0次 | 上传用户:liangzi_li1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着电子文本信息的与日俱增,如何有效地对该类信息进行组织和管理,是现代信息技术所面临的问题。文本分类作为其中的一种重要的技术手段,已逐渐成为信息研究领域的一个主要方向。而中文分词作为影响中文文本分类效果的一个重要因素,也是研究的热点问题。由于在句中,中文词语间没有天然的间隔,要抽取它们作为信息就须先进行分词。中文分词方法大致分为基于词典的分词方法与基于统计的分词方法两类。基于词典的分词方法具有相对较快的切分速率,但在分词过程中存在着切分歧义的问题;基于统计的方法具有较高的准确度,但切分速率较慢。通过对两者的分析,文中提出了一种结合条件随机场统计模型的词典分词方法。该方法利用条件随机场模型对可能产生歧义的位置进行标注,以此来处理歧义问题,提高分词效果。基于该方法的分词系统融合了两者的特点,既具有一定的速度,又具有较高准确度。文中介绍了该系统的实现与试验,在试验中发现不足并加以改进。对于文本分类,其定义为:将待测文本归入到预定义类别中的过程。通常的文本分类模型仅使用到特征词,而未考虑特征词组,从而损失了一部分有利于分类的信息。文中提出了一种基于条件随机场模型的文本分类方法。条件随机场作为一种无向图统计模型,可以较好地融入各种类型的文本信息来提高文本分类的效果。文中具体介绍了该分类模型的设计构建,以及系统的实现。试验中,在特征词信息的基础上加入了特征词组信息,从而使分类效果取得了一定程度的提升。
其他文献
立足陕西省富平县测土配方施肥2008-2013年工作实际,从推广现状、存在问题出发,提出建立健全测土配方施肥技术推广应用长效机制、建立企业与农技推广有机结合的服务模式等等,
《企业会计准则第9号-职工薪酬》规范了职工薪酬的确认、计量等,通过与旧准则比较发现新准则下职工薪酬的核算有许多新特点,如何较为准确、规范地进行新准则下职工薪酬的核算
<正> 谈到傣族诗歌的时候,首先引人注目的,是那以柔美、委婉见长的叙事长诗。在傣族文学中,有没有比较壮烈、崇高的英雄史诗呢?过去,研究者很少涉及这个问题。近几年来,随着
<正> 水泥散装运输是发展水泥生产,实行增产节约的一项重大的技术经济措施。推广使用散装水泥效益大,不但可提高劳动生产率,改善劳动条件,而且减少了包装环节,便于操作机械化
<正> 1988年5月,西安市建工局在院内施工时,发现一窖藏,出土瓷器、珐(王华)器及铜菩萨像等文物共22件。分别收藏于陕西省博物馆和西安市文物管理处。窖为口小底大的袋状坑,坑
<正>1实验材料动物:普通级(CL)SD大鼠71只,雌雄各半,体重(221.49±18.345)g,由南京中医药大学动物实验中心提供。药物及试剂:桃仁承气汤,参照《温病条辨》原方剂量,即大黄18g、芒
随着显卡的发展,GPU越来越强大。NVIDIA公司在2007年推出CUDA(Compute Unified Device Architecture),让显卡可以用于图像计算以外的目的。CUDA是一个新的基础架构,这个架构
<正> 当时,一提起漫画就数藤子老师了(尾田) ——这次,是出于尾田先生的恳切愿望,才能进行的重要谈话!——尾田:不敢当,我真的很高兴!我小的时候正是藤子不二雄风潮鼎盛的时
期刊
本文针对《全国普通高等学校体育课程指导纲要》提出的五项体育目标内容,采用文献资料法、专家访谈法、问卷调查法和逻辑归纳法对川南地区5所高校1000名在校大学生体育达标状
简要介绍了畜禽粪便无害化处理的关键技术,主要包括堆肥技术、生物有机肥的制作技术、饲料利用技术和沼气生产的技术与方法。