基于词和基本短语模式的特征提取方法

来源 :河北大学 | 被引量 : 0次 | 上传用户:caway1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Internet的发展带动了信息的迅速增加,如何从海量的信息中快速有效地找到有用的信息,已经成为亟待解决的问题。文本信息的自动分析可以有效地解决这一问题,而文本信息自动分析中的一个主要技术就是文本分类。文本分类技术可以使用户按照自己的要求搜索到有用的信息,不仅大大提高了文本信息的利用率,还具有广泛的研究价值和商业价值。文本分类主要包括四个部分:文本预处理、特征提取、特征权重计算和分类器分类。其中特征提取是文本分类的关键,而消除语义歧义和降低向量空间维数是特征提取的难点。传统的文本分类方法都以词作为文本的特征进行提取,而单个词语所能涵盖的文本特征含义十分有限。本文改进了特征项单一性的缺点,提出了一种基于词和基本短语模式的特征提取方法。本文采用了对分词后的词语进行词性标注,并且使用同义词词林处理同义词和多义词的方法。即有效地消除了语义歧义,还降低了空间向量维数。本文用KNN分类器和SVM分类器分别进行了实验。实验结果表明,分类的准确率和召回率都得到了提高。
其他文献
随着计算机网络的迅猛发展及Internet技术的广泛普及,网络成为现代社会生活的枢纽,网络安全尤为重要。在当前病毒和木马程序泛滥、各种网络攻击事件频繁发生的网络安全状况下
服务机器人作为一类新兴的机器人类型市场潜力巨大,与传统工业机器人相比服务机器人面临更多的挑战。服务机器人工作环境变化频繁,服务对象为缺少使用经验的普通消费者甚至可
内置式永磁同步电机由于具有高功率密度、高可靠性和高效率等特点而广受关注,但在弱磁控制运行过程中,由于电枢反应导致的参数变化使得转矩和速度波动加大。模糊控制有利于提高系统的稳定性且不依赖系统参数,本文将模糊控制引入到内置式永磁同步电机弱磁控制系统中,设计参数自整定模糊PI调节器,构建内置式永磁同步电机模糊PI弱磁新型算法,提高系统的稳态特性和抗干扰能力。通过分析内置式永磁同步电机结构特征建立了数学模
IPv6在全球已经得到大规模部署,中国的CNGI-Cernet2作为全球最大的纯IPv6教育科研网络,其驻地网校内网络IPv6升级子项目也开始了紧张的实施阶段。另一方面,由IPv4发展带来的
从医学图像重建人体解剖结构的多组织体模型,是现代计算机辅助医学应用领域一项基本且重要的工作。本文介绍了一种基于医学图像的多组织四面体模型重建新方法。它主要分为两
随着企业市场化改革的不断深化和竞争的日趋激烈,企业将面临着越来越严峻的挑战,为了适应市场竞争,企业必须拓宽思路,向管理和创新要效益。企业资产管理(Enterprise Asset Managem
近年来,随着网络技术的发展和数字地球平台概念的提出,空间数据获取技术也在不断进步,从而使空间信息向多源、多级和海量化的趋势发展。同时,空间信息应用的范围不断扩大,正
随着万维网的迅速发展,越来越多的组织、公司在万维网上发布已发现的软件安全缺陷信息。本文基于垂直搜索技术从网上获取软件安全缺陷信息,并进一步基于语义标注抽取该信息用
监狱、看守所作为一个国家重点安防防护单位,对于安防系统的要求非常严格。随着安防技术及其相关领域的发展,监狱各个相关部门根据自身的特点及业务需求逐渐形成了各种功能不
学位