基于依存关系的文本特征降维研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:macguys
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的不断发展,网络上的信息越来越多。面对海量信息,人们往往很难选择。通过文本分类技术,人们能够有效地组织和管理文本信息,提高学习和工作效率。文本分类中一个重要的步骤就是特征降维。有效的特征降维,不仅可以提升分类算法的运行效率,还能提高分类的准确率。常见的特征降维方法,主要运用了统计的思想。这类方法筛选的特征项存在一定的噪声,而且特征维数较高,没有考虑特征词之间的语义关系。本文是从语义角度去研究特征降维,利用依存关系对句子进行句法分析,选出每个句子的重点词作为特征项,来实现特征降维。这种方法选出的特征词能更好的表示文本。本文首先对文本分类的国内外研究现状进行了介绍,分析了现有特征降维方法的缺点。随后对文本分类的基本概念和知识进行了归纳,阐述了文本分类的特点和应用;分析了文本分类的过程,包括文本预处理、权重计算、文本表示和分类算法。本文对特征降维进行了详细的研究,包括特征选择和特征抽取,并对常用的特征降维方法进行了分析。随后对特征项进行研究,着重对词共现进行分析,并对依存关系进行了研究,分析了依存关系词对的特点。依存关系词对作为特征项含有更多的语义信息,且特征项之间的独立性更强,能更好的表示文本,并在此基础上提出了基于依存关系的特征降维方法。为了验证其效果,将其同文档频率法,互信息法和信息增益法进行文本分类实验对比。实验证明,该方法具有一定可行性,但是还存在一些缺陷。接着对抽取的依存关系词对进行研究,将依存关系词对同传统方法的特征词进行对比。从词性和语义的角度进行分析,针对基于依存关系的降维方法存在的缺陷进行改进,提出了改进的基于依存关系的特征降维方法。改进后的方法既体现了特征项的语义信息,同时减小了特征稀疏性对文本分类影响。实验证明,改进方法的分类性能比改进前的效果好。
其他文献
随着社会发展和知识经济时代到来,供应链企业之间的竞争也日趋激烈,竞争的方式逐渐向企业知识管理的方向转移,知识管理是企业在竞争中的优势资源,也正在逐渐显现其价值。本文把基于供应链的企业知识管理作为研究对象,举例分析知识管理在国内外企业中的应用,并根据其存在的问题构建了链式知识管理体系,并提出相应的建议。本文分析了国内外供应链中的企业知识管理的研究现状,其次把相关的概念和理论作为基础支撑。然后针对基于
学位
语义相似度是中文信息处理的关键技术,在自动分类、自动聚类、机器翻译、信息检索、信息过滤等领域有着广泛的应用。传统的语义相似度算法难以表达丰富的语义信息,计算结果与人
档案馆是社会档案信息资源的存储中心,是提供利用档案信息资源的基地。随着政府信息公开工作的开展,由于档案与政府信息的密切联系,档案工作关乎政府信息公开工作的开展力度,
信息是促进社会发展的重要资源之一,信息资源的开放、共享和利用,能够推动社会各方面的发展。长久以来,政府掌握着社会绝大部分的信息资源,公开什么,公开多少的标尺也牢牢掌握在政
本文采用文献调查法、比较分析法、分类分析法、定量统计分析法等研究方法,深入、系统地探讨档案馆的档案信息公共服务体系构建问题。论文首先比较全面地分析了档案信息公共
“十三五”为全国进行经济建设提供的指向是科技创新,也是应对创新全球化趋势的新国策。科技创新的主体是企业,即企业中从事于知识创新的研究中心。激烈的行业竞争促使了企业通
在这个市场竞争日趋激烈的时代,企业要想具备足够的竞争力,必须依靠强大的信息支持。随着计算机网络技术的广泛使用,企业各部门每天要应对大量的数据信息。商业智能正是数据仓库
“一带一路”倡议是深化当前国际合作的重要举措,本文研究不仅丰富档案理论基础,同时补充“一带一路”合作理论。在今后档案国际合作中有一定的指导意义,并对服务“一带一路”项目支持和传播中国文化具有积极影响,在一定程度上提升中国档案学的国际地位。本文首先基于丝绸之路历史,“一带一路”倡议、人类命运共同体和档案国际理事会提出档案国际合作。其次,分析“一带一路”建设对档案国际合作在提供证据,分享中国经验,弘扬
学位
随着构建和谐社会进程的加快,弱势群体成了我国政府重点关注的对象,保障弱势群体利益,是构建和谐社会本质的体现。针对目前弱势群体文化生活贫乏的现状,公共图书馆有责任和义务为
随着素质教育的深入实施,使得人们对学生综合素质的培养更加的关注,这在一定程度上提高了音乐学科的地位.但是,在小学音乐教学中,一些教师的教学还存在着一定的问题,这不利于