【摘 要】
:
随着互联网技术的不断发展,信息传播的速度和广度都在快速的增加。同时,数据的规模也越来越大,而由于收集成本的高昂,样本数目远远小于数据的维度。特别地,作为传播信息的重
论文部分内容阅读
随着互联网技术的不断发展,信息传播的速度和广度都在快速的增加。同时,数据的规模也越来越大,而由于收集成本的高昂,样本数目远远小于数据的维度。特别地,作为传播信息的重要载体,越来越多的文本形式的信息需要处理。因此,维度非常大而样本数目比较少的文本数据处理成为目前非常热门的研究领域。稀疏化方法作为机器学习中的一个重要方法,具有处理高维小样本数据的特点,同时对于学习的结果还有较好的可解释性。因此,被广泛的成功应用在各个领域中。本文针对稀疏化模型在文本数据上的应用展开研究,主要做了以下两项工作:1.稀疏化模型在中文文本分类中的应用。针对基于中文分词的文本预处理方法有可能会丢失一些对分类有价值的信息,本文提出了一种结合基于字的N-gram文本预处理方法和L1-正则化逻辑回归模型的文本分类框架。通过使用基于字的N-gram方法,不仅可以使得预处理过程变得更加简单,还可以保留尽可能多的有价值的信息。为了所带来的大量的冗余信息问题,本文采用L1-正则化逻辑回归模型。对于N-gram带来的稀疏性问题,L1-正则化逻辑回归模型可以有效的选择出真正对分类有价值的特征。同时,对于特征空间很大导致的优化困难问题也可以有效的解决。文本分类语料库上的实验验证了本文工作的有效性。2.稀疏化模型在文本情感分类中的应用。针对基于向量空间模型的情感分类方法会丢失大量的潜在语义信息问题,本文提出了基于文本图结构表示和图稀疏化模型的情感分类方法。首先使用两种图结构表示方法来表示文本的不同语义信息。然后,针对大量的含有语义信息的结构图表示方法,使用图稀疏化模型来从中选择出有用的结构信息。通过在文本情感分类语料库上的实验验证了本文提出的文本情感分类方法的有效性。
其他文献
地域分析技术是作战指挥辅助决策的关键技术之一.该文详细介绍了基于多维战场环境条件下的地域分析智能空间决策支持系统的设计方法、系统结构、主要算法和实现.系统以军事地
随着卫星通信技术的发展,作为卫星通信链路重要的地球站设备也越来越复杂.因此实现地球站尤其是测控站设备的计算机监控就显得致为重要.该文以北京国际海事卫星测控站三期工
该文首先介绍了分布式数据库课题的开发背景、技术发展现状和展望,并介绍了一些关键技术.然后提出了某军事作战指挥系统分布式数据库系统的体系结构设计,深入研究了基于C/S模
九十年代以前,机器翻译的方法可以分为:直译型、转换型和基于中间语言型。进入九十年代以来,机器翻译领域出现了许多新的翻译方法和翻译模型,其中,主要有基于统计的机译系统和基
该篇论文主要对野战辅助决策模糊专家系统技术进行研究.主要阐述了基于现有的一个多领域通用的综合性模糊专家系统的改进工作,使之更加丰富和完善,更好的为军事作战指挥系统
摘要:在数据库中发现知识(KDD)是当今国际人工智能和数据库研究的新兴领域,对于时间序列数据的挖掘是其中重要的研究课题之一。本文分析了知识发现与数据挖掘的基本理论与时序
该文研究和探讨了EQS数据分析软件的设计与实现,为软件其他模块的开发人员进行开发奠定了基础.该文首先研究和探讨了当前流行的统计软件的现状,简单介绍了SAS,SPSS统计软件.
程序切片是一种程序分析和程序理解技术,它通过寻找程序内部的相关性来分解程序,再通过对分解所得程序切片的分析达到对整个程序的理解.程序切片为开发人员进行软件理解、逆
随着宽带技术的飞速发展,宽带接入的问题逐渐成为众人关注的焦点.特别是随着以太网技术逐渐成为主流技术,在以太网中如何对用户进行认证、如何对用户进行管理和记帐等等,成为
交联质谱技术为研究蛋白质间的相互作用与蛋白质的三维结构提供了新的技术手段。交联质谱技术的主要研究对象是交联二肽,其交联位点与交联剂臂长为相互作用关系的建模与三维结