超高维两值数据的动态分类方法研究

来源 :东北师范大学 | 被引量 : 2次 | 上传用户：vierilv

【摘要】

：

随着科技的进步和大数据时代的到来,各种复杂多样的数据集不断涌现。这些数据往往呈现出海量、超高维、稀疏、时变结构等特点。统计学作为一项基本的数据分析工具,越来越多地

【作者】

：

官国宇

【出处】

：

东北师范大学

【发表日期】

：

2014年01期

【关键词】

：

贝叶斯信息准则超高维两值数据动态朴素贝叶斯汉语文本分类 L0正则化筛选相合性特征选择特征指示器

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着科技的进步和大数据时代的到来,各种复杂多样的数据集不断涌现。这些数据往往呈现出海量、超高维、稀疏、时变结构等特点。统计学作为一项基本的数据分析工具,越来越多地得到社会各界的关注,也迎来了新的挑战。文本分类问题就是大数据时代的产物之一,各种分类方法应运而生。如何从复杂的文本数据中获取有用的信息,并实现自动分类,是本文主要研究的问题。本文提出了一种新的汉语文本分类方法,即动态朴素贝叶斯模型。这是一种数据驱动的方法。汉语文本数据集来自于长春市市长公开电话项目,其目的是将百姓的电话投诉文档自动地分配给政府的各个职能部门,然后使投诉事件得到及时地处理。为此,收集了该数据集中出现的大量汉语词汇。根据这些词在文档中是否出现,构造出了高维两值向量。由于这个数据集中出现的汉语词汇量是极其庞大的,这就导致了两值特征向量是超高维的。所以过去一直使用简单且高效的朴素贝叶斯方法对该数据集进行分类。然而,绝大多数词(或特征)是与类别无关的,不仅带来了大量的冗余计算,而且影响分类的精度。因此,特征选择问题就变得尤为重要.本文首先研究了超高维两值数据的特征选择问题,针对朴素贝叶斯模型,提出了一种基于Lo正则化的特征选择方法。该方法在模型选择的意义下是最优的。并从理论上和模拟数据分析分别验证了在超高维情况下该方法的特征选择相合性。然而,在实际问题中,特征是否与类别相关往往没有明确的界定,而是相关程度有强弱之分。在这种想法的驱动下,提出了一种特征加权的方法,使得分类精度得到进一步提高。研究经验表明,在每天的不同时间,投诉文档可能遵循不同的分类模式。不幸的是,标准的朴素贝叶斯方法并不能把这一重要信息考虑进来。为了解决这一问题,提出了动态朴素贝叶斯模型。这种新方法在每天的同一时间采用标准的朴素贝叶斯方法,而在不同时间允许按照不同的模式进行分类。这是通过让模型参数随时间平滑变化来实现的。本文应用非参数平滑技术(如核平滑方法)来估计参数,并提出了用BIC型模型选择准则来选择特征。此外,还给出了该方法的渐进性质,并通过模拟数据分析和实例分析证实了该方法的优越性能。尽管动态朴素贝叶斯方法是基于汉语文本数据集而提出的,但它还可应用于任何具有两值特征和时变结构的分类问题,也可以自然地推广到连续数据和其它离散数据。可以预见,该动态分类方法将具有广阔的应用前景。

其他文献

基于颈动脉粥样硬化易损斑块的影像学研究进展

随着现代生活水平的提高及现代生活方式的转变,高血压等心血管疾病越来越普遍,并逐渐年轻化,脑卒中的发生率也越来越高,而引起脑卒中最重要的原因就是颈动脉粥样硬化易损斑块

期刊

颈动脉粥样硬化影像学

交直流混合电力系统频率稳定性研究

回回产卜爹仇贱回——回日E回。”。回祖一回“。回干肉果幻中 N_。NH lP7-ewwe--一”＄ MN。W;- __._——————》砧叫]们羽制作:陈恬’＃陈川个美食 Back to yield

学位

交直流混联系统AGCBP神经网络

多巴酚丁胺治疗慢性肺心病肺动脉高压所致心力衰竭的效果及对心功能的影响

目的研究多巴酚丁胺治疗慢性肺心病肺动脉高压所致心力衰竭的效果及对心功能的影响。方法将本院接收的慢性肺心病肺动脉高压所致心力衰竭患者40例根据随机数字表法分为对照组

期刊