超高维两值数据的动态分类方法研究

来源 :东北师范大学 | 被引量 : 2次 | 上传用户:vierilv
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技的进步和大数据时代的到来,各种复杂多样的数据集不断涌现。这些数据往往呈现出海量、超高维、稀疏、时变结构等特点。统计学作为一项基本的数据分析工具,越来越多地得到社会各界的关注,也迎来了新的挑战。文本分类问题就是大数据时代的产物之一,各种分类方法应运而生。如何从复杂的文本数据中获取有用的信息,并实现自动分类,是本文主要研究的问题。本文提出了一种新的汉语文本分类方法,即动态朴素贝叶斯模型。这是一种数据驱动的方法。汉语文本数据集来自于长春市市长公开电话项目,其目的是将百姓的电话投诉文档自动地分配给政府的各个职能部门,然后使投诉事件得到及时地处理。为此,收集了该数据集中出现的大量汉语词汇。根据这些词在文档中是否出现,构造出了高维两值向量。由于这个数据集中出现的汉语词汇量是极其庞大的,这就导致了两值特征向量是超高维的。所以过去一直使用简单且高效的朴素贝叶斯方法对该数据集进行分类。然而,绝大多数词(或特征)是与类别无关的,不仅带来了大量的冗余计算,而且影响分类的精度。因此,特征选择问题就变得尤为重要.本文首先研究了超高维两值数据的特征选择问题,针对朴素贝叶斯模型,提出了一种基于Lo正则化的特征选择方法。该方法在模型选择的意义下是最优的。并从理论上和模拟数据分析分别验证了在超高维情况下该方法的特征选择相合性。然而,在实际问题中,特征是否与类别相关往往没有明确的界定,而是相关程度有强弱之分。在这种想法的驱动下,提出了一种特征加权的方法,使得分类精度得到进一步提高。研究经验表明,在每天的不同时间,投诉文档可能遵循不同的分类模式。不幸的是,标准的朴素贝叶斯方法并不能把这一重要信息考虑进来。为了解决这一问题,提出了动态朴素贝叶斯模型。这种新方法在每天的同一时间采用标准的朴素贝叶斯方法,而在不同时间允许按照不同的模式进行分类。这是通过让模型参数随时间平滑变化来实现的。本文应用非参数平滑技术(如核平滑方法)来估计参数,并提出了用BIC型模型选择准则来选择特征。此外,还给出了该方法的渐进性质,并通过模拟数据分析和实例分析证实了该方法的优越性能。尽管动态朴素贝叶斯方法是基于汉语文本数据集而提出的,但它还可应用于任何具有两值特征和时变结构的分类问题,也可以自然地推广到连续数据和其它离散数据。可以预见,该动态分类方法将具有广阔的应用前景。
其他文献
随着现代生活水平的提高及现代生活方式的转变,高血压等心血管疾病越来越普遍,并逐渐年轻化,脑卒中的发生率也越来越高,而引起脑卒中最重要的原因就是颈动脉粥样硬化易损斑块
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
目的研究多巴酚丁胺治疗慢性肺心病肺动脉高压所致心力衰竭的效果及对心功能的影响。方法将本院接收的慢性肺心病肺动脉高压所致心力衰竭患者40例根据随机数字表法分为对照组
文章把常见的宽带接入技术加以总结,并分析其优劣,以便正确选择最合适的接入方案。
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
为了全球性的海洋健康,任何国家都责无旁贷,都没有理由去袖手旁观。如果顺其自然泛滥下去,压舱水里的生物恶臭将会很快将你的国家熏得无所适从且损失惨重。
针对目前高速公路工程施工建设应用一次性摊铺技术过程存在的问题,以实际工程项目为例,分析了大厚度水泥稳定碎石半刚性基层一次性摊铺施工技术的应用要求,并提出了具体实践
目的构建泛醌-细胞色素C还原酶核心蛋白1(UQCRC1)重组腺病毒载体,探讨UQCRC1对H9c2心肌细胞缺氧/复氧损伤的保护作用。方法采用PCR法从cDNA文库钓取UQCRC1基因,经Sa1Ⅰ和XbaⅠ双
日本学者近日介绍说,他们研究发现此前在土耳其发掘出的公元前18世纪的“铁片”,实际上是经过冶金提炼后的钢。这一新发现将世界最古老的钢的历史提前了约500年。
<正>"孩子放学去哪儿?"这一问题困扰家长已久,自教育部2017年印发相关意见以来,全国各地均尝试开展中小学生校内课后服务,破解"三点半难题"。课后服务也随之成为家长、学校、