并行化的半监督朴素贝叶斯分类算法

来源 :第29届中国数据库学术会议 | 被引量 : 0次 | 上传用户:whuagnqn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  针对当前需要对海量的文本数据进行分类和用于训练的带标记的文本数据非常匮乏这两个问题,结合半监督的朴素贝叶斯分类算法和Map-Reduce编程模型,提出了一种新型的并行化的半监督朴素贝叶斯分类(PSNB)算法。通过实验可以看出,PSNB算法不仅可以高效地处理海量的文本数据,还可以有效地利用无标记的文本数据来提高分类器准确率。
其他文献
  微博数据具有实时动态特性,人们通过分析微博数据可以检测现实生活中的事件。同时,微博数据的海量、短文本和丰富的社交关系等特性也为事件检测带来了新的挑战。综合考虑
会议
  提出了一种自适应三维美工树木骨架提取算法。该算法主要由前处理、骨架提取和后处理三个步骤组成。前处理阶段依次完成预计算操作,包括对具有几何相似性的子枝进行聚类,自
会议
  不确定数据流上的Skyline查询技术逐步引起研究者的关注,传统的集中式流处理算法难以满足海量数据的查询需求,并且云计算所提供的海量计算资源和有效的存储管理模式,为研究
我们在氯硝柳胺乙醇胺盐可湿性粉剂室内浸杀和现场喷杀的基础上,进行了室内喷杀和室外浸杀灭螺试验,结果如下。 1 方法 1.1 室内喷杀 取大小为28×18cm的瓷盘4个,盘底垫上草
边界条件设置不合理等原因导致现货市场预出清结果不能满足全部安全约束时,应采取必要的安全校正措施.文中提出了一种消除安全越限的发电计划校正方法.首先对非市场化机组实
丁亥年末,我们赴京拜访了刘少奇主席的长女刘爱琴女士。当我们出现在刘老家门前时,便受到她热情的接待:“难得你们从南京特地来看望我,请进!请进!谢谢你们!” At the end of
大名鼎鼎的莱昂内尔-巴斯特-克拉比曾经是英国的海军英雄,凭借过人的本领和胆识,他获得“第一蛙人”的美誉,此外也一度有传闻说,他就是超级间谍007的原型。然而令所有英国人
  由于概率维的存在,使得准确高效地处理不确定数据的Top-k查询成为一个急需解决的难题。提出了一种利用控制关系分析(DRA)的不确定数据Top-k查询算法。该算法通过分析元组
  高维数据集合的最近邻查询性能会受到“维数灾难”现象的影响。提出了一种基于联合聚类的HC2高维索引结构。首先通过联合聚类算法同时降低数据尺寸和维数,将高维数据集合
会议
集群划分是实现分布式能源网络优化调控的基础环节.文中提出含热电联产机组的分布式能源网络集群划分方法.首先,提出综合考虑结构性与功能性的集群划分指标体系:结构上采用计