一种改进的朴素贝叶斯分类器在HBase压缩存储上的研究与应用

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:myoooo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,各行各业产生的数据都急剧增长,传统关系型数据的局限性开始暴露,很多NoSQL技术因此得到了蓬勃发展,其中HBase具有高扩展性、高可靠性和高性能等优点,在业界引起了很多关注。虽然很多互联网公司广泛应用HBase,但是它仍然有一些不足,例如,它所提供的压缩特性没有考虑列数据库按列存储的特点。因此研究快速返回查询数据、高效实用的压缩算法具有重要的意义。根据所存储数据的不同特征选取不同的压缩算法是一个分类问题,本文选取了结构简单、分类准确度较高的贝叶斯分类器。但由于算法具有基于条件独立性假设的不足,本文提出了朴素贝叶斯分类器的一种新的加权系数计算算法,该算法的加权系数是基于协方差的加权系数和信息熵的加权系数的平均值,改进后的算法不仅考虑了两两属性之间的影响,同时还考虑了单个属性对整个属性集的影响。Protocol Buffer的Base-128 Varints编码的优点是可以缩小序列化数据的体积,可以应用于存储数据。行程编码和字典编码适合在数据相似度较高的场景下使用,本文提出用Varints编码行程编码中元素出现的次数、编码整型索引的字典编码中的整型数字的改进方式,实验证明改进后的算法在一定场景下提高了压缩率。本文采用HBase作为分类器实验的数据库,选取了改进前后的行程编码、改进前后的字典编码、Gzip、Lz4和Snappy共七种算法作为HBase的压缩算法族。HBase在存储数据时,分类器先根据数据的特性计算出一种合适的算法,然后再进行压缩和存储,因此文章中研究了如何将分类器加入到HBase中。最后将新的特征加权贝叶斯分类器与朴素贝叶斯分类器进行实验对比,分别将其应用在分类HBase的算法族上,主要从分类选取算法的压缩率、压缩速度和解压速度三个方面进行测试。实验结果表明,改进后的贝叶斯分类器在压缩算法的分类选择上效果比朴素贝叶斯分类器好,并且压缩时间和查询时间的开销和朴素贝叶斯相差无几,因此改进后的算法具有可行性和应用性。
其他文献
随着2004年国家强力推行医药政策红利以来,医药行业发展势头迅猛,到了2014年至2018年国家药改又进一步深化和改革,打破医药企业现有市场局面,药改的推行切实保证了人民的利益
火炮调平系统的精度和稳定性,直接影响着火炮的射击精度和打击能力。本单位作为我军装备修理的基地级保障企业,肩负着火炮的大修任务。随着修理质量要求的不断提高,针对某型
<正>ICU作为术后危重症加强医疗病房,由于受感染控制等诸多条件的限制,多限制家属探视,往往会使患者及家属产生危机感,表现为:生活秩序混乱,忧郁不安,紧张、焦虑、恐惧等情绪
会议
员工持股制度自20世纪初出现以来,在很多国家都得到了普遍的应用。员工持股制度在解决企业人力资本的量化和激励、企业资金来源、建立新的劳资关系等方面起到了积极作用。本
以Acquity UPLC^TM BEHC C18柱作色谱柱,硝基苯为内标,乙腈-0.1%甲酸水溶液为流动相,检测波长254nm,采用超高效液相色谱(UPLC)法测定了10种烟用香精6批次样品、稀释品和掺兑品,而后采
随着云数据中心的迅速发展,以及运营商对高带宽的需求不断增加,接入网已经逐步从10Gbps升级为25Gbps,为服务器与交换机的连接提供了高密度、低成本和低功耗的解决方案。随着25Gbps以太网的普及,对于25Gbps以太网接口的研究和设计也势在必行。本课题对25Gbps高速以太网接口的媒体访问控制层(Media Access Control,MAC)和物理编码子层(Physical Coding
针对LIRA3250型CO2监测仪器存在的测量方法落后,结构复杂,稳定性差等问题进行了改进。即通过对技术性能进行比较,选用量程为0—3%的GMT221CO:浓度传感器/变送器作为CO2监测仪的测量
为进一步改进复烤烟梗的预处理工艺,提高梗丝加工质量,降低梗丝消耗,采用新型刮板式浸梗机进行了该设备最佳工艺参数范围的确定和浸梗与水洗梗+蒸梗及二次贮梗3种处理方法对梗丝
生活化教学将贴近学生生活的素材引入到数学教学之中,同时让学生尝试将学到的知识用于解决生活问题。在指导学生测量不规则物体体积时,教师可以采用这样的教学策略,让学生观
超细纤维合成革用低密度聚乙烯LF5000是中国石化上海石油化工股份有限公司(简称上海石化)开发的新产品,熔体流动性较高,与聚酰胺6(PA6)混合纺丝时,能利用其与PA6的黏度差,将PA6分割成