基于哈希技术和投票机制的样例选择研究

来源 :河北大学 | 被引量 : 0次 | 上传用户:yanshileia001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据的爆炸式增长,如何提高数据处理的效率已经对现有的机器学习算法提出了挑战,怎样存储并使用数据成为目前学术研究和工业应用等方面的热门问题。样例选择是解决此类问题的方法之一。样例选择是指从原始数据中,依据既定规则选出能够代表原始数据的样例,能够有效地减少后续工作的数据量,降低计算复杂度。针对大数据样例选择问题,本文的主要工作包括以下两部分:一、受随机型哈希方法和投票机制的启发,提出两种样例选择算法:(1)提出了多哈希表投票样例选择算法。设计多个随机哈希函数生成多个独立的哈希表,通过哈希函数将原始数据变换到欧式空间,相似的样例映射到相同的哈希桶中,利用投票方法从多个哈希桶中选择出得分高的样例,使得最终产生的样例子集更具代表性。(2)提出了基于局部敏感哈希和双重投票机制的大数据样例选择算法。提出的算法是一种迭代算法,每次迭代包括三步:1)将大数据集划分为多个子集并分配到多个计算节点上。2)在每个节点,通过多个哈希函数将本地样例变换到海明空间,得到多个哈希表。每个哈希表由不同的哈希桶构成,每一个哈希桶中的样例是相似的。从每个哈希表的每个哈希桶中随机选择一部分样例,得到多个样例子集。用多个子集进行投票,得到从本地子集选择的样例子集。3)合并在多个节点选择的子集,得到一次迭代的结果。算法迭代多次,得到多个子集,最后用多个子集再次进行投票,得到最终选择的样例子集。二、受学习型哈希方法和投票机制的启发,提出两种样例选择算法:(1)提出了基于k-means哈希学习的投票样例选择算法,通过多次k-means学习形成多个哈希表,利用k-means学习的编码将原始数据变换到海明空间,不同类型的数据放入不同的哈希桶中,利用投票方法从多个哈希桶中选择出得票高的样例,从而得到能够代表原始数据的样例子集。(2)提出了基于随机森林哈希学习和双重投票机制的大数据样例选择算法,算法包括三步:第一步,将大数据集划分为若干个子集,并部署到不同的计算节点上;第二步,在各个计算节点,并行地用本地子集学习随机森林,构造多个哈希表,并投票选择样例;第三步,重复上述过程多次,得到选择的多个样例子集,再次投票得到最终选择的结果。在六个数据集上对提出的四个算法进行了实验,并与其他相关方法在测试精度、压缩比和运行时间三方面进行了实验比较,实验结果验证了提出算法的可行性和有效性。
其他文献
2013年中国国家主席习近平提出了“新丝绸之路经济带”与“21世纪海上丝绸之路”的构想,国务院在2015年授权发改委、外交部以及商务部联合发布相关文件,这些意见从顶层设计的高度论述了建设“一带一路”的创意、合作重点、框架理念及合作机制。“一带一路”倡议在国际国内的影响力不断扩大。本文从设施联通、政策沟通、资金融通、贸易畅通、民心相通五个角度出发详细阐述了“一带一路”倡议实施对中国对外直接投资的影响
学位
私有财产是《1844年经济学哲学手稿》中的核心内容之一。马克思的私有财产批判思想作为马克思主义哲学对现实世界批判的主要内容,是马克思批判资本主义制度和批判资本主义生产方式的前提和基础。随着社会经济的发展,私有财产对人类文明发展的影响也随之变化。在资本主义制度下,作为资本的私有财产逐渐成为人类文明进步的阻碍。由此,青年马克思对资本主义制度下的私有财产问题展开了深入研究。19世纪初,纵观欧洲经济发展状
学位
随着人们生活水平的不断升高,绿色环保已然成为时代主题。将绿色设计理念与现代环境艺术设计相结合,既可以构建舒适健康的生活环境,又可以达到保护生态自然的目的。本文就绿色设计理念在现代环境艺术中的应用进行探讨,旨在为现代环境艺术设计的创新发展做出努力。
期刊
昆虫与植物间的传粉关系对维持生态系统结构和功能的稳定至关重要。昆虫嗅觉对植物挥发物的精准识别是传粉关系建立的关键环节。昆虫嗅觉的复杂性和植物挥发物的多样性使得探究传粉关系中昆虫对植物挥发物的特异性识别充满挑战。作为强制性互惠共生体系,榕属植物仅依靠专性传粉小蜂为其授粉,且传粉小蜂的幼虫仅能在寄主榕属植物的隐头花序中发育成长。传粉小蜂主要通过嗅觉感知寄主植物隐头花序释放的化学物质进行寄主识别。因此,
学位
目的 对北京地区 60 岁以上老年人群血浆维生素 A,D 和 E 水平检测结果进行分析,了解性别、年龄和季节对维生素水平的影响。方法 回顾分析 2020 年 12 月~ 2021 年 11 月在北京航天总医院就诊的 2 043 例 60 岁以上老人的血浆维生素 A,D 和 E 水平 , 按照性别、年龄和季节进行分组分析。结果 2 043 例老年人群血浆维生素 A,D 和 E水平分别为 438.20
期刊
肺癌是全球最常见的恶性肿瘤,病发率和死亡率均位列恶性肿瘤榜首。在肺癌的诊断及治疗中,电子计算机断层扫描(Computed Tomography,CT)成像技术具有扫描速度快、图像分辨率高及对人体伤害低等优势,在临床中广泛应用。精确的肺肿瘤分割对于CT图像引导的肺癌诊断及治疗起着重要作用,但肺部CT图像数据量较大且部分肺肿瘤边界模糊,医生手工勾画肿瘤边界难度较大。开展肺肿瘤自动分割算法的研究对于提高
学位
连翘[Forsythia suspensa(Thunb.)Vahl]是重要的园林观赏植物和大宗药材。连翘虽然拥有较强耐寒冷、耐旱的能力,但幼苗却常受低温损害,长期的干旱胁迫也会影响其生长。为了获得抗逆性高的新品种,本研究以连翘种子为材料,以不同浓度的秋水仙素浸泡诱导获得连翘四倍体。以连翘二倍体和人工诱导的同源四倍体作为材料,探讨连翘全基因组加倍(WGD)后基因剂量平衡的机制以及剂量效应对表型、耐寒
学位
2021年4月7日,《中华人民共和国民办教育促进法实施条例》指出提高教师的职业责任感和工作满意度,不仅是国家教育可持续发展问题的重要要求,也是解决教师职业倦怠与工作满意度不高问题的现实需要,对提高教师对参与学校管理认可度与满意度具有积极的作用。本研究通过建立校长授权对教师职业责任感和工作满意度的影响模型,讨论校长授权对教师职业责任感和工作满意度的影响及作用机制,并在研究过程中加入教师工作重塑,探讨
学位
目的研究25-羟基维生素D[25(OH)D]在婴幼儿手足口病(HFMD)中的水平及临床意义。方法回顾性分析2016年5月-2017年10月住院的214例HFMD患者(观察组)的25(OH)D及相关实验室指标的检测结果,同时检测100例健康儿童(对照组)的这些指标并进行比较。结果手足口病患儿25(OH)D水平明显低于对照组,差异有统计学意义(t=-7.763,P<0.05)。25(OH)D缺乏组的L
期刊
“十四五”时期以来,我国已进入加快数字化发展、建设数字中国的新阶段,只有高度重视数字经济的发展,抓住这一发展机遇,才能充分发挥数据的基础资源作用和创新引擎作用。在数字经济时代,我国正由高速度发展转变为高质量发展,而提升全要素生产率是经济高质量发展的必要路径。然而,现阶段发展仍然存在缺乏核心技术、人才、资金等要素资源,难与传统产业融合发展等问题,给数字经济提升全要素生产率的这一发展路径提出了新的考验
学位