基于多次过滤的TopN统计算法

来源 :清华大学学报(自然科学版) | 被引量 : 0次 | 上传用户:zcb999999999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了解决传统T opN统计算法性能远远落后于实际需求的矛盾,该文针对T opN统计特征进行研究,并提出一种基于多次过滤的T opN统计算法M F-T opN。该算法首先从原始数据集中随机采样,得到k×N个元素的采样集合,再从该采样集合中查找从大到小的第N个元素;利用此记录作为阈值,对原始数据集进行过滤,淘汰掉低于该阈值的元素;重复上述操作,直到剩余的数据元素个数小于k×N为止。最后对剩余的数据元素进行排序,输出前N个。理论分析和实验结果证明M F-T opN在时间性能上比传统的T opN算法(如基于堆的排序算法)提高了50%左右。
其他文献
系统远端代理设备是某信息系统实现雷达数据接入和短波通信组网的重要组成部分,笔者结合工程实际,介绍了一种基于COMe模块的系统远端代理设备硬件平台设计实现方法。
本文概述了Br的地球化学行为及其在钾盐矿床中的应用,重点论述了Br的分配系数和热力学模型的新发展。指出近年来用海相蒸发岩盐中的溴来评价显生宙海水组分变化行为,对于重新认
构建和谐社会为对大学生进行思想政治教育提供了良好的环境,同时也为加强和改进大学生的思想政治教育指明了方向。站在建设和谐社会的角度审视对大学生的思想政治教育,大学应对
文章认为李清照再婚的潜在原因在于她的个人情感、人格因素,赵明诚为官之恨,以及赵李感情的始密终疏。并论证李清照再婚的事实。 The article believes that the potential
由于历史、社会等多方面原因,地方高校行政管理本科教育仍存在专业意识浅显、师资力量薄弱、培养体系固化、理论与实践脱节等问题。为适应社会的发展,并快速回应社会对行政管理
解放思想的内涵和根本要求,就是要坚持实事求是的原则,其最直接的现实指向是把科学发展观贯彻落实到经济社会发展的全过程中去。在新的历史起点上继续解放思想,必须营造宽松
一、劳动力市场若干新特征1.沿海地区特别是珠江三角洲地区出现持续的民工荒企业缺工主要发生在珠三角、闽东南、浙东南等加工制造业聚集地区,重点地区估计缺工10%左右.珠三
自2006年7月1日至今青藏铁路全线通车已近10年,这条神奇的“天路”对西藏地区的经济、文化发展具有很大影响,被当地称之为“幸福线”、“团结线”、“生态线”。本文主要探讨
为了解英语师范生的自主学习能力和教学责任观的水平,以及二者之间的关系,选择某重点师范院校英语专业一至三年级的学生170名作为调查对象。调查结果表明,英语师范生的自主学