基于大规模廉价计算平台的海量数据处理系统的研究

来源 :计算机应用研究 | 被引量 : 26次 | 上传用户:wmrik
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
提出一种基于大规模廉价计算平台的海量数据处理模型,吸取了Map/Reduce计算模式和大规模分布式数据存储机制Bigtable的基本思想,实现了以数据为中心的计算密集型的经济性超级计算系统平台。系统选择电信部门的大规模业务数据为分析对象,对电信通话和数据业务的大规模数据集进行处理,从而向运营商和普通用户提供有价值的数据分析服务。该平台适用于其他多种海量数据的分布式处理,为其他的各种应用提供了一个具有良好参考价值的示范。
其他文献
通过分析特征词与类别间的相关性,在原有卡方特征选择和信息增益特征选择的基础上提出了两个参数,使得选出的特征词集中分布在某一特定类,并且使特征词在这一类中出现的次数尽可能地多;最后集合CHI与IG两种算法得到一种集合特征选择方法(CCIF)。通过实验对比传统的卡方特征选择、信息增益和CCIF方法,CCIF方法使得算法的微平均查准率得到了明显的提高。
通过研究可见光视觉图像与红外图像序列的相关特性及融合处理中存在的问题,提出一种基于视觉图像预增强处理的曲波与小波双变换融合机制来有效保留边缘信息和图像细节信息。实验结果表明所提出的方法提高了融合图像的视觉感知质量,为遮挡和伪装目标的检测和定位提供了更为有效的空间环境,并且融合增强后的图像具有更高的信噪比和更少的人工痕迹,与当前最新的其他方法相比是一种具有更好融合质量和更高效率的图像/视频融合方法。
由于Wi-Fi环境的高动态性,当标定样本类稀少或者逐渐失去其原始价值时,将严重影响定位精度;若重新标定样本,又会带来大量人力物力投入,不利于实际应用。针对这一问题,提出了一种基于多终端动态协同的室内定位方法——OC-ELM。该方法利用环境中多个终端提供的Wi-Fi信息动态协同定位,并在每轮定位结束后及时更新样本库。实验结果表明此方法不仅能实现高精度定位,更重要的是避免了重复的标定工作,提高了实际应
针对正交频分复用(OFDM),宽带信号波达方向(DOA)估计问题,提出一种基于宽带信号协方差矩阵稀疏表示的DOA估计方法。该方法是在协方差矩阵主对角线下对左下角三角形元素按各条对角线取平均值后形成一个新的向量,然后将该向量写成冗余字典形式。在冗余字典下对信号进行稀疏性约束形成二阶锥约束优化问题,再用工具箱SeDuMi来实现DOA估计。理论分析和仿真结果表明,该方法在低信噪比和少快拍数下分辨率很高,
结合公交车辆调度自身的特点,兼顾公交公司与乘客双方的利益,建立了公交排班优化模型,以发车时刻为基因变量进行编码,对两个相邻的发车间隔之差、最大最小发车时间间隔、乘客的满载率等条件进行约束限制,提出了基于改进的遗传—模拟退火算法;对该模型进行优化求解,克服了传统优化算法的缺陷,提高了优化设计过程的求解效率。通过仿真实验得到了利用改进的遗传—模拟退火算法进行求解的不均匀发车时刻表。结果表明,改进的遗传
为了增强基于WAP网页的手机广告推荐中用户建模的准确性,并对"非邀"式广告推荐中脱离用户兴趣试探性推荐进行修正,针对手机广告推荐中手机屏幕小、用户注意力集中等特点,根据用户对广告的访问历史和操作模式建立其广告兴趣模型和非兴趣模型,同时分析用户网页访问模式探测其网页兴趣度,在此基础上建立用户综合兴趣模型。分别采用基于网页兴趣模型、基于广告兴趣模型和基于用户综合兴趣模型进行广告推荐,随着样本空间增大,
针对射线跟踪定位算法中在线阶段的大数据量匹配时计算误差较大及效率较低的问题,给出了一种改进的属性匹配算法。该算法用组合加权法对各个属性进行加权,匹配时按照所得属性权重系数由大到小的顺序,将在线阶段的数据与数据库中属性数据进行依次逼近匹配。实验证明,该算法从精度和计算效率两方面均得到了改进,有效地降低了匹配计算的复杂度,并得到了较高的定位精度。
针对目前计算机辅助工艺设计中基于实例的工艺相似性重用问题,提出一种基于本体映射的零件工艺实例重用方法。在分析零件工艺实例信息的基础上,建立了新零件工艺知识本体和零件库零件工艺实例本体。基于本体映射的方法,通过本体间相似度计算,完成新零件工艺实例的检索和重用,并以轴类零件来说明该方法的有效性。
针对确定有限自动机(DFA)的正则表达式匹配技术存在状态膨胀和一次状态转移只能处理单个字符的问题,提出了一种基于布鲁姆过滤器的正则表达式匹配算法。该算法将正则表达式中的每个确定字符串组成DFA的一个状态,添加比特向量完成匹配过程,并且在一次状态转移中根据确定字符串的匹配结果达到处理多个字符的目的。实验分析表明该算法有效降低了DFA状态的膨胀,提高了匹配速率。
针对生产瓶颈研究存在的滞后性问题,在信息模糊的情况下,提出一种基于AHP和区间数可能度分析相结合的方法,解决导致生产系统中产生瓶颈的诸多因素的排序问题,并阐明了该方法的具体流程,为达到基于瓶颈的事前控制生产管理方式创造了条件。通过建立该方法的模型,成功地对一组瓶颈因素进行排序,并应用系统仿真实验验证了该方法的有效性。