基于云计算架构的大规模手写数据分析平台的研究及其应用

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:yiyucanqing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,云计算作为一种在科技产业中具备革命性意义的信息处理方式,已经渗透到我们生活和工作的各个领域当中。云计算通过抽象计算、网络和存储资源,将分散的计算资源整合为一个超大规模的集群,使得集群资源能统一调度,按需使用,并对外提供一个统一的接口,极大地简化用户的操作和干预并提高了资源的利用率。而运行在云计算平台上的服务还具备高可用性。随着智能手机的普及,手写汉字输入凭借其良好的人机交互优势和所见即所得的优点受到了广大用户的青睐,已经成为几种主流输入方式之一。与此同时,庞大的用户群体通过日常使用而累积下大量的手写汉字数据。而这些数据可能存在较严重的冗余问题,即不同的书写者的书写风格对于识别引擎而言存在一定程度的冗余,如何找出其中的书写风格是一个研究的热点。此外,识别引擎可能会把字体错分类,如何快速找出被错分类的样本也是目前存在的难题之一。本文将详细地描述在云计算平台上进行大规模手写数据分析的研究。因此,本文以HDFS云存储平台和Spark分布式计算平台为基础,以海量的手写数据为切入点,提出一种从大规模手写数据中快速找出不同手写风格和奇异样本的方法。主要工作和创新点包括以下几点:1.首次采用HDFS云存储平台和Spark大数据处理平台构建了一个可用于大规模手写数据快速处理分析的平台,解决了大规模手写数据存储和快速分析的问题,为手写汉字识别的发展提供了必要的技术基础。2.依据不同特征的聚类效果对同一个汉字的手写字体的相似程度进行可视化评估,比较不同特征对手写汉字风格的辨析程度,并以此提出了一种在大规模手写汉字样本中找出不同手写汉字风格的方法。3.依据不同特征的聚类效果对同一个汉字的手写字体的错别字辨析能力进行评估,并以此提出了一种在大规模手写汉字样本中进行快速数据清洗的方法。4.对Spark平台在手写汉字处理中的性能进行评估,以此给出在手写大数据的应用场景下Spark的参数设置建议。
其他文献
随着科学技术与互联网技术的高速发展,新媒体技术得到了广泛的传播与应用,网络电视节目百花齐放,传统广播电视节目遭遇到严重的发展挑战。面对新媒体的冲击,传统媒体在节目形
我国广播电视体系的四级建制制约着城市电视台的发展。城市电视要在同央视、省级卫视,甚至境外媒体的竞争中获取先机,就需要在现有的传播体系内打破地域性限制,通过资本引入
对于小说的阅读和理解来说,把握小说的文体特征非常重要,它是我们突破小说阅读疑难,决胜高考小说阅读的一大法宝。
<正>目的肿瘤快速生长时常伴有血供不足,因此其内部存在低氧区域。低氧状态下低氧诱导因子1α(hypoxia-inducible factor-1α,HIF-1α)表达升高,可促进血管生成、细胞存活、
会议
周跳的探测与修复是实现导航定位的必要条件.北斗信号具有三频特性,在构造周跳检验量时具有更大的优势.利用北斗三频载波数据对周跳探测与修复算法进行了详细研究.首先,详细
<正>庞巴迪宇航公司经过近些年多样化的经营发展,已在全球运输业占有重要的地位,是继波音和空客之后第三大民用飞机制造商。在公务机和支线机市场都处于领先位置,其民机产品
头孢地尼的合成用2—(2—氨基噻唑—4—基)—2—(Z)—(乙酰氧亚氨基)乙酰 N—羟基丁二酰亚胺酯于7—氨基—3—头抱烯—4—羟酸二苯甲酯盐酸进行缩合,优化反应条件后,总收率为
本文尝试从哲学性、社会性、艺术性的思维角度解读CCTV形象广告之相信品牌的力量《水墨篇》的设计思维。以广告的中心内涵"从无形到有形,从有界到无疆"的哲学性及其设计制作
1 病历摘要  孙某某,男,25岁,住院号376。患者因腰痛伴双下肢、颜面浮肿反复发作3个月于1997年12月11日收住入院。患者3个月前因感冒后渐感双下肢、眼睑浮肿,腰痛不适,到某医务
本文报道了利用低压金属有机气相外延(LP-MOCVD)工艺首先在二氧化硅衬底上生长硫化锌(ZnS)薄膜,然后,将硫化锌薄膜在氧气中于不同温度下进行热氧化,制备高质量的纳米氧化锌(Z