【摘 要】
:
随着大数据技术深入发展,运用大数据技术提升政府、企业的现代化管理水平已经成为共识。本文以审计大数据平台建设为背景,对审计大数据平台的若干技术进行研究,以解决审计业务场景中的大文件上传、结构化数据存储和分析、大文本相似度计算的难题。本文的主要工作包括以下几个方面:针对审计电子文件归集需求,设计了满足高达TB级文件传输的HTTP大文件上传技术方案。该技术基于浏览器传输和文件分片技术,实现并优化了断点续
论文部分内容阅读
随着大数据技术深入发展,运用大数据技术提升政府、企业的现代化管理水平已经成为共识。本文以审计大数据平台建设为背景,对审计大数据平台的若干技术进行研究,以解决审计业务场景中的大文件上传、结构化数据存储和分析、大文本相似度计算的难题。本文的主要工作包括以下几个方面:针对审计电子文件归集需求,设计了满足高达TB级文件传输的HTTP大文件上传技术方案。该技术基于浏览器传输和文件分片技术,实现并优化了断点续传功能和大文件校验功能,支持多用户高并发上传。针对审计大数据集的储存和分析,对比了多种分布式存储和计算方案,HAWQ在多项性能指标优于Hive、Impala等分布式SQL计算引擎,选择使用HAWQ作为审计关系型数据存储计算方案。HAWQ支持内外部表存储和分析大数据集;标准化SQL和丰富的函数有利于迁移审计模型,同时降低审计业务人员使用大数据技术的学习成本;完善的权限管理有利于维护数据安全;支持机器学习对审计数据深度挖掘。针对复杂审计文本查重对比需求,设计了多维快速查重对比方案,该方案通过StandardTokenizer完成分词和词性标注,由TextRank算法提取关键词,主要包括检索词提取、检索逻辑设计和多维指标计算步骤构成。方案有效地解决了长文本、长短文本难以进行相似度评判技术难题,为文本相似度计算提供新思路。论文最后对系统进行了测试,验证相关技术方案的可行性。实验表明,设计的文件传输方案能满足大文件上传并且保证文件一致性;HAWQ具有快速稳定的结构化数据分析能力,可完成审计大数据集计算;设计的文本多维查重对比算法有较高准确度,可以满足复杂文本的查重和对比需求。相关技术在审计大数据平台的建设方面具有参考价值。
其他文献
我国高速公路干线网建设已基本结束,一方面,高速公路存量建设主要位于中西部地区,新增高速公路对已有路网的边际影响趋弱;另一方面,高速公路行业上市公司旗下优质路产的收费期限逐年缩短,新近收购路产多为联络线或加密线,通行费收入远低于核心路产。在此背景下,作为我国高速公路运营管理系统中最具活力的部分—高速公路上市公司普遍存在主业萎缩的问题,而作为我国高速公路上市企业中的佼佼者,Z公司旗下支柱路产剩余收费年
梦魇是睡眠障碍伴随症的一种。由于睡眠障碍对人们生活的影响越来越大,梦魇问题越来越受到了人们的关注。本研究从临床心理咨询与治疗的实践出发,旨在证明元认知干预技术对梦
丛藓科(Pottiaceae Hampe)是物种数量最多的藓类植物科,全科包含约83属,1500种。买氏藓亚科(Merceyoideae Broth.)有22属,548种及变种。本研究在文献考证及标本研究的基础上,
在初中道德与法治教学中,创设"参与体悟式"学习情境提升学生课堂参与度,能够激发学生自主探究的主动性,在合作交流和展示分享中培养辩证思维能力,进而增强情感体验,促进道德
目前,荧光显微成像技术在生物医学研究中获得了广泛应用。在以脑科学为代表的诸多研究领域中,荧光显微系统往往需要对活体生物组织进行深穿透成像。然而,生物组织的高散射性
随着碳纤维增强树脂基复合材料(Carbon Fiber Reinforced Polymer,CFRP)应用范围和规模的不断扩大,对于无损检测技术的需求变得越来越迫切。根据其弱导电特性和异质多相结构特点,采用涡流法对CFRP中的损伤进行检测具有良好的应用前景。当前涡流法对于CFRP的缺陷检测精度较低,成像比较模糊,难以满足实际工程应用的要求。线圈探头是涡流检测系统的核心部件,其结构参数直接决定了其
初中数学教学改革过程中,为实现数学核心素养教学目标,提高数学课程教学水平。教师在实际教学过程中进行转化思想的合理应用,基于初中数学实际教学情况,合理进行教学创新,渗
近年来,随着消费者对视觉体验的要求日益提升,光学自适应场景变换及显示技术已被应用于多种商业场合。光学自适应场景变换及显示技术是指:对场景前方的观察者,根据其位置控制
数学基本思想在小学数学课堂中进行教学,不仅是社会人才培养的需求、数学教育目标的要求,而且是学生学习数学的需要。因此,进行数学基本思想教学的相关研究是必要的。但从现有的研究成果看,虽然国内涌现大批数学教育工作者对数学基本思想从不同角度进行研究,且其关注的重点也侧重于课堂教学方面,但所提出的教学策略几乎停留在表面,对于教师在小学数学教学中渗透数学基本思想的现状以及存在的问题很少进行深入细致地调查。所以
地表温度(Land Surface Temperature,LST)反演是一个典型的“病态反演”问题,大气状况和地表发射率(Land Surface Emissivity,LSE)的难以确定给传统地表温度反演方法带来严峻挑战。深度学习具有模拟、求解复杂方程以及自我学习的能力,是反演地表温度的良好工具。由于深度学习需要大量高质量、有代表性的训练数据集,而现实中很难获得足够的样本,使其难以在遥感定量提