基于分布式架构的智能学术大数据存储与挖掘

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:sc666
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
科学研究是提高社会生产力和国家综合国力的战略支撑。在全世界范围内,每年在计算机科学、基础科学、医学、经济学和社会学等一系列学科领域都会产出数以百万计的知识文献,呈爆发式增长势头。同时伴随着因特网的快速发展与普及,使得知识文献的传播和共享变得非常容易,由此进入到学术大数据时代。面对如此广袤的学术信息资源,如何对其进行智能的存储与挖掘,是一项尤为重要的工作,主要涉及到数据库系统、分布式计算和机器学习三个计算机科学领域的综合应用。本课题以国内学术搜索系统AceMap(亦称PaperBook)作为研究对象,通过设计关系型数据表以存储学术实体及其逻辑关系,针对系统存在的性能瓶颈提出了两种SQL查询的优化方法(分别基于传统关系型数据库和分布式架构下的系统环境),最后探索了基于分布式架构的机器学习框架在AceMap系统中的应用。本学位论文的主要贡献包括:·应用Window Functions机制(Partitioning分区、Ordering排序、Framing分帧)对AceMap系统中存在的大量分析型SQL查询进行了优化。实验结果表明,该优化能够在一定程度上提高系统性能,最高能够减少18.6%的查询执行时间。·完成部分学术大数据到Hadoop分布式文件系统的同步迁移,应用SQL-on-Hadoop技术框架SparkSQL执行复杂查询。同时,结合数据规模和分布式集群的结构,对Spark集群的核心参数(Spark执行器相关)进行调优。实验结果表明,该优化能够大幅度提高系统性能,最高能够减少93.9%的查询执行时间。·应用分布式机器学习框架Spark MLlib对学术主题进行了挖掘,拓展并提高了AceMap系统知识发现的能力。
其他文献
协商民主是民主政治发展的新阶段和新范式。在中国共产党党内发展协商民主,必将对社会主义民主政治发展起到示范和引领作用。当前,我们必须全面总结在党内协商民主发展中遇到
目前,各类院校为了提高教学质量积极倡导教育改革,而教育信息化是促进教育改革最有效的途径,如何促进学科与信息技术的有效整合便成为一个热点问题;同时,由于外部环境因素以及学科自身因素的影响,中等职业院校的《机械基础》课程教学质量呈下降趋势。为了解决这一现状,将交互式数值仿真技术引入课程教学中,以提高中职学生的学习质量。首先,通过知网数据库、书籍、期刊等多种方式的搜集和查阅,阐述交互式数值仿真技术在课程
<正>2016年是"十三五"开局之年,数字出版产值再创新高,数字出版产值超过5700亿元;数字出版政策环境进一步趋好,政策引导力进一步加强;新闻出版业转型升级持续深化,融合发展初
中国商业银行长期实行的是地区事业部制的组织结构。尽管该组织模式与中国现有的政府体制和经济体制相衔接,但也存在诸多弊端。近年来,国内许多商业银行开始进行业务条线事业
进入21世纪,随着计算机网络技术等科学技术日新月异的发生变化,测绘遥感在实时、全天候的环境监测、地质勘探、灾害监测和地形勘探等测绘工作中发挥了巨大作用。但是随着测绘
这里是电视剧《绝地逢生》的人物原型所在地和影片主拍摄地。这里是采取生物措施恢复生态,产生较好的经济效益、生态效益和社会效益的成功典范。从房前屋后到漫山遍野,贞丰花
自从上世纪60年代Anfinsen和他的合作者根据核糖核酸酶可逆伸展与重折叠的研究提出蛋白质折叠过程在热力学稳定方面获得的增益是控制蛋白质在体外正确折叠的驱动力以来,关于
国家官方统计和众多学者研究结果都表明我国的隐性经济问题较为严重。隐性经济的隐蔽性较强,通常不易测算到,但国内外的专家学者还是通过直接法和间接法测算对隐性经济规模进
商品过度包装产生的重要原因之一是企业商品包装伦理缺失。加强企业经营伦理建设,构建具有中国特色的企业商品包装伦理,是遏制目前商品过度包装现象蔓延的治本之策,这一过程
近年来,我国食品安全问题频发,食品安全已经成为社会广泛关注的公共安全问题。大学生作为社会新技术、新思想的前沿群体,代表最有活力的年轻一族,是国家培养的高级专业人才,