基于大数据处理的商业信息搜索优化方案的设计与实现

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:keithforever
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着经济的发展,商业数据信息已经成为个人和企业规划的一个重要参考因素。而大数据技术的发展,提高了人们处理数据的能力,使人们可以更有效地利用数据。Eikon是汤森路透最重要金融信息服务平台。它为全球想从交易与投资机会中获利的金融专业人士提供强大的商业市场信息、分析和独家新闻组合。但是,由于目前需要处理的数据量过大,且预计还会继续增大,导致Eikon在执行数据更新、搜索、维护方面效率低下。且当前数据集扩展性不高,扩容和维护成本巨大。本人希望对Eikon数据集进行重构,这样既能提高数据搜索、维护的性能,又能降低数据集的扩展和维护的成本,从而提高整个Eikon的易用性。基于以上目标,本方案的基本思想是利用空间换取时间。利用大数据处理技术,对数据按照一定的逻辑进行关联,形成数据视图。当逻辑视图建立起来后,它将被作为SQL的查询语句的结果生成出来,并存储在Hbase中。当用户请求数据查询时,现有复杂的SQL查询语句会被一个更快的更简单的数据库数据获取、扫描所代替。这样,不仅有助于用户高效的使用数据,也有助于系统高效的维护、更新数据。该解决方案会以系统项目的形式进行实现。在整个项目方案的设计与研发过程中,本人主要负责数据管理模块、数据处理模块、规则转化模块、任务调度模块的设计与开发工作。整个项目基于Linux平台,选择Spark+Hadoop+Hbase开源大数据架构,使用Scala+Python语言,保证了本方案具有较强的可扩展性。本文以构建新型结构的数据集为研究目标,对商业信息的分析和树形数据结构的构建等关键技术进行了研究。目前,该方案第一版本系统的开发工作已经结束,目前正处于试运行阶段。运行效果符合方案的设计目标。运行期间积极接收用户和数据的反馈,用于将来的更新与改进。
其他文献
随着网络技术的快速发展和电子文件数量的急剧增加,文本分类技术愈发重要。文本分类中最棘手的问题就是如何有效降低特征空间的高维度,过高维度的特征空间不仅会增加分类时间
近几年,在技术、市场与国家政策的共同推动下,我国“互联网+教育”的发展进入了快车道,这让教育的内容与形式都更加的多元化,教育资源的分配也愈加的公平合理,与此同时在线教育企业也面临着越来越大的竞争。在线教育企业要想不断的扩大企业影响力,增加经济效益,除了要加强在线教育系统研发技术的提升、课程质量以及服务水平的提高以外,绩效管理的方式,绩效考核的科学性、完善性、灵敏性等,都在一定程度上左右着企业战略目
学位
自动回复是指对于用户提出的问题系统能够自动的为用户提供一个答案,在自动回复任务中,大多数问题和答案之间词汇的重合率和相似度并不高,很难仅使用单词匹配和特征提取的方
飞行模拟器是民用航空与军用航空中飞行员训练不可或缺的关键训练设备。借助头盔显示器开发的基于虚拟现实技术的轻量级模拟器舱内外视景均由计算机生成,通过改变视景可实现不同机型重配置,使用灵活,沉浸感好,因而受到广泛关注。但是由于佩戴了头盔显示器,飞行员在模拟训练过程中无法直接看到自身的手,因此交互性受到严重影响。为实现自然、和谐的人机交互,本文主要开展基于计算机视觉的手部交互技术研究。鉴于表观方法在计算
提高生产效率、降低生产成本是企业在现代化发展中需持续关注的焦点话题。企业若想在市场竞争趋于白热化的环境中脱颖而出,那么对其生产调度进行持续性优化是非常有必要的举
The key to achieve autonomous control of robot,and also an important topic in mobile robotics field is Simultaneous localization and mapping(SLAM).A mobile robo
燃烧室中的燃烧现象复杂,温度很高,多种物理过程强烈耦合,其中传热方面多种传热方式共同作用于燃烧过程。通过实验研究燃烧室内的燃烧情况难度较大,实验数据难以获取且数据有限。目前高精度数值方法发展迅速,对燃烧室的燃烧仿真研究受到广泛关注。然而,目前的燃烧仿真大多仅考虑燃烧现象而忽略了多种传热方式对燃烧过程的影响,通过文献调研发现,燃烧室中的传热现象对燃烧仿真结果的准确性有较大影响。因此本文基于新型的高精
随着互联网的兴起,网络中的数据量呈指数增长,人们的生活节奏加快,如何从海量数据中高效获取所需信息已经成为了现如今亟待解决的问题。自动摘要技术能够对文本信息进行融合
伴随着大数据时代的不断加深,数据量呈指数趋势不断增长,同时数据维度也相应地持续增加,因此,快速实时数据分析等需求面临着新的挑战。提升数据存储服务的实时性、准确性以及
近年来,研究者为了从海量生物医学文献中快速有效地获取所需要的生物医学知识,使用文本挖掘技术已成为生物医学和生物信息学领域的研究热点。由于生物命名实体是生物医学文本