支撑数据库内机器学习的关键智能算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:liongliong464
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能时代的到来,机器学习应用的领域越来越广泛。伴随着数据处在爆炸的时代,机器学习在训练数据规模和计算等问题上正面临诸多严峻的挑战。比如,现有的数据管理技术无法直接为机器学习数据提供智能的存储,现有数据选择方法不能很好地满足机器学习样本数据的概要提取需求,目前尚无高效的连接顺序选择算法等。为了推动数据库内机器学习的发展,使智能数据管理技术赋能机器学习,本文研究了支撑数据库内机器学习的关键智能算法,包括基于集成学习的样本数据行列存储决策算法、基于聚类抽样的样本数据选择算法和基于强化学习的数据表连接顺序推荐算法。首先,本文研究了数据库内机器学习的样本数据存储结构智能决策问题,利用集成学习方法为样本决策存储结构,并根据机器学习的工作负载推荐存储结构,据我们所知,这是第一个利用集成学习方法为机器学习数据推荐存储结构,从而加速机器学习执行时间的方案。本文在不同机器学习任务上进行了对比实验,实验结果表明,存储结构智能决策技术能够使各类机器学习的执行时间缩短5%左右。然后,本文研究了数据库内机器学习的智能数据选择问题,提出了基于聚类抽样的样本数据选择算法,此方法充分考虑了数据间的相似性,能够为机器学习样本数据提取出最有代表性的数据。同样在不同机器学习任务上进行验证,实验结果表明,智能数据选择技术能够缩短各类机器学习任务至少20%的执行时间,使得模型精度提升3%左右。最后,本文研究了数据库内机器学习中用于提取高维特征的数据表连接顺序问题,改进了现有研究中的不足之处,提出了基于强化学习的数据表连接顺序推荐算法,设计了连接顺序编码方法,并同时提出基于Q学习以及基于DQN的强化学习模型。据我们所知,这是第一个同时利用强化学习与深度强化学习解决连接顺序选择问题的研究,并对其性能进行相应的实验。实验结果表明,基于Q学习的方法能够优于postgresql数据库查询性能10%左右,基于DQN的方法能够优于postgresql数据库查询性能18%左右。
其他文献
立场检测任务指的识别文本对于给定话题表达的立场,区别于简单的对单个文本进行分析,需要综合话题和文本的信息进行判断。这意味着要求模型具备一定的推理能力,能够从文本对文本中所提及实体的态度以及文本中所提及实体与话题的关系,推理出文本对话题的立场倾向。然而立场检测文本较短,上下文缺失,仅仅依赖于输入中的话题和文本,难以实现这样的推理。需要借助外部知识来补充相关背景,对话题和文本进行丰富,进而帮助模型捕捉
学位
钨酸钴(CoWO4)作为过渡金属钨酸盐中的一种,已被应用于诸多领域。查阅相关文献发现,CoWO4拥有良好的光催化降解有机污染物的活性,但目前尚未发现关于CoWO4催化超声降解染料和药用废水的研究。由于声催化和光催化原理相似,同时声催化具有穿透力强,适合高浓度高色度废水的特点,因此本文探索CoWO4在声催化领域的应用,进行纳米钨酸钴声催化材料的合成、改性及降解有机污染物(以藏红T和四环素为模型)的研
学位
微生物感染引发的死亡率逐年升高,已逐渐发展为一种日益严重的全球危机。因此,寻求新的抗菌疗法已成为治疗微生物感染迫切关注的问题。声动力抗菌化学疗法(Sonodynamic antimicrobial chemotherapy,SACT)主要是利用超声空化效应,激发聚集在微生物感染部位的声敏剂,产生一系列损坏性的物理效应以及活性氧(Reactive oxygen species,ROS),降低病原菌存
学位
大数据质量问题是普遍存在的。在工业传感器、可穿戴设备、智能手机、平板电脑等设备中会源源不断的产生大量数据,由于数据来源的多样性,以及由软硬件故障引起的错误,都会给数据带来噪声,导致数据质量问题,影响数据的可用性。数据质量低劣不仅影响大数据真正价值的体现,甚至会造成严重的后果,数据质量问题亟需解决。其中,不一致是典型的数据质量问题,在数据管理领域,目前已经有自动化的一致性错误检测、不一致数据修复和一
学位
近年来,胃肠道间质瘤(gastrointestinal stromal tumor,GIST)的发病率和死亡率均呈上升趋势,多数GIST都有c-KIT组成型激活突变。手术治疗是GIST最重要的治疗手段,但是c-KIT突变的GIST术后复发率较高。目前市面上治疗c-KIT突变阳性GIST的药物已出现耐药现象,因此亟需开发新型c-KIT抑制剂来改善GIST的预后。在本研究中,我们研究了新型c-KIT抑
学位
<正>为喜迎党的二十大,绍兴市上虞区崧厦街道中心小学少工委编印了《故事中的党史》红色校本教材。少先队员时时读故事、讲故事、演故事,兴致勃勃地当起党史故事的小主播,成为红色文化的小先锋。校内+校外:百名队员讲党史“为了麻痹敌人,民兵们研究了一种在地雷腹中自动点火的‘慢雷’……”队课上,各中队“党的故事我来讲”红色故事擂台赛如火如荼地进行着。根据优秀红色故事的评选标准,四(2)中队张欣沂经民主投票被选
期刊
近年来,以互联网为媒介的电子媒体迅速发展,网络新闻作为基础应用之一正在影响越来越多的网民,拥有巨大的市场前景。然而在感受着网络新闻带来的快捷化信息便利的同时,网络新闻文章数目庞大、文章质量参差不齐、阅读过程耗时延长等弊端也日益显现。在这种时代背景下,自动文本摘要技术逐渐受到关注:文摘结果可推送给用户,吸引用户点击提升用户阅读效率,进而提高用户对产品的依赖性;作为中间结果代替原文本参与信息检索过程,
学位
心血管疾病是近年来不容忽视的公共卫生问题,随着社会与经济的高速发展,心血管疾病的患病率在逐渐上升。冠心病是患病率最高的心血管疾病,而冠脉CT造影技术则是有效、非创伤性的冠脉相关疾病评估与诊断方式。实效性强的冠心病计算机辅助诊断方法是智慧医疗在心血管临床场景应用中的关键技术。然而受限于冠脉狭窄的复杂性和不确定性,基于冠脉CT造影的自动冠脉狭窄分析依然是一项具有挑战性的任务。本文设计了局部Transf
学位
学位
随着强化学习的迅速发展。其他行业的研究人员也不断的将强化学习思想应用到自己的研究领域中。随着以强化学习为核心的应用不断增多,强化学习存在的问题也逐渐的暴露出来。其中最主要的一个问题就是强化学习的效率问题,强化学习在完成运动规划任务的过程中,需要与环境进行大量的互动,如果没有一个好的探索策略,会大大延长智能体学习的时间。除此之外,强化学习需要使用奖励函数来激励学习,而在实际应用中,外界环境往往是复杂
学位