融合注意力机制的关联规则算法研究及应用

来源 :内蒙古大学 | 被引量 : 0次 | 上传用户:fjnu_lhx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据时代,丰富数据之间存在着隐藏、有价值的关联关系。而如何发现这些隐藏的、有价值的关系一直是数据挖掘领域的研究热点。关联规则挖掘是数据挖掘领域最有效的挖掘技术之一,可直接将数据库中丰富的关联关系挖掘出来,进而指导实际的营销工作。在传统关联规则中存在数据库中各项重要性相同、出现频率相似的前提假设,使得当数据库中的项目频率变化较大时,设置最小支持度较为困难,加权关联规则旨在解决该困难。然而该类算法中存在数据库中各项权重系数由专家人为方式标注的问题,面对现阶段呈指数级增长的大规模数据,专家人为标注显得不切实际。基于上述问题,本文在已有的算法基础上加以改进,提出了一种融合RNN与注意力机制的关联规则算法(3AM:Association Rule Algorithm Fusing RNN and Attention Mechanism)。该算法首先利用双向RNN融合注意力机制的深度学习方法进行数据项权重的求解,可实现数据库中各项权重的自动化标注。然后,基于所求权重,利用加权关联规则MINWAL(O)算法实现关联规则的生成。它可以充分学习数据库项目的隐含知识,生成更多有价值的关联规则,大大减少专家的工作量。最后,本文以高校图书馆数据为例进行实验设置,并基于聚类方法对各项的权重进行了分析。实验结果表明,相比传统的Apriori、FP-Growth和Apriori Inverse三种关联规则方法,本论文提出的方法具有较好的模型性能,且具有一定的解释性。本论文进一步设计了以图书馆推荐为例的原型系统,可为读者推荐较为准确的图书。
其他文献
作为云计算的基础设施,数据中心通常运行着大量多种类型的服务,在不间断工作下存在不同程度的资源空闲,直接或间接造成了一定的资源浪费和能耗开销。论文从数据中心网络角度出发,以保障云用户的需求为前提,设计一种基于休眠唤醒的网络流调度方法,提高资源利用率,降低能耗。该方法有以下创新之处:1.提出解决数据中心网络能耗优化问题的通用框架。该框架针对现有能耗优化方案在优化过程中可能降低用户服务质量的问题,引入服
深度学习凭借神经网络对语义的深度理解能力在机器翻译领域取得长足的进步。然而对于低资源语言,一个难以攻克的问题是大规模双语语料的缺乏导致的数据稀疏,以致于译文质量不佳。常见的解决思路如无监督方法会带来额外噪声,影响学习效率。为此,本文采用一种半监督的对偶学习方法构建蒙汉神经机器翻译模型,在两个对偶任务中形成一套闭环反馈系统,从未标注的数据上获得反馈信息,进而利用该反馈提高对偶任务中两个机器翻译模型的
近年来基因相关的研究备受关注。临床医学和生物实验产生海量的生物数据,目前有很多数据库都记录了基因和疾病的本体数据,但大部分数据库专一性较强,无法有效根据不同基因的关联关系发现基因潜在信息。本课题融合多个基因相关的数据源,使用改进的随机游走算法,研究并开发了基因集成资源搜索系统,并利用系统中多数据源融合的集成资源进行基因数据挖掘,发现基因的潜在功能。实验结果表明,本文提出的方法在融合了多个数据源之后
创新驱动战略是现阶段国家发展的战略目标,在此大背景下,知识产权战略作为创新驱动战略的重要支撑和保证,作用日益突显。而专利作为一种对知识产权保护(IP)的主要手段也愈加为人们所重视。同时随着新兴技术的飞快发展和专利的申请数量的急剧增长,待审查专利文本大量堆积,并且由于专利本身专业性的加强也使得对专利审查员的专业素质要求越来越高,增加了审查难度。专利侵权检测问题作为审查核心,是突破瓶颈的关键。然而手动
随着智能问答机器人在人工智能领域的不断发展,市场逐步发布了如天猫精灵、小米智能音箱等语音对话类产品,该类产品底层的系统逻辑与算法一直在不断积累与更新。此类产品目前对医学名词及问题还不够敏感。现有意图识别分类较为常用的方法有基于规则模板或特征等,此类方法需消耗较多人力并且覆盖面、分类能力也相当有限。针对上述问题,结合医疗领域对话文本特点,本文提出了基于主题词嵌入的意图识别模型(ETM-T)。该模型将
近年来,以Docker为代表的容器技术已日益成熟,其编排系统Kubernetes的功能日趋完善,但是Kubernetes现有的弹性扩缩容策略存在一些不足之处。本文分析了Kubernetes现有的弹性策略,并针对其存在的问题提出了优化策略。本文主要工作如下:(1)针对Kubernetes现有的扩容策略对新增Pod(Kubernetes中最小的资源调度单元)进行调度时,未考虑多个Pod部署后集群负载均
在命名数据网络(Named Data Networking,NDN)中,安全基于数据内容本身,内容安全性与内容名称和内容生产者的身份相绑定。但在内容检索和内容验证过程中还存在以下内容安全性问题:1)由于命名机制的不透明,导致内容消费者可能无法获得所需可信数据;2)由于传统信任管理模型中以遍历证书链的方式对内容进行验证的时间开销大,导致内容消费者难以验证内容生产者的身份。针对以上2个问题,本文提出一
近几年之内,互联网渗透于生活各处,随之而来的是网上充斥着海量的数据,使网络上的信息变得冗杂,知识图谱的出现能够解决此问题。知识图谱是以图的形式表现客观世界中的概念和实体以及它们之间关系的知识库。知识图谱的构建主要分为四大部分,分别是知识抽取、知识融合(实体对齐)、数据模型构建以及知识推理。共指消解作为知识融合的关键部分,在构建知识图谱中起着重要的作用。共指消解是一项能够将知识图谱中的不同描绘合并到
命名数据网络(Named Data Networking,NDN)是信息中心网络(Information Centric Networking,ICN)最流行的解决方案之一。在NDN中,缓存策略旨在减少网络总延迟和服务器负载。为了提高网络的内容交付速度和可靠性,现有缓存策略通常在多个中间节点上缓存数据,而这将增加中间节点的能耗与内存开销。在物联网应用中,节点的内存和能量是有限的。而传统的NDN缓存
随着城市人口的日益增多,人群大量聚集的现象愈发普遍,随之而来的群体安全问题引起广泛关注。自新冠肺炎疫情发生以来,人员的聚集性活动将显著增加疫情传播风险,进一步推动了人群分析成为研究热点问题。人群计数及密度估计是人群分析中的重要内容,但是现有研究存在以下几个问题:(1)基于视觉的人群计数方法受到人群遮挡、光照条件等因素的影响,在复杂环境中难以取得令人满意的结果;(2)基于WiFi信道状态信息(Cha