【摘 要】
:
最近十年,随着大数据处理平台,云计算等技术等一些基础设施技术的蓬勃发展,人工智能和机器学习发展迅猛。伴随着谷歌旗下Deep Mind的Alpha Go在围棋领域的突破,以及特斯拉引领的汽车自动驾驶潮流等一系列的标志性事件,人工智能一跃而起,成为了时下最为火热的话题之一。Transporter是一个某银行内部系统开发的数据库元数据收集系统最初在2010年被引入。Transporter系统主要每天收集
论文部分内容阅读
最近十年,随着大数据处理平台,云计算等技术等一些基础设施技术的蓬勃发展,人工智能和机器学习发展迅猛。伴随着谷歌旗下Deep Mind的Alpha Go在围棋领域的突破,以及特斯拉引领的汽车自动驾驶潮流等一系列的标志性事件,人工智能一跃而起,成为了时下最为火热的话题之一。Transporter是一个某银行内部系统开发的数据库元数据收集系统最初在2010年被引入。Transporter系统主要每天收集用户在公司内部所有种类数据库中每个数据库的权限信息,并分析计算潜在风险,以确保企业数据库安全政策。现有的系统使用Data Collection Metrics Report中一些指标固定的增量阈值,并结合下游的埋点测试用例,确认数据采摘的质量,即成功或失败。但固定的增量阈值并不能很好的反应数据库中内容的变化。如上游的元数据出错,导致一列字段大多数都计算错误,但总数的变化没有改变,依然会被认为这次数据采摘刷新是成功的。亦或者数据总量的变化刚好超过了固定的阈值,实际成功采摘刷新却被认为是失败的。面对这一痛点,我们期望在现有的系统中引入机器学习的模型去动态识别阈值,并期望找到一种方法,快速的计算出数据库中权限内容的相似度。经过对问题的初步研究和相关文献查阅,我们发现机器学习的一些方法能够很好的训练一个动态化的模型。此外,在自然语言处理领域,常常会使用Hashing-TF或TF-IDF等一些手段先对文本段落提取特征,随后使用余弦相似度,斯皮尔曼相关系数等一些方法去计算两者相似度。因此,本次研究将参考文本相似度的计算方法,将其引入计算结构化数据库的内容相似度。这也是本文比较主要的创新点之一。本次研究的数据为2020年1月2号到2021年1月1号期间约一年的数据,通过对历史归档数据的切割,我们得到了Sybase和DB2两种数据库的历史用户权限信息。在对数据相似度的研究中,我们发现使用皮尔逊相关系数结合稠密的Hashing-TF特征向量能够很好的近似杰卡德相似系数,而余弦相似系数需要结合稀疏的Hashing-TF特征向量。考虑到越长的特征向量会在计算时带来越大的时间开销,我们最终选取皮尔逊相关系数去快速的计算近似的数据库用户权限内容的相似度。在构建模型的实证阶段,我们使用GBDT,随机森林模型和XGBoost算法分别初步构建了模型。我们发现XGBoost相比GBDT和随机森林模型能够很好的应对不平衡数据的问题。当使用SMOTE和ADASYN算法后,都能显著提高这些模型的AUC指标,即能够很好的应对不平衡数据。此外,考虑到过多的特征会带来模型过拟合的问题,我们使用了XGBoost和随机森林的特征重要性作为依据,进一步的筛选了模型的特征,并且发现我们专门引入的Sybase和DB2数据库相似度这两个特征都有很高的特征重要性。最终,通过网格搜索调参生成的ADASYN-XGBoost混合模型在各指标上都有不错的表现,能够很好的解决我们最初的实际问题。本文的主要成果和创新点是使用了目前新颖的机器学习模型解决了Transporter系统面临的实际问题,并将将文本相似度的概念引入到结构化的数据库内容对比中。
其他文献
“因材施教”是程颐、张轼、朱熹解读《论语》过程中对孔子教育方式的概括。孔子因材施教首先是因个人才具、个性的不同而施教,同时也针对一个人发展的不同阶段,予以不同的教育方式。因材施教的核心乃是引导个体顺乎自我成人之道,于进退之间导正个体成人的方向,激励每个人学以成人的可能性。因材而教究其实质而言,乃是以爱与引导敞开个体成人的大道。孔子因材而教,并不仅仅是教学对话的方法,而是引导个体成人的技艺。
目前,变电站内各项巡检工作已不断向智能化、安全化、高效化、精确化发展,为了满足变电站对于巡检工作不断提高的要求,更为高效实用的机器人巡检系统逐渐得以应用。本课题针对机器人能够自主完成各项电力巡检工作的需求,开展升降式电力巡检机器人系统的相关研究,重点包括对升降式电力巡检机器人系统的总体设计、机器人底盘移动平台的运动学分析、升降装置动力学有限元分析、以及机器人控制系统设计,最后通过样机实验验证机器人
对虾在世界水产品市场中占有重要地位。随着国内外对水产品需求的不断增加,对虾的养殖面积和产业规模也不断扩大,使其副产物激增。对虾副产物中虾头、虾壳、虾尾等部分占虾体总质量的40%以上,这些副产物中富含多种生物活性成分,这些活性成分在食品、医药、化工等领域具有广阔的应用前景。该文从甲壳素、虾青素、抗氧化肽等方面综述对虾副产物的综合加工技术与高值化应用现状,并对其未来发展趋势进行展望,旨在进一步提升对虾
人们的正常生活离不开水资源,其直接影响着人们的身体健康。但是近些年社会环境发生了不断变化,对于水资源的影响越来越严重,水质污染已成为社会最为关注的问题。为了确保水资源的健康,对于水质环境监测就显得很必要。水质环境监测主要就是指通过先进技术及设备对于水质进行勘测分析,明确水质的质量,及时发现其中的问题并采取针对性措施进行解决,从而确保水质环境的安全性,保证水资源的健康。本文主要分析现阶段水质环境监测
<正>2021年,随着巨型拼贴NFT(Non-fungible Token,即非同质化代帀)作品《Everydays:The First5000 Days》以6900万美元的天价在顶级拍卖行佳士得成功拍出,以及无聊猿项目(Bored Ape Yacht Club)的横空出世,引来包括体育圈、音乐圈、游戏圈在内的流行时尚界的狂热追捧,一跃成为NFT市场的“头部蓝筹”,全球NFT热潮就此拉开帷幕。20
超材料是一种利用金属以及电介质材料相互堆叠并且周期性排列的复合型单元结构,这种人工材料具备了自然界中常规材料所不具备的诸多理化特性,在物理学、材料学、生物探测、红外成像、信号交互、保密通信、乃至是激光制导等领域具有极佳的应用前景。尤其是近年来随着研究的不断深入,越来越多的研究者将目光锁定在这一研究领域。通过对超材料吸波器吸收特性的研究,基于阻抗匹配理论对于超材料吸波器的共振吸收机理进行了分析。针对
博物馆数字文创产品开发是时代发展的必然趋势。信息技术的升级使博物馆数字文创产品的开发不再局限于物,市场流通方式由商品交易转为交互传播,相应的开发理念也转向数字产品设计和虚拟服务提升,进而呈现出新的产品形式和传播方式。数字转型趋势下,我国博物馆数字文创产品的开发路径始终以文化资源为核心,逐渐从实用需求向审美体验提升,同时还需依托互联网平台进行“破圈”传播,发挥博物馆数字文创产品的审美功能与教育意义。
管理的本质是一种实践活动,掌握企业发展方向的领导者经验对于企业生产发展而言极为重要。本文借助2007—2019年沪深两市A股上市企业数据,实证检验董事长研发背景特征对企业数字化转型的影响。研究发现,具有研发背景的董事长能够有效促进企业数字化转型,对于国有企业和高科技企业而言更是如此。从机制识别检验来看,具有研发背景的董事长能够优化企业投融资行为,在降低创新风险的情形下激发企业创新活力,这些改善都有