基于分类的动态流式图抽样算法

来源 :内蒙古大学 | 被引量 : 0次 | 上传用户:allonwxg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现实中很多网络的规模是庞大的,使得在其上的科学研究开销大、效率低。网络图抽样是从原图中抽取一个规模较小的子图进行研究,能够节省资源、提高计算效率,对网络中的数据挖掘具有重要意义。采用蓄水池技术的动态流式图抽样技术,对流图中的每条边处理一次,大大节省了空间和时间开销。然而,现有的算法使得抽样子图中低度的节点占比过大,具有关键作用的高度节点的比例却过低,有时甚至无法被抽取到,导致抽样得到的子图代表性不足,影响进一步的研究应用。本文根据多数网络图数据本身服从幂律分布的特点,针对现有基线算法存在的不足,提出一种分类抽样算法。该算法使用分类思想,将流式图中节点按照度的大小分为不同类别,针对不同的类别设置不同的替换策略,被选中的节点需要满足相应的概率阈值才会被替换,以提高动态图中度高节点的比例及抽样子图的代表性。为了客观衡量所提模型性能,本研究在三个真实的网络上进行了实验。结果表明,与现有的三种经典动态网络抽样算法相比,我们的算法在聚类系数特性上取得了很大的提升,并且在度分布和K-core分布特性上与原图更接近、KS距离更小、不同的抽样比例效果更平稳。
其他文献
近年来,随着深度学习的浪潮兴起,相关研究进展十分迅速。尤其是卷积神经网络的发展,使目标检测任务取得了很大的进步。然而,目前的方法有两点限制:第一,大多数目标检测器应用正方形核进行卷积及池化,无法得到图像级别相距较远像素之间的关系,模型长距离依赖关系受限,检测长窄物体的能力差。第二,在多尺度目标检测中,目前的模型收集到的上下文信息有限,得到的结果精确度不够高。为解决以上问题,本文提出了多级矩形池化方
学位
<正>拉政办发〔2023〕18号各县(区)人民政府、各功能园区管委会,市直各委、办、局:经拉萨市人民政府研究同意,现将《拉萨市海绵城市规划建设管理办法》印发给你们,请认真贯彻落实。2023年5月10日拉萨市海绵城市规划建设管理办法第一章总则第一条为系统化全域推进海绵城市建设,保护和改善城市水生态环境,增强抵御自然灾害能力,提高城市品质,推进城市绿色低碳可持续发展,
期刊
在党的十九大报告中,习近平总书记提出“乡村振兴”战略,把农业农村农民(三农)问题作为全党工作的重中之重,这反映出党和国家对三农问题日趋重视,也渐渐地说明了党和国家在今后的时间里对三农问题的工作力度将会进一步加强。随着信息化的进程不断推进,新媒体也不断发展,带来了大量的新媒介,给乡村振兴战略的实施带来了机遇也带来了挑战。由于农村牧区等地基础设施建设尚不完善,而且绝大多数的农牧民媒介素养水平不是很高,
学位
为了研究中药复方制剂三黄连合剂、柴茵护肝合剂、辣蓼黄酮提取物对副溶血弧菌致肝胰腺损伤的南美白对虾的保护作用,试验先测定副溶血弧菌临床分离株HJ05感染南美白对虾的半数致死浓度(LC50);然后利用该浓度感染南美白对虾,观察南美白对虾的临床症状、检测肝胰腺生化指标[丙氨酸氨基转移酶(ALT)、谷胱甘肽过氧化物酶(GSH-Px)、碱性磷酸酶(AKP)、总超氧化物歧化酶(SOD)、酸性磷酸酶(ACP)]
期刊
植物在生态环境保护中扮演着重要的角色。然而,近年来由于环境污染的加重,越来越多的植物濒临灭绝,所以保护植物多样性势在必行。其中,植物识别是保护植物多样性中较为重要的研究工作之一。相对植物的其它器官,叶片存活时间长,形态较稳定,所以大量的研究人员通过计算机视觉技术基于植物叶片进行植物物种的识别工作。然而现有的大部分植物叶片图像均是在可控影响因素的条件下获取的,鲜有开展自然生长状态下植物叶片的识别研究
学位
网络学习平台已经成为学习者获取学习资源的重要途径,在带给人们便利的同时也出现了个性化信息获取困难的问题。自适应学习系统能够根据不同学习者的兴趣偏好为其推荐个性化的学习资源,从而解决这一问题。目前自适应学习系统大多依据用户学习行为进行推荐,忽略了用户的评价信息及学习资源自身相关性,对用户兴趣挖掘不够全面。针对上述的问题,本文提出了基于情感分析、知识图谱和协同过滤的混合推荐算法(SA-KG-CFRA)
学位
随着社会的发展,互联网上充斥着数量众多,分类繁杂的图像,如何从海量图像中快速检索到所需图像是一个值得研究的问题。哈希方法具有检索速度快、占用存储空间小等优点,被广泛应用于图像检索任务。目前主流的哈希方法是深度监督哈希方法,该方法主要有两种为图像生成哈希码的学习策略,分别是对称学习策略和非对称学习策略。对称学习策略是同时为查询图像和数据库图像构建一个深度哈希函数,从而可生成查询图像和数据库图像的哈希
学位
区块链技术和基于策略密文的属性加密算法(CP-ABE)相结合的方法具有细粒度的访问控制能力以及不可篡改的存储方式,一经提出就受到研究者的广泛关注。目前常用的CP-ABE都是在双线性映射的基础上实现的,同时,CP-ABE是依据被授权群体的属性制定访问控制策略以实现访问控制。因此,密文中包含的访问控制策略将随着被授权用户的变动而进行更新操作,访问控制策略的不断更新随之带来了存储、效率等方面的问题。这些
学位
近年来,随着蒙古文智能信息处理技术研究的深入发展,蒙古语语音识别和蒙汉机器翻译技术日趋成熟。实现蒙汉语音翻译系统的传统方法首先采用蒙古语语音识别将源语音转录为文本,再使用蒙汉机器翻译将源语言文本翻译成目标语言文本。然而这种方法存在着错误累积,时间延迟和参数冗余等问题。端到端语音翻译将源语言语音直接翻译为目标语言文本,使用一个模型完成语音识别和机器翻译任务,所有参数会根据最终目标共同优化,从而缓解了
学位
线粒体是生物细胞中重要的双膜细胞器,参与着细胞生命活动。线粒体包含四种结构,每种结构中的蛋白质都发挥着各自的生物功能。确定蛋白质的亚线粒体定位,有助于深入研究线粒体中蛋白质的功能,为药物设计和癌症研究提供信息。得益于计算科学的迅速发展,目前研究学者已提出大量计算方法来预测蛋白质亚线粒体定位。本文将深度学习的Doc2vec技术引入到蛋白质序列编码中,对蛋白质亚线粒体定位预测问题进行了深入研究。提出了
学位