基于两层聚类的视频业务的多级内容缓存策略

来源 :科学与财富 | 被引量 : 0次 | 上传用户:heying423
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:本文通过分析用户的视频使用习惯、视频业务偏好,得到用户在视频大类(腾讯、爱奇艺、优酷等)以及视频小类(王牌对王牌等具体节目)上的业务偏好性,感知对应的视频业务信息:业务类型、种类、流量、激活人数、请求次数等,以此作为基站特征,对基站进行两层聚类,形成视频业务的二级内容虚拟缓存簇。最后通过对现网数据的分析验证了较为明显的实验性能。
  1.引言
  随着移动互联网以及智能终端的迅猛发展,终端业务越来越多样化,移动用户由原先的浏览网页逐渐向视频业务转变,视频点播、视频会议等应用越来越普及,视频业务逐渐成为蜂窝移动通信中的主流业务。据不完全统计,在4G网络中视频业务产生的流量已经占据50%以上,根据思科预测报告,到2020年为止,视频产生的流量将达到网络流量的75%以上[1]。如此大量的网络流量给接入网和核心网甚至整个网络都带来了巨大的压力,主要体现在核心网络或者空中接口处。因此,如何降低主干网络的压力从而提升用户体验成为当前移动网络亟需解决的问题。
  随着视频流量造成的网络带宽危机越来越严重,同时视频的延时、速率、清晰度等各方面要求提升,有关网络缓存的研究开始成为一个热门话题。各大型无线视频提供商,如国外的YouTube、Netfix,国内的优酷、腾讯等,为了提高移动视频用户的用户体验以及無线视频媒体的QoS(Quality of Service,服务质量)并减少网络带宽危机而部署了CDN(内容分发网络)[2],并在移动交换中心上部署了缓存服务器,使得视频内容更靠近终端用户[3][4][5][6]。这样做法节省了大量的网络带宽,并且使用户的体验得到明显提升[7]。
  然而上面的所有的研究都是基于互联网络的内容分发网络算法研究,游离在移动网络的核心网与接入网之外。除此之外,大多数是针对单个业务进行的内容缓存,没有考虑到同等业务下不同视频类型的用户使用习惯。文献[8]基于移动网络中的业务特征进行基站存储算法的研究,着重关注的是存储的分配等技术,而忽略了网络中真实业务的分布情况以及用户对于业务的偏好性,而这恰恰是内容缓存技术的核心要求:热点视频、热点内容、场景需求。
  随着5G的来临,网络信息感知成为网络维护、优化、规划的重要手段。通过对网络侧用户的log信息,网络侧可以感知用户的位置信息、终端特性、接入方式、移动特征、业务使用与特征等,利用这些特征可以很好地分析出某一场景、某一时段内区域中用户的整体业务使用偏好。5G网络的扁平化,核心网功能的下沉为网络感知提供了有利的条件,在基站层通过感知用户的业务偏好特性,为基站端业务内容缓存提供了必要的数据基础。
  内容缓存的首要问题是对什么内容进行缓存,因此本文基于信息感知的框架,通过网络侧用户上网日志信息,提取每个基站用户使用的业务类型、类别、流量大小、激活人数、请求次数等等,对基站在不同的时段、不同区域业务特征分布进行分析。通过对不同等级的视频内容分布以及用户喜好进行分析,我们提取一种多级内容缓存的方式,在不同的等级上对视频内容进行缓存,从而从多层次解决视频缓存的问题。
  内容缓存另一个重点问题在于缓存的区域大小或者缓存的位置。在5G系统中,强调网络虚拟化以及资源池的概念,从某种意义上,基站在地理位置上相近,并不代表它们属于一个管理区域。因此利用这样的虚拟化的概念,以上述感知的特征作为基站的特征向量,将具有相似视频业务偏好的基站通过两层聚类的方式形成多级内容缓存虚拟簇,以此控制对应的多个基站内容缓存。
  本文第2节简单介绍我们的研究框架以及对应的感知参数说明;第3节针对现网采集的数据进行特征提取,分析以及最终的基站内容缓存聚簇。第4节总结了本文的研究内容。
  2.基本框架
  图 1给出了本文多级内容缓存的研究框架。整体可分为四大部分:数据来源、信息感知、内容分级以及基站聚簇。由于数据来源于基站,同时应用于基站,从某种意义上来说,整体框架是一个回环。
  数据来源:
  基站上多用户的业务使用方式、习惯构成整体网络的流量特性。从终端侧可以感知用户的业务使用情况、移动情况、终端信号情况等等,这些信息构成了整体网络-用户信息。然而对于3G、4G网络来说,终端信息采集汇总具有较大的人力成本,而基站本身只具备转发功能,无法进行信息感知。在现网当中,数据业务经过接入网之后会去除无线协议栈,在核心网上进行IP传输,因此核心网网关可以获取用户的控制面和数据面数据包,通过深度包解析(DPI)以及两方面数据的融合,获取其中对应的用户信息,从而使得从核心网进行数据感知具有一定的可行性。在未来5G中,网络架构的扁平化以及上层功能的下沉等使得在基站上感知成为可能。本身研究的着力点在基站,抽取的信息特征也是以基站为单位,则认为数据来源于基站下的用户。
  信息感知:
  从核心网获取对应的用户控制面和数据面数据包之后,通过协议解析的方法,可以有效地获取用户的位置、业务类型等信息。以基站为单位,统计基站下的用户信息,从而得到关于基站的特征向量:业务类型(优酷、爱奇艺、新浪图片等)、业务小类(具体内容)、业务流量、业务激活人数、业务请求次数、内容请求次数、内容请求人数。这些感知信息描述了单个基站下业务的分布情况、用户的使用情况等,为后续进行基站聚簇,内容缓存提供有效地基础。
  内容分级:
  无论是视频业务还是网页浏览业务,内容一般都可以分为大类(一级)和小类(二级)。本文将APP的访问种类定义为大类,如优酷、腾讯、新浪微博等等。一般而言,同一个视频内容或者图片会在不同的内容提供商上存在。对移动通信网来说,缓存哪部分视频是首要研究的内容。由于用户的使用习惯存在差异性,不同的场景业务大类的使用偏好不同,首先分析业务大类的用户使用习惯,是进行内容一级大类缓存的前提。很多时候,真正流行的视频通常为某一特定的内容,比如某个娱乐节目,某些热播电视剧等等,此时缓存具体的视频内容或者图片内容,比缓存大类信息更加具有实际意义。这一特定的内容,我们定义为小类(二级)。利用业务的整体分布情况,判别一级缓存内容,通过具体内容的流行程度,判别二级缓存内容是本文对基站进行内容缓存的多级分析方法。   基站聚簇:
  基站之间的偏好存在一定的相似性,根据感知的基站信息形成基站的特征向量,以此进行基站的聚类。当基站所属类别中腾讯视频站主导时,对应的缓存为一级内容缓存,进一步地当基站所属类别中腾讯视频中某项内容占主导时,对应的缓存为二级内容缓存。这样的一级、二级内容缓存虚拟簇是以基站特征为相似度量,因此聚簇的基站不一定属于同一个物理区域,而是从逻辑上是一个簇,本文称之为虚拟簇。
  从合适的位置进行数据采集,感知不同基站的信息特征,形成基站特征信息库。以基站信息特征为特征向量对基站多级聚类。分析聚类之后的分级内容的分布情况,存在一级内容偏向时,采用一级内容缓存,具有二级内容流行时,采用二级内容缓存策略,从而形成基站多级内容缓存。
  3.实验结果
  数据集
  针对上述提出的研究框架,采集现网移动4G网中的数据进行用户行为分析,进而进行基站的特征聚类,从而形成虚拟簇的多级内容缓存。
  图 2给出现网4G数据采集的节点,通过核心网节点S1-MME、S6a、S1-U、S11的数据汇总,得到对应的LTE-xDR话单。其中对应的4G数据详见表 1。XDR数据的格式为一条数据为用户的一条GET请求,包含该请求对应的用户位置、发送数据包总数、流量总数等等统计信息,从一定角度反映了HTTP业务的特征。通过解析GET中的HTTP信息可以分析用户的业务。
  图 3给出了多级内容解析的例子,一条XDR中视频业务的http请求为:http://v.youku.com/v_show/id_XMTQ4OTkwMDg4MA==.html?from=s1.8-3-1.1,其中前半部分的“youku.com”表明用户的业务是优酷视频,后半部分的“id_XMTQ4OTkwMDg4MA”为对应视频片段id,且在视频内容提供商内部唯一。因此通过XDR中HTTP请求的解析可以得到对应的一级内容和二级内容。同样的解析方式可以用在朋友圈、微博等业务上进行图片内容的解析。根据这样的解析结果,对基站特征进行统计。
  业务特征空间分析
  不同场景下,不同时段内,由于用户的移动性以及生活习惯,业务的分布特征也会随之变化。首先统计所有的业务类型,这里主要关注视频业务,因此统计每个基站在腾讯、优酷、爱奇艺、乐视、搜狐几大主要业务中对应的每小时业务流量、每小时激活人数、每小时get次数,以此分析用户的使用习惯。
  图 4给出了一级内容空间流量分布情况。将所有的基站按照voronoi图进行划分,每个区域可以代表一种场景。图中横坐标代表以及内容的类别:腾讯视频、优酷视频、爱奇艺视频、乐视视频以及搜狐视频;坐标表示天,上面一行表示一天,下面一行表示另一天;每个版块的颜色代表该基站下的该业务流量,蓝色表示低流量,黄色表示高流量。根据上图不难看出,不同的业务在不同的区域的使用情况不同,有些区域用户偏向于腾讯视频,有些区域用户偏向于搜狐视频,整体上腾讯视频的使用程度偏高,因此业务的使用存在场景差异性。除此之外,可以较为明显看出业务在不同区域上的流量也存在典型差异,这种空间上的不均匀性反映了用户对于视频业务的使用情况。从纵向的角度看,不同的天,由于视频内容热度的差异性,业务的使用情况有所差异。上面一天的视频业务使用较为明显地超过下面一天,因此业务的使用存在时间差异性。
  视频业务流量空间不均匀性以及使用偏好的差异性,加上时间上的时变性,导致基站进行多级内容进行聚簇缓存时,存在一定的差异性与动态性,下面针对不同的内容级别进行分析聚类。
  多级内容聚类缓存
  以基站流量作为视频缓存的依据,即当对应的视频流量偏高时,需要进行内容缓存。将基站按照腾讯、优酷、爱奇艺、乐视以及搜狐视频的流量大小组成对应的向量,按照特征向量对基站采用kmeans聚类[9],得到图 5所示的基站聚类结果。整体可以看出,基站按照流量可以分为7类,每一个类对应一种特征。第一类为腾讯流量在400MB左右,优酷为200MB左右的基站,第二类腾讯流量为400MB,但其它流量很少的基站。按照视频柱状图进行一定的分析,可以分别得到7类基站视频业务使用特征。显然,在不同的基站类别中,缓存的视频业务也存在差异性。第一类基站腾讯视频和优酷视频流量较大,因此缓存为腾讯、优酷的热门视频;而第5类基站,搜狐视频流量远大于其他基站,则搜狐视频热门视频进行缓存。
  分析每个基站所属的类别,则可以得到对应的一级内容缓存基站簇,在同类的基站簇中,一级的缓存视频种类是一致。
  如何判定对应的基站所属的类别是进行基站缓存的另一个重要方面。用户的使用习惯问题,视频热点的更新问题,使得用户在不同的时段内对于视频业务的偏好使用存在差异性。图 6表示不同的基站在13天中对应的所属的类别变化。一个7个基站,每个基站基本都有一定的类别波动,从而表明不同的基站偏好情况存在差异性,一级缓存存在差异,同时由于时间上的波动,在不同的时段上也可能存在缓存差异。
  由于内容缓存在一定意义上是一种相对静态的表现,当基站波动较大,不存在明显规律时,对应的基站无法缓存。图 7中的左图是基站117号对应的所属基站类别的变化趋势。第一天属于7类,第二天属于1类,根据图 5中的基站类别分类,优酷视频的流量明显上升,搜狐视频下降。第五天属于4类,第六、七天属于2类,腾讯视频上升,而爱奇艺视频降低,由于13天中对应波动性较大,相对无规律,内容基本无法缓存,因此此类用户偏好不明显的基站不进行考虑。图 7中的右图为基站32号的趋势变化图,前面6天有明显抖动趋势,但最后7天都属于3号类别,以腾讯视频为主,此时对应的基站可以进行一级腾讯视频缓存。
  当确定了基站的一级缓存之后,则可以进一步考虑基站是否存在二级缓存。针对32号基站,统计其对应的平稳的后7天的TOP二級内容的请求次数,得到图 8所示的结果。通过右侧的统计结果可以看出,7天中统计的”d5039ievs.m701.mp4”的请求次数最多,由此可见这段视频为对应的热门视频,在进行一级腾讯视频缓存之后可以再次对其中的二级内容”d5039ievs.m701.mp4”进行缓存。将具有相同二级缓存内容的基站进行合并,形成二级内容缓存虚拟簇。
其他文献
摘 要:职务发明制度是专利法律制度中的重要内容,其合理和完善程度直接影响了我国向科技创新性国家转变的进程。而目前我國职务发明创造比例一直偏低,说明我国职务发明制度中存在问题。本文从我国职务发明的利益分享机制出发,阐述了我国现行职务发明制度中利益的分享方法及其不足,并提出了几点建议,为职务发明制度的修改和完善提供参考。  关键词:职务发明制度;利益分享;不足;完善  1 引言  《专利法》的立法宗旨
期刊
摘 要:新疆西天山科克赛岩体位于西天山北部,主要发育岩石为二长花岗斑岩,属高钾钙碱性系列。根据元素地球化学组成, 该二长花岗斑岩主量元素为SiO2、Al2O3和MgO,微量元素含Sr、Y和Yb,具有埃达克岩的化学特征,该二长花岗斑岩归属于埃达克岩。依据元素地球化学和同位素地球化学特征,判断科克赛岩体为新元古代增生的地壳物质部分熔融的产物,于晚石炭世后碰撞初期阶段形成。  关键词:新疆北部;埃达克岩
期刊
摘 要:就博物馆的讲解服务来说,这是博物馆讲解员对语言进行客观运用,并将历史与文物事实的陈列作为重要基拙,运用较好的沟通方式讲解知识的一种"活百科全书"。博物馆讲解人员身为讲解服务的主体,在当中扮演着非常重要的角色,是社会公众和博物馆两者的有效沟通桥梁,讲解服务的质量对参观者的参观质量产生直接影响,一名合格的博物馆讲解员,理应善于研究,通过重组的知识向参观者讲解历史文化。因此,本文将对博物馆讲解服
期刊
摘 要:现代企业文化建设内容非常广泛,不仅需要企业职工树立一致的价值观,更需要让企业职工看到在企业工作的远景与未来,从而在优良的企业文化氛围中自觉规范自身行为。基于此,本文阐述了现代企业文化建设的主要作用,对现代企业文化建设存在的主要问题及其措施进行了探讨分析,旨在促进现代企业的可持续发展。  关键词:现代企业文化建设;作用;问题;措施;  随着市场经济的全球化发展,对现代企业文化建设提出了更高要
期刊
摘 要:梁拱组合体系桥梁是目前发展较快的一种桥型,这种桥型既有拱桥的曲线柔美,又体现了梁桥的简洁平顺,是一种经济、实用、美观的桥型。本文以某30m+80m+30m中承式梁拱组合体系桥为计算模型,通过建立该桥三维有限元分析模型,对其主桥的动力自振特性及地震响应进行了研究,得出了一些有用的结论,可为同类型梁拱组合桥提供设计依据。  关键词:桥梁设计;梁拱组合桥;自振特性;地震响应  1 工程实例  该
期刊
摘 要:档案服务包括档案利用者对档案信息的需求,以及为了保障利用者全面、及时、准确、有效地查找到档案信息而建立的相关服务需求。满足社会的档案利用服务需求,档案管理机构要从档案利用服务需求共性和个性特点出发,建立起完备的档案检索体系和完善的咨询服务体系。  关键词:档案;服务;  档案工作,就是档案业务工作,它是档案室或档案馆围绕档案所进行的一系列业务工作,是利用科学的原则和方法管理档案,为社会各项
期刊
摘 要:随着全球信息网络的建立和完善,网络的应用越来越广泛。电子商务已经成为一股不可阻挡的潮流,发展它不仅关系到国民经济的发展,而且影响到社会公众的生活,公众在实际的生活中涉及到了众多的法律问题,因此,中国应当积极开展电子商务立法的研究。  关键词:电子商务 消费者权益 法律  一、电子商务的内涵及特点  (一)电子商务的内涵  二、一般认为,电子商务(ElectronicCommerce)是指买
期刊
有一种职业最高尚,那就是教师;有一种人生最美丽,那就是奉献;有一道风景最亮丽,那就是希望。“春蚕到死丝方尽,蜡炬成灰泪始干”,不要说我们一无所有,我们用爱心播撒着种子,用汗水浇灌着希望,用生命铸造着明天的辉煌。  那年当我踏上教育这方热土时,我仿佛觉得自己走进了人生中最灿烂的时刻。工作将近23年的时间了,在教育战线上摸爬滚打,流下了多少汗水,倾注了多少心血,同时也品尝了多少爱与欢乐的甜蜜!这爱来自
期刊
摘 要:为了解决居民生活中住房方面碳排放过度的问题,本文采用了理论数据分析与实际结合的方法,分别分析了家居装修,家用电器和日常生活中的碳足迹,得出了采用选择小户型采光好不过度装修的房子、合理使用电器、改进更合理的生活方式等科学方法,可以有效降低碳排放。该文章对于普及居民低碳知识、降低居民居住方面的碳排放具有一定的指导作用。  关键词:家居住房 碳排放 低碳节能  1.问题提出  随着人类活动的强度
期刊
摘 要:本文基于人力资本理论与高层梯队理论,选取247家沪深主板制造业上市公司数据进行分析,探究高管团队人力资本与企业绩效间的相关关系。研究结论显示,高管团队的年龄、受教育年限、任期和职业背景与企业绩效间不存在显著线性关系,且拥有一定异质性的高管团队更利于企业绩效提升。  关键词:高管团队;人力资本;企业绩效  1引言及文献回顾  Hambrick和Mason首次提出“高层梯队理论”,认为公司高管
期刊