论文部分内容阅读
你抱着平板电脑看综艺节目,中途拖了一下进度条,可能是因为你不喜欢出场的嘉宾、可能是主持人谈论的话题让你犯困,当然也可能只是手抖了那么一下。但对于视频网站来说,用户拖动进度条意味着自己庞大的数据库里又多了一个“事件”。
尤其是在平板电脑这种用户常常用手端着的设备上,因为操控方便,用户会更频繁地拖放视频。当足够多的“事件”被累加起来,工程师们编写的计算机算法就会试图总结这些事件的共性,从而对内容吸引观众的能力作出评价。
“平均下来,观众看一个综艺节目一般会拖动两到三次,有些节目甚至会更多。”爱奇艺产品经理赵超越告诉《第一财经周刊》。
赵超越负责的新产品“绿镜”前不久刚上线,能够将原长一两个小时的综艺节目浓缩至30分钟以内,全程没有人工干预,完全依靠爱奇艺搜集到的观众行为数据做判断。
除了拖放进度条以外,爱奇艺还知道你何时在何地用什么设备看了视频,期间是否缩放过视频窗口、有没有按下暂停或者中途放弃观看。所有这一切构成了一个庞大的观众行为数据库。
爱奇艺CTO汤兴表示,压缩以后的用户行为数据每天仍达数十TB(1TB约合41张单面蓝光光盘的容量)。从某种意义上来说,视频网站比任何人,甚至观众自己都更清楚观众的喜好。
机器判断内容好坏的一大难点在于,数据上显示用户跳过的片段,并不直接等于是无聊的片段。通常,用户在看到无聊片段时,会看一会儿之后,才会觉得无聊,开始拖动进度条快进。这就对算法的设计造成了挑战。正因如此,综艺是个比较好裁的类型,而情节连贯的电视剧和影片就会困难不少。
目前爱奇艺正在尝试对综艺节目的视频进行人脸识别,将出场人物与资料库中的明星数据相对比,并据此判断每段节目的重要程度。
此外,声音也能增加机器对视频精彩程度判断的准确度。汤兴依自己看球的经验,觉得射门集锦这种东西,完全可以靠识别球门附近的某些特定类型画面,或者观众的欢呼声判断出来。
在最开始的时候,人工的准确率还是要高于机器。爱奇艺内容部门的编辑会人工在每个视频的进度条上打上看点,这通常意味着一个新的精彩片段的开始。
但随着视频观看次数增长、用户行为数据库的完善,爱奇艺的数据开发团队发现,编辑人工打的看点其实跟自己搜集到的用户数据相差很大。编辑必须在很短时间内找出看点,很多他们粗看觉得精彩的部分,都被用户跳过。
爱奇艺目前有一支50人规模的数据团队。被百度收购后,他们将视频观众的行为数据与百度搜索、百度地图等产品的用户数据交叉匹配。
与搜索引擎的数据库整合后,基础的用户形象判断,比如年龄、性别等,都不再是问题。一个用户在百度上搜索了化妆品,通常可以判定她为女性;搜了婴儿用品,能判断他有小孩。爱奇艺的数据团队也会引入百度的广告数据,看双方对用户特征的判断是否一致,改进不一致的部分。
视频网站并不像搜索引擎一样主要靠用户点击收费—在观看途中点广告会跳出视频。它更像电视,按品牌展示广告来收费。
如果仅从视频播放内容判断,网站只能根据用户爱看《乡村爱情故事》还是海派清口大致判断其来自哪些省份。如果用户在手机上安装了视频网站的应用,网站则可以更准确地判断他住什么价位的小区、可能在什么地段上班。正因如此,视频网站传统上更看重北上广深这种大城市的流量,因为广告主习惯按照地域、时段来投放广告。在缺乏细分的情况下,这些地方的用户通常被认为更有价值。
分析出更准确的用户特征,意味着爱奇艺可以说服广告主不按地域流量,而是按人群特征来投放。以往不那么被看重的、更偏远一些的地区的流量,其价值可以得到提升。在向广告主推出这个叫做“一搜百应”的产品后,爱奇艺宣称,用户因为看广告觉得厌烦而关掉视频的流失率下降了一半,再回到百度搜索投过广告的产品的比例也上升数倍。
除了广告以外,数据也在影响着节目制作的流程。传统电视台以往只能依靠调研公司的数据粗略计算收视率,还从来没有任何一种办法,能如此细致地反映出观众的喜好。爱奇艺已经开始尝试将自己获取的综艺节目数据,反馈给湖南卫视,扮演着类似调研咨询公司的角色。
对于自行制作节目的视频网站本身,第一手的观众偏好同样能够帮助他们迎合大众口味。爱奇艺正在拍的一部灵异悬疑类自制剧,其题材便由数据分析而来的用户喜好来决定。
自制剧一边拍一边播的方式,意味着制作方能很快根据前面剧集的数据来调整细节,迎合大众胃口。精编视频的制作会占用大量存储和计算资源,因此视频网站往往只在视频刚上线,也就是播放最密集的时候对用户喜好作出最终判断。
根据数据调整后续节目的制作已经逐渐成为国内视频公司自制剧的标准做法。比如优酷在自制剧《万万没想到》刚开播时尝试在片头中让大段文字一闪而过,随后搜集到的数据表明大量用户会在此时点暂停,说明用户的注意力被吸引到。制作者据此决定在续集制作中保留这个环节。
在自制剧上更早更成功的美国视频网站Netflix也是在分析网站用户行为后决定了第一部重量级自制剧《纸牌屋》应该有的元素:凯文·史派西、大卫·芬奇和政治惊悚剧。《纸牌屋》上线当季,Netflix新增了大约200万付费用户,总用户数量一举超越付费电视台HBO。
按照汤兴的设想,绿镜未来会在个性化上走得更远,为不同的观众删去不同的内容,带来独特的精编内容。
你可以在绿镜按钮的变化上看出爱奇艺对它的重视程度。最开始,只有在用户拖动进度条,显示出跳过当前内容的意愿之后,绿镜按钮才会弹出。现在几乎所有综艺节目的导航栏都会默认显示绿镜按钮,并且会在灰黑配色的按钮上用醒目的橙色标出新功能。未来绿镜支持的范围还会扩展到综艺节目以外,为电视剧提供精编版。
大数据深入节目制作的可疑之处在于,当一份份标明节目每一秒受欢迎程度的数据图放在创作者面前,他们是否还能坚持自己的灵感?如若不能,观众是不是真的想一遍遍看着大众喜欢的元素以不同形式排列重组而成的“新”作品?
尤其是在平板电脑这种用户常常用手端着的设备上,因为操控方便,用户会更频繁地拖放视频。当足够多的“事件”被累加起来,工程师们编写的计算机算法就会试图总结这些事件的共性,从而对内容吸引观众的能力作出评价。
“平均下来,观众看一个综艺节目一般会拖动两到三次,有些节目甚至会更多。”爱奇艺产品经理赵超越告诉《第一财经周刊》。
赵超越负责的新产品“绿镜”前不久刚上线,能够将原长一两个小时的综艺节目浓缩至30分钟以内,全程没有人工干预,完全依靠爱奇艺搜集到的观众行为数据做判断。
除了拖放进度条以外,爱奇艺还知道你何时在何地用什么设备看了视频,期间是否缩放过视频窗口、有没有按下暂停或者中途放弃观看。所有这一切构成了一个庞大的观众行为数据库。
爱奇艺CTO汤兴表示,压缩以后的用户行为数据每天仍达数十TB(1TB约合41张单面蓝光光盘的容量)。从某种意义上来说,视频网站比任何人,甚至观众自己都更清楚观众的喜好。
机器判断内容好坏的一大难点在于,数据上显示用户跳过的片段,并不直接等于是无聊的片段。通常,用户在看到无聊片段时,会看一会儿之后,才会觉得无聊,开始拖动进度条快进。这就对算法的设计造成了挑战。正因如此,综艺是个比较好裁的类型,而情节连贯的电视剧和影片就会困难不少。
目前爱奇艺正在尝试对综艺节目的视频进行人脸识别,将出场人物与资料库中的明星数据相对比,并据此判断每段节目的重要程度。
此外,声音也能增加机器对视频精彩程度判断的准确度。汤兴依自己看球的经验,觉得射门集锦这种东西,完全可以靠识别球门附近的某些特定类型画面,或者观众的欢呼声判断出来。
在最开始的时候,人工的准确率还是要高于机器。爱奇艺内容部门的编辑会人工在每个视频的进度条上打上看点,这通常意味着一个新的精彩片段的开始。
但随着视频观看次数增长、用户行为数据库的完善,爱奇艺的数据开发团队发现,编辑人工打的看点其实跟自己搜集到的用户数据相差很大。编辑必须在很短时间内找出看点,很多他们粗看觉得精彩的部分,都被用户跳过。
爱奇艺目前有一支50人规模的数据团队。被百度收购后,他们将视频观众的行为数据与百度搜索、百度地图等产品的用户数据交叉匹配。
与搜索引擎的数据库整合后,基础的用户形象判断,比如年龄、性别等,都不再是问题。一个用户在百度上搜索了化妆品,通常可以判定她为女性;搜了婴儿用品,能判断他有小孩。爱奇艺的数据团队也会引入百度的广告数据,看双方对用户特征的判断是否一致,改进不一致的部分。
视频网站并不像搜索引擎一样主要靠用户点击收费—在观看途中点广告会跳出视频。它更像电视,按品牌展示广告来收费。
如果仅从视频播放内容判断,网站只能根据用户爱看《乡村爱情故事》还是海派清口大致判断其来自哪些省份。如果用户在手机上安装了视频网站的应用,网站则可以更准确地判断他住什么价位的小区、可能在什么地段上班。正因如此,视频网站传统上更看重北上广深这种大城市的流量,因为广告主习惯按照地域、时段来投放广告。在缺乏细分的情况下,这些地方的用户通常被认为更有价值。
分析出更准确的用户特征,意味着爱奇艺可以说服广告主不按地域流量,而是按人群特征来投放。以往不那么被看重的、更偏远一些的地区的流量,其价值可以得到提升。在向广告主推出这个叫做“一搜百应”的产品后,爱奇艺宣称,用户因为看广告觉得厌烦而关掉视频的流失率下降了一半,再回到百度搜索投过广告的产品的比例也上升数倍。
除了广告以外,数据也在影响着节目制作的流程。传统电视台以往只能依靠调研公司的数据粗略计算收视率,还从来没有任何一种办法,能如此细致地反映出观众的喜好。爱奇艺已经开始尝试将自己获取的综艺节目数据,反馈给湖南卫视,扮演着类似调研咨询公司的角色。
对于自行制作节目的视频网站本身,第一手的观众偏好同样能够帮助他们迎合大众口味。爱奇艺正在拍的一部灵异悬疑类自制剧,其题材便由数据分析而来的用户喜好来决定。
自制剧一边拍一边播的方式,意味着制作方能很快根据前面剧集的数据来调整细节,迎合大众胃口。精编视频的制作会占用大量存储和计算资源,因此视频网站往往只在视频刚上线,也就是播放最密集的时候对用户喜好作出最终判断。
根据数据调整后续节目的制作已经逐渐成为国内视频公司自制剧的标准做法。比如优酷在自制剧《万万没想到》刚开播时尝试在片头中让大段文字一闪而过,随后搜集到的数据表明大量用户会在此时点暂停,说明用户的注意力被吸引到。制作者据此决定在续集制作中保留这个环节。
在自制剧上更早更成功的美国视频网站Netflix也是在分析网站用户行为后决定了第一部重量级自制剧《纸牌屋》应该有的元素:凯文·史派西、大卫·芬奇和政治惊悚剧。《纸牌屋》上线当季,Netflix新增了大约200万付费用户,总用户数量一举超越付费电视台HBO。
按照汤兴的设想,绿镜未来会在个性化上走得更远,为不同的观众删去不同的内容,带来独特的精编内容。
你可以在绿镜按钮的变化上看出爱奇艺对它的重视程度。最开始,只有在用户拖动进度条,显示出跳过当前内容的意愿之后,绿镜按钮才会弹出。现在几乎所有综艺节目的导航栏都会默认显示绿镜按钮,并且会在灰黑配色的按钮上用醒目的橙色标出新功能。未来绿镜支持的范围还会扩展到综艺节目以外,为电视剧提供精编版。
大数据深入节目制作的可疑之处在于,当一份份标明节目每一秒受欢迎程度的数据图放在创作者面前,他们是否还能坚持自己的灵感?如若不能,观众是不是真的想一遍遍看着大众喜欢的元素以不同形式排列重组而成的“新”作品?