想跟费德勒来场单打?AI 可以帮你安排一切

来源 :海外星云 | 被引量 : 0次 | 上传用户:vitor330
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读

  近日,网络上出现一幕网球名将“费德勒” 同“小威廉姆斯”同场竞技的情景,网球爱好者们纷纷惊掉了下巴。这场男女单打的破天荒对战,是如何发生的呢?
  原来是一名来自斯坦福大学计算机专业的博士生——张浩天,他和团队使用 AI 技术生成了上面的场景。张浩天介绍,该项目的名称为 Vid2Player,可以让你操控选手并实时生成接近真实的比赛视频。除了能让费德勒同小威对战,它还有很多有趣的功能。
  温网破天荒地被取消,多少球迷斷供,Vid2Player 或许不失为一条新的 “解渴” 路径。
  网球冠军的弟子
  事情的起因很简单。“我个人对视频理解与生成非常感兴趣,尤其是利用已有的大规模视频数据,比如在 YouTube 平台,来解决现实中遇到的问题。”张浩天说。
  此前他曾做过一个项目,是使用 AI 技术去分析、理解过去十年来美国主要的三家有线电视网络(CNN、FOX News、MSNBC)的视频数据中出现的人物及内容。由于是严肃的报道内容,不太适合将视频生成技术应用其中,这让他非常遗憾。
  所以在立项之初,他就决定挑选一个适合于做视频生成的领域,后来便选中了体育赛事类视频。原因有三。首先,体育比赛中包含丰富的人类肢体动作及与相关道具的交互,而且运动员天然遵守比赛规则,有更强的规律性及约束性,这非常适合于做视频生成;其二,这一类素材在网络上非常容易获取;其三,体育赛事的受众很广,因此未来该技术的应用前景更加多元。
  至于为什么选择网球,张浩天笑称,他的博士导师 Kayvon Fatahalian 在卡内基梅隆大学读本科阶段,曾经是美国大学生网球联赛(NCAA)的男子单打冠军,是非常优秀的运动员,选择网球或多或少受他的影响。
  Vid2Player 从立项到论文定稿,大概经历了一年时间。它更多地是基于计算机图形学来展开,其中用到的最经典的方法是视频纹理技术,该技术历史悠久,可以追溯到 “拳皇” 时代。张浩天解释道,根据用户指定的输入,比如想要放一个“大招”,程序可以选择对应的视频片段来播放,玩家就可以看到他控制的角色做出了对应的动作。“我们使用视频中的已有片段来呈现展示内容,会让生成的视频显得更加真实。而假如这个项目使用纯 AI 技术,就意味着运动员全部由模型通过神经网络生成,目前这类技术尚未成熟,生成的视频可能存在模糊、动作不连贯等问题。”
  AI 技术在 Vid2Player 的应用主要是负责决策运动员的行为。AI 会根据当前双方球员的位置及球的轨迹等信息,决定运动员接球的击打方式、落点以及击打后运动员恢复准备状态的位置。他们根据原始比赛视频中运动员的历史数据为每一名网球名将训练了这样一个模型来负责控制角色的行为和规则。以上两种技术分别负责运动员的外观和行为,再加上一个掌控全局的网球回合状态机——运动员击球前跑位、击球、击球后跑位,周而复始运行,一场完整的网球比赛就此生成。
  自由 “操控” 网球名将
  张浩天说,为了最终实现 Vid2Player,我们需要对从网络下载的视频进行必要的标注工作。首先,预先逐帧框选出两个运动员的位置,然后标注遮罩及姿势的关键点。另外,还需要知道球的轨迹,相当于在每一帧标注出球的位置。这里有两个很关键的时刻——球被运动员击打的时刻和位置、球被击打出之后,落地反弹的时刻和位置。最后,还要对现有视频中网球场地进行三维重建,将 2D 信息转换成 3D 的格式。
  值得注意的是,目前每次击球的时间都需要人为手工进行标注。张浩天解释道,由于击球的瞬间球速很快,并且球体很小,他们的 AI 暂时不能很好地定位捕捉,这里的确有待改进。除此之外,以上绝大部分的标注工作都可以通过计算机模型自动生成。包括张浩天在内的 Vid2Player 两名主力成员,本次共处理标注了 20 个小时左右的网球比赛素材。
  此外,为了让输出的网球比赛更加贴近真实场景,他们做了很多的工作:
  表现层处理完毕之后,需要加入控制层的逻辑。张浩天说,之后,你可以像玩游戏一样实时操控一方运动员,改变他的跑位及击球位置。Vid2Player 中训练的运动员模型可以实现自动针对对方的弱势手、高难度接球、近网的位置截击等等技术动作。
  比如下图,当程序的行为模型介入之后,成功“扭曲现实”,给出更加符合网球策略的击球方案。加入状态机的逻辑之后,网球赛中的每个回合都被分解,循环往复串行。
  在这些基础之上,可以做一些非常有意思的事情,比如可以编辑已有的网球比赛。有个例子是费德勒在 2019 年温网决赛痛失赛点的一个经典失误,利用 Vid2Player 可以改变费德勒击球的落点,这一小小的改变足以扭转历史,让费天王拿下 2019 温网冠军!
  你还可以改变对战双方的运动员,前提是该运动员处于视频集合当中。比如开头的费德勒同小威廉姆斯的同场竞技,甚至你还可以请费德勒自己同自己对局。如果你愿意,甚至可以录制一些原始的素材,经由 Vid2Player 处理,生成同费德勒对战的视频。
  应用前景
  是否考虑未来将 Vid2Player 应用到游戏当中,张浩天的回答是:“现在主流的游戏同我们采用完全不同的技术路线,一般情况下如果游戏厂商要做一款真人网球游戏,他们必须让运动员穿着采集器来建立 3D 模型,而 Vid2Player 目前是以纯二维的方式来解决问题。”“我们更多地是从视频生成的角度,解决了生成真人网球视频的问题。理论上,这个解决方案也适用于乒乓球和羽毛球的单打比赛中。”“目前 Vid2Player 所能做的其实比较有限,未来我们考虑让它能够兼容更多种的运动和模式。拿篮球运动来举例,届时我们希望它不再需要人类帮助定义状态机,而是让 AI 自己学会区分不同的状态,如传球、投篮、格挡等等。”视频生成比图像生成要难得多,张浩天说。在图像生成领域,利用 GAN 已经能够生成很真实的图像,如人脸等。
  但视频生成领域,纯 AI 的模型还很难生成任意的高像素、逼真的视频。其原因在于,视频的复杂度较图像要高很多,当加入时间的维度之后,空间大小暴涨。需要无限的模型容量以及无限的训练数据,才可能有一个通用的 AI 生成视频模型。他说,以目前的硬件和算力水平,这个问题尚无法解决。目前视频生成领域可以使用 AI 解决换脸的问题,原因在于脸部其实是一个非常强的约束条件,相比之下,至今还没有一款公开、通用且成熟的能够生成人体全身动作的 AI 模型。“所以,我们的出发点不是一个通用的视频生成模型,而是专注于生成某领域的视频模型。Vid2Player 因此而诞生,它其实融合了两个领域的技术,一是视频生成,二是统计学意义上的体育视频分析。”
  张浩天描述道,体育视频分析的商业前景广阔,已经有很多公司在做相关的数据挖掘的工作,比如篮球运动员的罚球命中率、抢篮板数等就是来自于此。再比如 Vid2Player 中用到的预测网球落点的技术,也是关键、且非常热门的技术。“但是此前没有人将这两个领域结合到一起,某种程度上我们做了一件前人没做过的事。希望未来这项技术可以应用到体育新闻解说或体育教学的可视化中,为受众提供一种全新的体验。”
  (综合自网络)(编辑/莱西)
其他文献
《中国飞行》向我们讲述了格拉夫·楚·卡斯特这位德国飞行员飞越中国  20世纪30年代,中国的航空摄影还远未形成气候,一位名叫卡斯特的德国飞行员怀揣着刚问世不久的卷帘式莱卡小相机来到了中国。中国壮美的自然景观深深地吸引了卡斯特,他手中的相机与所驾驶的飞机形成了完美的组合。  “首次飞行在中国的上空,我便深深地沉醉在那别具特色的山河美景中,当即决定将这些风格各异的地形与地貌拍摄下来。照片要兼顾艺术性与
2019年4月15日傍晚6点50分左右,巴黎圣母院突然起火晚9时许,火势仍未被控制。据本报记者从现场发回的报道,消防员面对熊熊烈火也感到无能为力4月15日晚11时30分,马克龙总统在火灾现场发表讲话,宣布将重建巴黎圣母院尖塔坍塌给围观民众带来巨大心理冲击  法国历史最悠久的文化遗产之一巴黎圣母院,4月15日傍晚遭遇祝融之灾。长达几个小时的熊熊大火严重破坏了圣母院的建筑结构,并导致尖塔坍塌。巴黎市府
书名:《我在乌英苗寨这三年》  ISBN:978-7-5435-8845-5  出版社:广西教育出版社  出版时间:2020年11月  类别:主题出版  作者:黄孝邦  定价:59.00元作者简介:  黄孝邦,新华社广西分社摄影记者。长期扎根基层,推出《可爱的乡村》《苗山脱贫影像志》《复苏的空巢村》《瑶山蹲点影像日记》《飞阅广西》等一系列专题报道。内容简介:  乌英苗寨位于廣西融水苗族自治县和贵州
“我估计,这是学泡泡玛特呢,把盲盒的逻辑用到了生鲜上面。”  看着开箱后泡在水中的一包生蚝,我们给出了这样的判断。而“购物群”里的另一位小区邻居,对此则表示欣慰,“至少比超市买便宜,下回再买点儿,万一能抽中大奖呢!”  生鲜盲盒、中奖、实惠?看到这些词是不是有些懵?01 生鲜盲盒赌运气  最近懂懂笔记发现,包括几位朋友以及自家社区的生鲜团购群里,突然出现了一个生鲜版盲盒的新鲜事物。  这些盲盒内的
闻名世界的荷兰艺术家文森特·梵高英年早逝,但是他曾经在英国度过三年时光。  伦敦泰特美术馆最新推出的大型画展,共展出了50幅梵高的画作,其中包括一些他的名作,都展示了他在伦敦的生活情况以及英国的景色如何影响了青年时代的梵高;而他又是如何影响了像弗朗西斯·培根这样的英国的艺术家。本次畫展上展出的《罗纳河上的星月夜》梵高名作《向日葵》和《阿尔勒的女人》  泰特美术馆的梵高画展不同寻常之处在于,走进前几
SL山口线,以有贵妇人称号的蒸汽火车行驶在JR新山口站和津和野站之间  隐身在日本岛根南部的山区里,有一个古老的小镇──津和野,这里保存了美丽的城下町,同时还世代传承了历史悠久的正统鹭舞。穿越时空之旅  群山环抱的津和野城建于14世纪初,原来的城堡已不复在,但数百年前的武家宅邸及商店街则部分被保存了下来,耐雪的传统石州土制红瓦屋顶形成独特景观。津和野町的主要街道是殿町通和本町通。殿町是旧时武士的住
科研“夫妻档”模式是把双刃剑,有人因此家庭事业双丰收,和伴侣双双走上人生巅峰;也有人面临要事业还是要顾家的抉择,或被外界质疑有利益输送关系。在20世纪60年代的美国就有一位女科学家,学院高层以“避免裙带关系”为借口阻挠她的事业,引发学界关注。  1980年,物理学家弗里达·弗莱德曼·萨尔茨曼(Freda Friedman Salzman)正在德国接受癌症治疗。反复发作的高烧折磨着她的病体,但她仍然
钻石,以其璀璨耀眼的光芒、坚硬持久的特性在情侣之间有着极为特别的含义。而作為钻石的原石,同为固体碳材料的金刚石是自然界中最坚硬的物质,在人们的生产生活之中也发挥着极为重要的作用。  金刚石之所以会被打磨成钻石,最重要的原因在于它的硬度。它不会被其他任何东西刮花,可以始终保持自身光泽。此外,它有着良好的色散特性,能将白光分散为向外扩散的彩虹光芒,增添了其自身魅力。  而近日,美国加利福尼大学尔湾分校
登嘉楼本那丽拥有蓝天碧海,阳光沙滩,婆娑椰林,渔船点点,绿草茵茵,高脚屋,母鸡带小鸡,嬉闹的孩童,传统乡村风情在今时今日的马来西亚已近乎再难寻觅。  我到过西马的几十座马来渔村,当中,登嘉楼本那丽的两座渔村——甘榜本那丽和甘榜芒谷,几乎就是我在小学上美术课时画的渔村样版──蓝天碧海,阳光沙滩,婆娑椰林,渔船点点,绿草茵茵,高脚屋,母鸡带小鸡,嬉闹的孩童……  再难寻觅的甘榜风情  本那丽背河面海,
当世界各地的企业都在用“留得青山在,不怕没柴烧”为自己打气,把生存做为唯一目标,广告业危机深重毫不令人意外,许多媒体的广告收入腰斩的数据也不令人咂舌。  新冠疫情爆发后,世界各国广告业面临的局面大同小异:居家生活需求增加,外出娱乐需求减少; 家庭内媒体使用增加,户外媒体接触减少;云经济需求上升,线下需求减少。  虽然不同国家和地区、不同行业和广告类别在疫情期间的投放有增减之别,但总体而言现在堪称广