“来吧,传球!”
“在空中被守门员拦截。”
“来吧,传球!”
“球传给了费尔南德斯。”
“来吧,传球!”
描述和评论听起来像是一位美式足球评论员,时机把握得恰到好处。然而,这个声音实际上属于 IBM 的 Live,这是一个经过训练可以评论足球比赛的人工智能系统。
上述解说来自 12 月初的一次演示,当时系统被输入了一段机器从未“看过”的近一分钟的足球比赛片段。说实话,“加油,传中”这句话总共说了四次,而第五次“传中”这个词出现在 Live 的解说中是在不同的语境中。
公平地说,视频中确实有很多十字架,但相同词语的重复反映了该项目发展的早期阶段。
“从我们研究团队的角度来看,我们还处于科研阶段”,IBM沃森研究中心人工智能技术负责人约翰·史密斯(John R. Smith)表示,“当我们给系统一段全新的视频片段时,我们并不知道它会说些什么。很多时候,我们得通过回溯模型进行自我学习,回答‘系统为什么这么说’这个问题。我们的算法和系统还有很多需要学习和改进的地方,但至少现在,当我们给它一段完全陌生的足球视频片段时,它能够说出些什么。而且在很多情况下,它的描述相当准确。同时,我们确实发现它的解说中存在大量冗余和重复的内容。”
Live 是 IBM 之前自动生成高尔夫和网球精彩片段的项目的一个分支——这两个项目都由史密斯领导,团队成员也大体相同。IBM 于 2019 年在温哥华举行的顶级计算机科学会议上首次向公众推出了 Live,希望征求建设性的反馈意见,并引起人们对此类系统所面临的挑战的关注。
为了使 Live 有效运行,AI 必须识别视频中正在发生的事情,然后用自然、富有表现力的语言将其说出来。最终,自动解说员还需要能够在实时评论中完成所有这些操作,尽管这不是 IBM 团队当前的系统要求之一。“目前这还不可能,”史密斯说。“我们不知道,无论是在学术工作中还是在虚拟系统中,存在任何可以以端到端方式训练 AI 系统来做到这一点的技术。”
IBM 正在尝试首先解决一个重要的问题,希望让系统具有更强的适应性。AI 研究团队正在努力让 Live 能够接受任何形式的视频数据输入,而不是依赖于使用与足球和球员相关的高级跟踪数据。体育媒体市场正在逐渐看到各种可以帮助自动化赛事直播的系统,例如,,和,等等。但这些系统仍然需要人类参与现场评论;Live 将是一种与自动视频处理技术配合使用的自动音频处理技术,尽管史密斯表示该项目仍处于早期阶段,其开发水平无法支持这样的想法。
“我们还没有划一条清晰的界线来定义这个项目对于整个市场意味着什么,以及它如何融入目前的比赛直播环境,”他说,“我们依然坚定地戴着科学家的帽子,秉承学术研究的严谨性,还在探索机器能否从现有的视频和解说中学习,然后独立完成整个解说流程。”
“足球和一般体育运动都是非常好的用例,”他补充道。“随着世界上最先进的技术即将能够将视频处理与语言处理结合起来,像这样的用例可以继续提高需求并突破技术所能达到的界限。通过使用基于学习的方法在足球等复杂领域进行研究,一旦解决了一些挑战,将更容易将相关技术扩展到其他领域。”
在这个起步阶段,IBM 始终认为解说是对未知事件的描述,并试图让 Live 不落入固定套路。最优秀的比赛解说员往往能够注意到场上阵型的变化,并找出一系列动作和行为之间的关系——解说依靠的是预测,而不是简单的描述——这正是 IBM 的产品已经开始做的。毕竟,它一直在说“来吧,传中”,而不是“刚才有一个传中球”。