谁说阿尔法狗们只会下棋玩游戏?DeepMind用它们给油管视频做压缩

机器之心 2022-02-12

选自DeeMind博客

作者:The MuZero Applied Team

机器之心编译

机器之心编辑部

在保证视频质量相似的前提下,DeepMind 的 MuZero 可以降低大约 4% 的比特率。

2016 年,DeepMind 推出了第一个能够在围棋中击败人类的智能体——AlphaGo。在之后的几年里,其继任者 AlphaZero 和MuZero继续向通用算法进发,用更少的预定义知识掌握了更多的游戏。例如,MuZero 在没有被告知规则的情况下就掌握了象棋、围棋、日本将棋和雅达利游戏。

然而,说来说去,这些应用还是没能脱离游戏的范畴,能不能用它们来解决现实世界的问题一直是外界关注的焦点。

昨天,DeepMind 在博客中公布了一个好消息:他们的 MuZero 已经向现实世界迈出了第一步,展现出了在优化视频压缩质量方面的潜力。相关细节呈现在一篇预印版论文中。

论文链接:https://storage.googleapis.com/deepmind-media/MuZero/MuZero%20with%20self-competition.pdf

在这项研究中,DeepMind 的研究者和 YouTube 展开了合作,一起探索 Muzero 在视频压缩领域的潜力。分析人士预测,流媒体视频将占据互联网流量的绝大部分。为了节省带宽,视频在传输之前就必须进行压缩。这样一来,如何将压缩后的视频画质、流畅度等损失降到最小就成了视频厂商关注的重要问题,也是一个有望用强化学习解决的问题。DeepMind 的 Muzero 可以在保证视频质量相似的前提下降低大约 4% 的比特率。

大多数在线视频依赖于编解码器在视频的源头对其进行压缩或编码,然后通过互联网将其传输给观众,最后再解压或解码播放。这些编解码器为视频中的每一帧做出多个决定。经过几十年的手工工程,这些编解码器已经实现了一定程度的优化,在视频点播、视频通话、视频游戏和虚拟现实等多个领域得到了应用,但还有很大的优化空间。

由于强化学习特别适用于像编解码器那样的顺序决策问题,所以 DeepMind 就在这个问题上展开了探索。

他们的首个研究对象是被 YouTube 和其他流媒体服务广泛使用的 VP9 编解码器(特别是开源版本 libvpx)。与其他编解码器一样,使用 VP9 的服务提供商需要考虑比特率。比特率是指发送每帧视频所需的 1 和 0 的数量,是服务和存储视频所需的计算量和带宽的主要决定因素,影响视频加载所需时间、分辨率、缓冲和数据使用等很多指标。

在编码视频时,编解码器使用之前帧的信息来减少未来帧所需的比特数。

在 VP9 中,优化比特率最直接的方法是借助速率控制模块中的量化参数(QP)。这个参数决定了每一帧要应用的压缩级别。给定一个目标比特率,视频帧的 QP 按顺序决定,以实现整体视频质量最优化。直观地说,我们应该为复杂场景分配较高的比特率(较低的 QP),为静态场景分配较低的比特率(较高的 QP)。QP 选择算法解释了视频帧的 QP 值如何影响其他视频帧的比特率分配和整体视频质量。强化学习对于解决这类序列决策问题特别有帮助。

对于 VP9 处理的每一帧视频,MuZero-RC 取代 VP9 的默认速率控制机制,决定应用的压缩级别,从而在较低的比特率下获得相似的质量。

MuZero 结合了搜索能力和学习环境模式并做出相应计划的能力,在各种任务中实现了超越人类的表现。这种方法在大型的组合动作空间中特别有效,使其成为解决视频压缩速率控制问题的理想候选方案。

然而,要让 MuZero 处理这一现实世界的问题,还需要解决一系列全新的问题。例如,上传到 YouTube 等平台的视频集在内容和质量上存在差异;任何智能体都需要泛化至不同的视频,包括部署后的全新视频。相比之下,棋盘游戏往往只有一个已知环境。而在视频任务上,许多其他的指标和约束会影响最终的用户体验和比特率节省程度,比如 PSNR(峰值信噪比)和比特率约束。

为了应对这些挑战,DeepMind 为 Muzero 创建了一种名为「自我竞争(self-competition)」的机制,它通过比较智能体当前的性能和历史性能,将视频压缩的复杂目标转化为一个简单的 WIN/LOSS 信号。这使得一组丰富的编解码器需求转换成了一个简单的信号,再由智能体进行优化。

通过学习视频编码的动态变化和确定如何最好地分配比特,MuZero 速率控制器(MuZero-RC)能够在不降低质量的情况下降低比特率。QP 选择只是编码过程中众多编码决策中的一个。虽然几十年的研究和工程已经产生了高效的算法,DeepMind 还是设想了单一的算法可以自动学习作出这些编码决定,以获得最佳的率失真权衡。

使用先前 QP 启发式方法编码的视频

使用 MuZero-RC 编码的视频。借助 MuZero-RC,每个视频都能在降低所需的比特率的情况下获得相似的质量。实验表明,在大量不同的 YouTube 实时视频中,比特率平均降低了 4% 。

除了视频压缩,这项研究的意义还在于他们迈出了将 MuZero 应用于现实世界的第一步,证明了强化学习智能体可以用于解决现实世界的问题。DeepMind 表示,通过创建具有一系列新能力的智能体来改进跨领域的产品,他们可以帮助各种计算机系统变得更快、更自动化。公司的长期愿景是开发一个单一算法,用于优化数以千计的跨越各种领域的现实世界系统。

两个鬼故事excellent集团千篇一律的意思糌粑超级好听黄姓男孩起名请示格式六间房直播伴侣小孩起名测试电子产品商标起名取名起名大全董姓罗氏婴儿起名大全注册公司起名字去哪里查重姓薛男宝宝起名罗氏起名男孩子男取名楚辞女诗经取名起名大全光谷金融港西部荒野22016年1月12日银泰国际皇马vs多特恐龙战队美版快穿之完成你的执念适合起名字的宋词精选国际闲人康熙微服私访记1科兴疫苗第三针autumnfalls赤之沙尘适合姑娘起名的古诗词瘦身排行榜八字缺土取名起名少年生前被连续抽血16次?多部门介入两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”淀粉肠小王子日销售额涨超10倍高中生被打伤下体休学 邯郸通报单亲妈妈陷入热恋 14岁儿子报警何赛飞追着代拍打雅江山火三名扑火人员牺牲系谣言张家界的山上“长”满了韩国人?男孩8年未见母亲被告知被遗忘中国拥有亿元资产的家庭达13.3万户19岁小伙救下5人后溺亡 多方发声315晚会后胖东来又人满为患了张立群任西安交通大学校长“重生之我在北大当嫡校长”男子被猫抓伤后确诊“猫抓病”测试车高速逃费 小米:已补缴周杰伦一审败诉网易网友洛杉矶偶遇贾玲今日春分倪萍分享减重40斤方法七年后宇文玥被薅头发捞上岸许家印被限制高消费萧美琴窜访捷克 外交部回应联合利华开始重组专访95后高颜值猪保姆胖东来员工每周单休无小长假男子被流浪猫绊倒 投喂者赔24万小米汽车超级工厂正式揭幕黑马情侣提车了西双版纳热带植物园回应蜉蝣大爆发当地回应沈阳致3死车祸车主疑毒驾恒大被罚41.75亿到底怎么缴妈妈回应孩子在校撞护栏坠楼外国人感慨凌晨的中国很安全杨倩无缘巴黎奥运校方回应护栏损坏小学生课间坠楼房客欠租失踪 房东直发愁专家建议不必谈骨泥色变王树国卸任西安交大校长 师生送别手机成瘾是影响睡眠质量重要因素国产伟哥去年销售近13亿阿根廷将发行1万与2万面值的纸币兔狲“狲大娘”因病死亡遭遇山火的松茸之乡“开封王婆”爆火:促成四五十对奥巴马现身唐宁街 黑色着装引猜测考生莫言也上北大硕士复试名单了德国打算提及普京时仅用姓名天水麻辣烫把捣辣椒大爷累坏了

两个鬼故事 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化