Lyra 是谷歌去年开源的低比特率语音编解码器,与开放的 AV1 编解码器相结合,可以在 56kbps 的连接上实现语音聊天。Lyra 利用机器学习和其他技术来实现可在 3kbps 下运行的极低比特率语音压缩。
谷歌去年正式开源 Lyra,近日宣布推出 Lyra V2。与 V1 相比,Lyra V2 采用了新架构、支持更多平台、提供可扩展的比特率、具有更好的性能,可生成质量更高的音频。
采用新架构
Lyra V2 基于称为 SoundStream 的端到端神经音频编解码器。该架构在传输通道之前和之后都有一个残差矢量量化器 (RVQ,它将编码信息量化为比特流并在解码器端对其进行重构。
提供更好的性能
新架构使延迟从之前版本的 100ms 减少到 20ms。在这方面,Lyra V2 可与目前使用最广泛的音频编解码器 Opus for WebRTC 相媲美,其典型延迟分别为 26.5ms、46.5ms 和 66.5ms。
Lyra V2 的编码和解码速度也比以前的版本快五倍。在 Pixel 6 Pro 手机上,Lyra V2 需要 0.57ms 来编码和解码 20ms 的音频帧,比实时快 35 倍。降低的复杂性意味着比 V1 更多的手机可以实时运行 Lyra V2,从而降低了整体电池消耗。
生成质量更高的音频
在多年来机器学习研究的推动下,生成的音频质量也得到了提高。听力测试表明,Lyra V2 在 3.2 kbps、6 kbps 和 9.2 kbps 的音频质量(以 MUSHRA
分数衡量,表示主观质量)分别以 10 kbps、13 kbps 和 14 kbps 的速度达到 Opus。
Lyra V2 继续提供 Lyra V1 中已有的内容(构建工具、测试框架、C++ 编码和解码 API、信号处理工具链和示例 Android 应用程序)。使用过 Lyra V1 API 的开发者会发现 V2 API 看起来很熟悉,当然也有一些变化。例如,现在可以在编码期间更改比特率。此外,模型定义和权重包含在 .tflite 文件中。与 V1 一样,此版本是 beta 版本,预计 API 和比特流会发生变化。