音视频行业的“在场感”,是工程师的浪漫,不是商业的现实
FrankXYZ| 探显家Attention| 2026-04-29
【流媒体网】摘要:音视频发展或将从追求清晰转向还原真实。

  最近读到一篇来自编解码偏向工程视角的文章,主题是一个看似简单却被长期忽视的问题:

  音视频技术在过去二十年里取得了几乎所有可量化指标上的进步:分辨率从 480p 一路爬升到 8K;码率效率从 H.264 到 H.265 再到 AV1、VVC 持续翻倍;端到端延迟从秒级压缩到了毫秒级;网络带宽以指数速度增长。但为什么我们仍然觉得没有 "presence(沉浸/临场/在场感)"?为什么开了一天视频会议依然疲惫?为什么再清晰的画面、再保真的声音,也无法替代一次面对面的交流?

  作者给出的诊断也相当犀利。

  他认为,过去二十年的音视频技术进步,本质上是在解决一个被错误定义的问题。整个行业把流媒体当作一条"传输管道"来优化——如何把更多的数据、更快地、通过更宽的管道送达终端。每一个技术环节都在自己的指标上做局部优化:编码器追求压缩比,CDN 追求吞吐量,播放器追求起播速度,网络层追求带宽。每一项单独看都成绩斐然,但合在一起,并没有让媒介体验变得更"真"。

  原因在于,presence 不是一个可以被任何单一指标衡量的属性,它是一种系统级的协同输出。它需要画面、声音、运动、时序在毫秒级上保持一致,需要空间方位感、深度感、响应感同时成立。任何一个维度的错位(画面和声音差几十毫秒、声音失去空间方位塌缩成单声道、动作的连续性被压缩算法打断)人脑都会代偿性地"补全"这些缺口。每一处错位单独看都很小,但合起来就是疲惫,是"连着但没在一起"的距离感。

  作者特别指出,presence 之所以被长期忽视,是因为它无法被简单测量。像素、码率、帧率、PSNR、VMAF,这些指标可以塞进图表、写进 KPI、做成 benchmark;而 presence 依赖多个信号在时间维度上的协同,依赖大脑是否能本能地识别这种协同,这件事很难量化。可量化的指标会被持续优化,不可量化的属性则被默默忽略,这是工程文化的盲点。

  而现在,作者认为情况正在改变。

  技术栈的几个关键层第一次同时成熟到了一种可以协同工作的程度:下一代 codec(VVC、未来的 ECM 标准)能在更低码率下保留运动和深度的精细度;空间音频技术让声音从单声道塌缩里走出来、重新拥有三维方位;5G 正在向 6G 演进的过程中,网络优化目标正在从原始吞吐转向响应性;AI 驱动的自适应编码可以动态决定"哪些数据该留、哪些该丢",把比特预算优先分配给人类感知最敏感的线索。所有这些关键层整合在一起,第一次让"系统级地工程化 presence"变得可行。

  作者的结论是:如果说过去二十年是关于让媒介更"清晰",未来二十年应该是关于让媒介更"真实",从而回到人类如何感知"在一起"这件事的本源,把 presence 作为系统级目标来工程化。

  这套叙事在技术上是成立的,逻辑是自洽的,方向也确实指向了一个被长期忽视的真问题。但读完之后我想追问的是:如果 presence 真的是一个可以被工程化的目标,过去十年商业上最成功的流媒体产品形态,为什么大多数都长得不像它?

  先把问题精确化。

  C 端流媒体在过去十年里,确实分化出了两种主流产品形态。一种是 Netflix、Disney+、HBO Max 这类长视频订阅服务,单集 30 到 60 分钟,鼓励用户完整观看;另一种是 TikTok、YouTube Shorts、以及 Roku Channel、Pluto TV、Tubi 这类 FAST 平台和短视频平台,鼓励用户快速浏览、频繁切换。前者可以视作"沉浸路径",后者可以视作"切换路径"。

  需要澄清的是:这两条路径并不互相排斥,许多平台同时在做。Netflix 推出广告版后引入了更密集的广告插入;YouTube 同时运营长视频和 Shorts;Disney+ 也在测试更短的内容形态。所以"沉浸路径还活着",只是增量去哪了?

  从过去五年的数据看,增量几乎全部流向切换路径。TikTok 在 2024 年的全球月活超过 15 亿,平均每用户每天打开 App 的次数和总时长都在持续增长;YouTube Shorts 的日活观看量超过 700 亿次;FAST 频道在美国的广告收入从 2020 年的不足 20 亿美元增长到 2024 年的接近 100 亿美元。同期,传统订阅长视频的用户增长在大多数成熟市场已经接近饱和,价格战和打包销售成为主旋律。

  那么,切换路径为什么在商业上跑得更快?

  一个常见的解释是"用户注意力变短了"。但这个解释循环论证:用户注意力之所以变短,正是因为产品形态在持续训练他们变短。真正的解释应该从供给侧的经济学去探索。

  切换路径在单位时间里的广告库存密度,结构性地高于沉浸路径。一小时的 Netflix 广告版剧集,平均承载 4 到 5 分钟、8 到 10 个广告位;一小时的 TikTok 浏览,按当前广告插入频率(每 4 到 6 条原生内容插一条广告),可以产生 30 到 50 次广告曝光。即使按更低的单次 CPM 计算,后者的每小时变现潜力依然更高。

  当然,得特别说明的是,沉浸内容的单次广告 CPM 通常更高。体育直播 CPM 长期比一般 CTV 广告高 30% 到 50%;高质量长剧集的品牌广告主溢价也明显。沉浸不是不能变现,而是变现密度受内容节奏约束。每集剧的广告插入点是有限的、结构化的,不能随意加密。

  所以两条路径的根本差异是变现曲线不同:沉浸路径靠单次曝光的高溢价,切换路径靠曝光次数的规模化。在过去五年里,规模化曲线吃掉了大部分增量。一方面是因为切换型产品的边际获客成本更低,另一方面是因为程序化广告基础设施 DSP、SSP、DMP 在过去十年里的所有效率提升,几乎都是围绕"高频低单价曝光"这个场景优化的。沉浸内容的广告系统反而显得相对原始。

  那"在场感"在这个商业格局里处于什么位置?

  那篇文章里工程师视角提出的"系统级 presence"——画面、声音、运动、时序在毫秒级协同——天然属于沉浸路径。它需要观众完整地进入一个体验,需要内容时长足够支撑沉浸的建立,需要播放环境足够稳定。

  这并不意味着切换路径完全用不上这些技术。AI 自适应编码会被切换路径吸收,因为它能降低 CDN 成本、提升起播速度;空间音频在 AirPods 上的普及会让短视频也享受到一部分声场红利。但这些技术在切换路径里的使用方式,是作为基础设施被消化,而不是作为产品定义的核心卖点。

  真正把 presence 作为产品核心卖点的场景,在 C 端娱乐媒体行业里只有几个:体育直播、电影院级流媒体(Apple TV+ 的部分旗舰内容、IMAX Enhanced 类合作)、以及未来可能出现的 Vision Pro 类沉浸式内容。这些场景的共同特征是用户付费意愿与体验质量直接挂钩,且都不是大众市场的主战场。

  体育值得单独说。体育是 C 端流媒体里少数仍然要求观众"完整在场"的内容类型,也是 Apple、Amazon、Netflix、YouTube 都在不计成本抢夺的赛道。但要注意的是:平台抢体育版权的核心动机,并不是因为"在场感"本身有商业价值,而是因为体育是少数能在直播窗口内同时完成"高 CPM 广告库存 + 高订阅黏性 + 防盗版护城河"的内容类型。在场感是体育商业逻辑的副产品,不是它的因。

  到 B 端就完全是另一回事。Zoom、Teams、Google Meet 的付费决策者是企业 IT,他们愿意为"开一天会不累"支付溢价,因为这直接关系到员工生产力。空间音频和低延迟视频的最早大规模商业落地,发生在企业通讯而不是消费娱乐里。这是 presence 目前最确定的商业归宿。

  回到工程师的那篇文章。

  他们的诊断没有错,技术栈的协同确实正在让 presence 第一次变得可工程化。但工程可行性和商业必然性是两件事。技术上能做到的,未必会成为下一个主流产品形态;会成为主流的,一定是那些既技术可行、又能被现有商业模式吸收的东西。

  这并不意味着"在场感技术"会被冷藏。它会被部分吸收、部分应用、部分推进。AI 编码效率、空间音频、低时延网络,会在各自的场景里持续落地。但把它们打包成"系统级在场感"作为流媒体行业的下一个主战场,可能高估了 C 端娱乐对它的真实需求。

  C 端娱乐的下一个主战场,更可能是注意力分发效率的战争:谁能在更短时间内让用户决定是否停留、谁能在更高频率上完成有效的广告曝光、谁能让用户在一次 session(用户这次打开 App/打开电视,从进入到离开这一整段连续使用时间,被看作一个 session)里消费更多内容而不感到疲倦。codec 进步会服务于这个方向,AI 会服务于这个方向,连带的 presence 改善只会作为副产品零星出现。

  一个反共识的预判。

  未来,presence 作为技术议程会持续推进,但它的商业落地会高度集中在三个非主流场景:体育直播、企业通讯、高端硬件(Vision Pro 类)。它不会成为 Netflix、Disney+、Roku、Google TV 这些大众 CTV 平台的产品定义核心。这些平台的工程优先级,会继续围绕起播速度、推荐效率、广告加载、跨内容切换体验展开。

  换一种说法:presence 会成为 to B 和高端 to C 的标配,但不会成为 to C 的卖点。它会被卖给企业、卖给体育迷、卖给愿意为 Apple Vision Pro 付 3500 美元的早期采用者,但不会被卖给在沙发上随便打开 Roku 看 FAST 频道的普通家庭。

  后者的需求被定义为"轻松、便捷、不需要专注"。这个定义是过去十年所有平台、广告主、推荐算法共同训练出来的——用户和平台已经达成了一种默契:内容是用来切换的,不是用来沉浸的。要打破这个默契,需要可能是一种新的商业模式。

  技术和商业模式是互相塑形的,但商业模式往往起“选拔”和“放大”的作用。

责任编辑:赵莹

分享到:
版权声明:凡注明来源“流媒体网”的文章,版权均属流媒体网所有,转载需注明出处。非本站出处的文章为转载,观点供业内参考,不代表本站观点。文中图片均来源于网络收集整理,仅供学习交流,版权归原作者所有。如涉及侵权,请及时联系我们删除!