姑苏论道|橘视厅殷宇安:如何利用视频理解满足千人千面的试吃体验

| 流媒体网| 2026-05-28

【流媒体网】摘要：为什么用户不再“轻易买单”长视频？主要原因：注意力严重分流，决策门槛显著降低，宣发人力成本困局。

　　2026年5月28日-29日，流媒体网主办的「姑苏论道暨第31届智能视听与科技创新产业论坛」在苏州隆重举行。

　　本届论道以“势聚AI 屏见未来”为主题，围绕产业升级展开积极探讨。5月28日上午的主论坛上，捷成科技副总裁、橘视厅（广州）科技有限公司副总经理殷宇安发表了题为《如何利用视频理解满足千人千面的试吃体验》的主题演讲。

　　谢谢流媒体网邀请橘视厅参与本次大会。我们公司虽然成立时间不长，但母公司捷成股份是行业老兵，多年来始终深耕长视频版权运营领域。

　　当下AI与短视频浪潮席卷行业，我们也一直在思考：传统长视频业务该如何破局？说实话，我压力不小。前面听完吴总、郭总的分享，很多观点都已谈及，不过我还是结合自身业务，和大家交流一些我们的思考。

　　行业痛点：长视频发展现存的核心难题

　　近些年长视频行业发展步履维艰，核心原因在于用户消费习惯彻底改变。短视频“短、快”的特点重塑了用户心智，大家如今更偏爱短视频、微短剧，长视频的发展之路愈发艰难。而橘视厅作为专注长视频资产运营的企业，我们首先思考的，就是如何坚守核心主业、寻求突破。立足自有长视频资产寻找破局方向，是我们当下的核心思路。

　　结合行业现状来看，目前长视频主要面临几个问题。

　　第一是商业模式困境。短视频大多采用免费模式，主要依靠信息流广告变现，不会过度打扰用户观看体验。而长视频以付费观看为核心模式，同时搭配线性插播广告，一旦广告弹出，会直接打断用户的沉浸式观看体验，这是两者最本质的差异。

　　第二是产品体验问题。短视频操作灵活，用户可随心点开、快速划走；但长视频拥有完整的剧情起承转合，观看需要投入时间与精力，用户选择观看与否的决策成本很高，体验门槛更高。

　　第三是宣发效率难题。如今早已不是“酒香不怕巷子深”的时代，长视频宣发提效成为一大挑战。行业大多将优质资源倾斜给头部影视作品，可中腰部长视频同样是企业重要资产，如何盘活这部分内容，是全行业的共性难题。短视频擅长前置“爽点”吸引用户，而长视频有着固定叙事节奏，两者宣发逻辑截然不同。

　　俗语讲“一寸短一寸险，一寸长一寸强”，长视频有自身优势，但上述痛点始终制约发展。而AI与智能体的出现，让我们看到了全新机遇。

　　长视频宣发环节，需要从正片中提炼高光片段、引流钩子、精彩切片，这项工作过去基本依靠人工完成。我们走访过多家长视频代运营公司发现，这类岗位招聘并不侧重学历和工具使用，首要考核标准是阅片量。从业者只有看过足够多的影视内容，才能精准提炼影片亮点。据统计，长视频宣发环节中，人力成本占比超35%。

　　随着视频理解大模型、智能体技术不断成熟，未来1-2年内，这类人工工作有望被快速替代。我们常做一个比喻：短视频是快餐，长视频是正餐。用户不会仅凭短视频片段就付费观看正片，这就需要我们为长视频打造大量“引流小样”——提炼精彩片段吸引用户、制造期待，同时做到不剧透，引导用户回归长视频平台观看完整内容。

　　技术布局与产品落地

　　基于以上思路，过去一年多，捷成股份与橘视厅持续自研视频理解模型，并在此基础上搭建专属智能体。我们将视频理解能力划分为四个层级：

　　1. L0 记忆层：等同于普通观众视角，也是当前通用大模型可实现的能力。能够快速识别影片高光时刻、演员、场景、动作等基础内容。

　　2. L1 叙事梳理层：超越通用大模型能力，对标资深影迷。可完整梳理整部影视内容的叙事脉络，精准定位每段剧情、反转情节对应的视频镜头。该层级功能我们计划在今年下半年落地应用。

　　3. L2 内容拆解层：对标专业影视博主。长视频拥有多条人物线、叙事线，还会运用道具、镜头等多种叙事手法，该层级可按不同主角、故事线，完成内容多角度拆解解读。

　　4. L3 镜头解读层：也是我们技术研发的终极目标。可深度识别镜头语言，读懂导演与剪辑师的创作意图。