2026年5月28日-29日,流媒体网主办的「姑苏论道暨第31届智能视听与科技创新产业论坛」在苏州隆重举行。
本届论道以“势聚AI 屏见未来”为主题,围绕产业升级展开积极探讨。5月28日上午的主论坛上,捷成科技副总裁、橘视厅(广州)科技有限公司 副总经理 殷宇安发表了题为《如何利用视频理解满足千人千面的试吃体验》的主题演讲。
谢谢流媒体网邀请橘视厅参与本次大会。我们公司虽然成立时间不长,但母公司捷成股份是行业老兵,多年来始终深耕长视频版权运营领域。
当下AI与短视频浪潮席卷行业,我们也一直在思考:传统长视频业务该如何破局?说实话,我压力不小。前面听完吴总、郭总的分享,很多观点都已谈及,不过我还是结合自身业务,和大家交流一些我们的思考。
行业痛点:长视频发展现存的核心难题
近些年长视频行业发展步履维艰,核心原因在于用户消费习惯彻底改变。短视频“短、快”的特点重塑了用户心智,大家如今更偏爱短视频、微短剧,长视频的发展之路愈发艰难。而橘视厅作为专注长视频资产运营的企业,我们首先思考的,就是如何坚守核心主业、寻求突破。立足自有长视频资产寻找破局方向,是我们当下的核心思路。
结合行业现状来看,目前长视频主要面临几个问题。
第一是商业模式困境。短视频大多采用免费模式,主要依靠信息流广告变现,不会过度打扰用户观看体验。而长视频以付费观看为核心模式,同时搭配线性插播广告,一旦广告弹出,会直接打断用户的沉浸式观看体验,这是两者最本质的差异。
第二是产品体验问题。短视频操作灵活,用户可随心点开、快速划走;但长视频拥有完整的剧情起承转合,观看需要投入时间与精力,用户选择观看与否的决策成本很高,体验门槛更高。
第三是宣发效率难题。如今早已不是“酒香不怕巷子深”的时代,长视频宣发提效成为一大挑战。行业大多将优质资源倾斜给头部影视作品,可中腰部长视频同样是企业重要资产,如何盘活这部分内容,是全行业的共性难题。短视频擅长前置“爽点”吸引用户,而长视频有着固定叙事节奏,两者宣发逻辑截然不同。
俗语讲“一寸短一寸险,一寸长一寸强”,长视频有自身优势,但上述痛点始终制约发展。而AI与智能体的出现,让我们看到了全新机遇。
长视频宣发环节,需要从正片中提炼高光片段、引流钩子、精彩切片,这项工作过去基本依靠人工完成。我们走访过多家长视频代运营公司发现,这类岗位招聘并不侧重学历和工具使用,首要考核标准是阅片量。从业者只有看过足够多的影视内容,才能精准提炼影片亮点。据统计,长视频宣发环节中,人力成本占比超35%。
随着视频理解大模型、智能体技术不断成熟,未来1-2年内,这类人工工作有望被快速替代。我们常做一个比喻:短视频是快餐,长视频是正餐。用户不会仅凭短视频片段就付费观看正片,这就需要我们为长视频打造大量“引流小样”——提炼精彩片段吸引用户、制造期待,同时做到不剧透,引导用户回归长视频平台观看完整内容。
技术布局与产品落地
基于以上思路,过去一年多,捷成股份与橘视厅持续自研视频理解模型,并在此基础上搭建专属智能体。我们将视频理解能力划分为四个层级:
1. L0 记忆层:等同于普通观众视角,也是当前通用大模型可实现的能力。能够快速识别影片高光时刻、演员、场景、动作等基础内容。
2. L1 叙事梳理层:超越通用大模型能力,对标资深影迷。可完整梳理整部影视内容的叙事脉络,精准定位每段剧情、反转情节对应的视频镜头。该层级功能我们计划在今年下半年落地应用。
3. L2 内容拆解层:对标专业影视博主。长视频拥有多条人物线、叙事线,还会运用道具、镜头等多种叙事手法,该层级可按不同主角、故事线,完成内容多角度拆解解读。
4. L3 镜头解读层:也是我们技术研发的终极目标。可深度识别镜头语言,读懂导演与剪辑师的创作意图。
目前我们已全面落地L0层级能力,下半年将上线L1层级能力,并同步落地对应运营应用。
围绕四级视频理解模型,我们打造了四类配套产品,覆盖多终端与B端合作场景:
一是OTT端产品:目前暂未接入视频理解模型,计划今年下半年完成技术搭载,支持用户直接搜索、查看影片精彩片段。
二是移动端产品:已初步接入相关能力,支持按人物、动作、场景组合检索视频片段,可实时生成高燃内容剪辑。整套流程分为视频向量化、实时推理两步,从用户发起检索到输出片段,耗时约10秒,后续还将持续优化提速。
三是车载端产品:同步完成布局,适配全场景大屏使用需求。
四是B端合作产品:我们将自研技术封装为API、SDK接口,顺应智能体发展趋势,搭建对接平台,对外输出技术能力,赋能行业合作伙伴。
核心玩法:双智能体协同,读懂模糊用户需求
在技术选型上我们也有深刻体会:通用大模型如同全科医生,无法完成专科“心脏手术”。影视行业需要垂直专业模型。我们手握20万小时正版节目素材,已完成数据向量化处理;今年下半年,将完成8000部影视内容的结构化、向量化处理,一方面面向C端用户落地,另一方面全面开放能力给B端合作伙伴。
我们核心探索智能体对智能体的协同模式:一个智能体作为影视领域专家,解读影片内容;另一个智能体负责解析用户模糊的表达意图。
普通用户只会用“精彩反转”“高能画面”这类口语化词汇检索内容,而商业影视创作有成熟的剧情架构逻辑。我们发现,绝大多数商业电影、剧集,都可以拆解为10类剧情、15种叙事节拍。依托这套方法论,智能体可以精准匹配用户需求,找到对应镜头片段。
举个例子:用户想要查找影片里的反转镜头,智能体先判定影片类型,再结合剧情逻辑拆解情节,精准定位目标画面。目前这套多智能体协同模式,已在我们内部移动端、OTT端完成闭环测试。同时我们也在机顶盒端完成了智能体部署,相关技术均可落地商用。
展示下我们智能化媒资系统后台截图。我们对每一部影视资产做颗粒度细化拆解,区分场景、剧情节点等维度。内容拆解越精细,前端调取、内容匹配就越精准,无论是服务C端用户,还是支撑合作伙伴调用内容,都能实现更好的体验。
今天时间有限,关于视频理解模型就先简要介绍。明天下午宴会厅B厅,我们还将开设AI大讲堂,深度分享AI智能体、多智能体协同,以及长视频C端、B端运营的更多思考。
橘视厅是行业新锐企业,依托母公司积累了丰富的长视频运营经验,目前已形成完整产品矩阵。真诚希望能和在座各位企业携手同行,在AI与智能体时代,一起为长视频行业探索破局之路。
我的分享到此结束,谢谢大家!
责任编辑:凌美
24小时热文
流 • 视界
专栏文章更多
- [常话短说] 【解局】这些广电评为“A”级纳税信用人! 2026-05-29
- [常话短说] 【解局】广电出了个“刘三姐”!为一线广电人点赞! 2026-05-28
- [常话短说] 【解局】这不是广电员工的错,是时代发展所然?! 2026-05-27
- [探显家] 客厅主权:Creator TV 已经像电视,广告预算却还停在手机时代? 2026-05-27
- [常话短说] 【解局】广电注意“别挨罚”,市场监管总局发布! 2026-05-26





