CCBN2024主题报告会|邬贺铨:广电是最适合生成式大模型的行业之一

橙子| 流媒体网| 2024-04-23

【流媒体网】摘要：大模型加持新视听,广电网进阶新格局。

　　相关阅读：CCBN2024主题报告会|曹淑敏提出四大期望

　　专题推荐：直击——CCBN2024，精彩看点

　　2024年4月23日，CCBN2024主题报告会在北京首钢园冰球馆举行，2500余人参会。中国工程院院士邬贺铨在演讲中指出，广电行业是最适合采用生成式大模型的行业之一——广电系统基本具备AI的开发应用所需的算力资源、算法资源、数据资源和网络资源。

　　在语言大模型的基础上开发视频大模型

　　关于当下，邬贺铨谈到AI与智能涌现。他说人工智能已经从第一代的符号主义、专家经验进入了第二代的连接主义、数据驱动，将来还会走向第三代的通用AI。机器学习是按照算法来不断微调神经网络中各神经元的权重与偏置(即模型的参数)。参数、数据、算力同步扩大将从量变到质变驱动智能涌现。

　　邬贺铨说，在语言大模型的基础上可以开发出视频大模型，但视频比语言要复杂的多，数据量也大得多。在视频大模型里希望做无损压缩，会用到扩散模型。他做了个简单类比——扩散模型就像一滴有颜色的墨水滴到水杯里，它会慢慢扩散，不过水的扩散过程是不可逆的，在视频大模型上用到的是可逆的扩散——即我们知道压缩的每一个步骤，最终反过来要把它还原出去，而且不仅仅是清晰度的压缩，还是时间压缩。视频压缩的时候也要采用语言大模型类似的方法，分成一个个小单元，每个单元加文字说明。他谈到Sora文生视频在今年初带来的惊喜，认为不断的从短视频迭代，长视频会越来越自然越来越大。

　　具体到广电领域，邬贺铨认为中国的广电系统在人工智能的技术应用上并不落后，已经在用AI助力广电节目创作。例如央视总台联合上海人工智能实验室发布了"央视听媒体大模型”并推出国内首部AI文生视频200集动画片《千秋诗颂》，央视总台与清华大学合作开发AI全流程微短剧《中国神话》，其美术、分镜、视频、配音、配乐全部由AI完成，总台还制作了首部AI全流程赋能译制的英文版中国微纪录片《来龙去脉》等等。利用AI技术能提升制作效果，减少参与人数，降低成本的同时加快制作过程。

　　此外，AI还扩展用户创作音视频内容的能力。大模型嵌入智能终端赋能离线低成本高隐私应用，云网端协同又能满足高体验需要。显著释放了用户产生视听内容的创意，既促进视听节目的丰富，又进一步打开了展示视频业务的市场。例如，大模型融入手机将显著降低用户生成XR、3D等智能音视频的门槛，空间计算增强AR体验等等。

　　所有视听业务发展都对网络提出新的要求

　　邬贺铨指出，所有视听业务发展都对网络提出新的要求。

　　首先是宽带，邬贺铨说，光传输技术是宽带的一个重要支持。随着人工智能的应用，对整个传输系统提出一些新的要求，比如网络丢包将增大服务器集群内计算协同等待而产生的开销。据报导，0.1%的丢包会引起算力损失50%，无损是目标。特别是超清视频对传输的带宽要求很高，因此光通信会继续提高单波长的实力。光的带宽能力还有很宽的拓展可能性，未来还有新型光纤。

　　其次是移动通信，邬贺铨认为，AI应用与5G-A/6G相互促进。AI嵌入5G-A和6G系统，增强对业务的感知、优化对信道的估计、支持智能节能调度。他说马上今年5.5G上了，6G标准化也开始研究。而5.5G以上很重要的特点是上行带宽提升，同时互联网应用要轻量化，而AI进一步的适应需要靠6G。

　　再次，邬贺铨表示真正的AI的视频会促进网络技术的应用和发展。基于IPV6具有应用感知的能力，可以定义业务对网络的带宽时延抖动丢包率有些什么要求，并且可以在IP流里明确的指示用户的身份，有利于对跨境信息流动的管理，未来很多视频业务也会有跨境数据交流。通过指定路径转发，按需建立QOS网络切片，支持低时延组播、负载均衡、快速倒换和高可靠并发等。适应算力感知路由等视频应用。

　　努力营造视频业务AI应用生态

　　邬贺铨建议，针对视听创作、数据流通和AI应用的门槛及安全挑战，政府引导第三方建设云智创新平台，营造AI应用发展生态，助力产业健康发展。

　　具体的，邬贺铨提出三点建议：

　　一是建设开放的视听大模型云智平台，配备算力、算法模型、数据，优惠向中小企业开放使用，发挥社会积极性，繁荣视听作品，丰富节目来源。提供数字创意指导，提供视听作品设计工具软件，形成视听科技创意成果孵化器提供视听数字创意作品交易平台服务。

　　二是建立网络信息安全威胁情报共享机制和技术支持平台。越数字化越要重视网络安全，单靠一个企业自身的网络安全是不够的，需要综合提升安全能力。

　　三是建设联邦学习/多方计算平台支持“数据可用不可见”的跨境流动。持有数据的不同方都不太愿意把自己的原始数据交给对方怎么办？可以采用多方计算的模式，原始数据不交换。

　　邬贺铨指出，广电行业是最适合采用生成式大模型的行业之一。广电系统基本具备AI的开发应用所需的算力资源、算法资源、数据资源和网络资源。

　　数据资源方面，广电行业具有高质量、大规模、安全可信的语料和视频数据资源。早期的音像资料需要数字化、着色和提高清晰度。他希望建立在广电系统内视频数据的共享利用机制。而且中国悠久的历史和深厚的优秀文化传承为视听节目的创作提供宝贵的思想源泉。