齐鲁论道|帝视李根:人工智能在视频增强领域中的应用与挑战
流媒体网| 2019-05-09

  【流媒体网】消息:全国范围内,一场关于5G建设的产业大潮被按下加速键。作为5G率先落地的重要应用领域,以4K为代表的超高清视频成为产业链集中布局的新方向。与此同时,5G+4K为大屏电视的未来形态插上想象的翅膀,为IPTV、OTT提供更多的智能赋能新动能。

  5月8-9日,以“启智 • 视听”为主题的流媒体网第十七届论道暨中国IPTV/OTT视听产业高峰论坛在山东济南举行。8日下午,在主题为“探索*求新5G+4K” 的分论坛上,福建帝视信息科技有限公司首席科学家李根进行了主题为《人工智能在视频增强领域中的应用与挑战》的演讲。

  以下为演讲全文:

  大家下午好,我是帝视科技的李根。

  今天很高兴在这里跟大家分享帝视科技的基于人工智能技术的超高清视频增强,视频修复研发成果。

  我的报告内容分四个部分:首先简单介绍我们公司的情况,之后跟大家探讨超高清视频行业的现况,接下来简单介绍基于人工智能技术的超高清视频增强和视频修复技术,最后介绍帝视科技视频转码解决方案,希望我的报告对IPTV/OTT行业里视频内容生产上有一些帮助。

  关于帝视科技

  帝视科技成立于2016年,是一家致力于引领机器学习和计算机视觉前沿技术研究与开发的人工智能公司, 利用人工智能技术来实现图片和视频的深度压缩和视觉增强,提供更加高效、低成本的图片和视频传输解决方案。

  近两年半的时间内,帝视科技已有一名国家级人才,以及三名省级人才,已经申报了近30多项国家发明专利和软著。2018年,我们公司获得了日本软银领投的A轮融资。

  近两年,我们公司获得很多荣誉,包括英伟达中国最佳初创人工智能公司五强,网易创业家大赛厦门赛区的冠军,全国总决赛的亚军,创响福建中小企业创新创业大赛亚军。我们团队入选了福建省百人计划。

  经过几年的发展,视频内容已经从标清到高清,再到超高清时代。在国内,1992年推出标清视频标准,也就是DVD/VCD的时代,视频的物理分辨率在720P以下。在高清视频时代,视频的物理分辨率已经超过720或者1080P 。

  国家广电总局发布了高清视频标准。2008年,北京奥运会全程都是以高清分辨率进行比赛直播。今年开始,机顶盒不支持高清以下的分辨率。也就是说,今后大家无法通过机顶盒收视720P 以下的视频内容。

  接下来进入超高清的时代。最大的变化是它的分辨率超过了1080P,国家广电总局先后发布了4K超高清电视选购标准和超高清视频产业发展行动计划。大家看一下,国内发表的《超高清视频产业发展行动计划(2019-2022年)》的大致内容,国内是4K先行,兼顾8K的总体技术路线。到2020年,超高清视频产业总体规模会超过4万亿元。4K电视终端全面普及,符合高动态范围(HDR)、宽色域、三维声、高帧率、高色深要求的4K电视终端销量占电视总销量的比例超过40%;8K关键技术产品研发和产业化取得突破,8K电视占比要达到5%。现在全国有很多电子厂商在推出8K电视,包括夏普、三星、索尼、海信、创维、TCL等。

  在政府大力扶持下,超高清市场还是面临着视频内容匮乏,网络承载有限,标准规范尚未完善的问题。

  前面几位嘉宾也提到,即将会普及5G网络。另外,很多国家都在大力支持4K/8K的视频标准。所以,网络和标准化问题会有非常大的改善。

  超高清视频内容匮乏的问题可能很难在短时间内通过视频采集,编辑等方式解决。因为高质量的视频内容制作有周期长、成本高、成片率低的缺点。

  因此,我们公司产品研发路线非常明确,通过基于人工智能的视频增强技术解决现阶段超高清视频内容匮乏的问题。

  什么是超高清视频?

  那我们经常被问到什么叫超高清视频?超高清视频是视频的面积,体积上具有更高级别的要求。视频面积上,提升到4K/8K高分辨率,目的在于,可以提高视频清晰度。

  在色深声方面,提高到10位/12位。色深体现在颜色渐变会更平滑。色域采用 BT2020的宽色域,其效果更接近真实的场景的颜色。

  除此之外,超高清视频采用高动态范围HDR,HDR的好处在于可以提升阴暗对比度会。 视频体积上也有改进。视频的帧率提高到60帧或者120帧。高帧率好处在于视频播放更流畅。

  我们帝视科技,超高清视频转码时,同时考虑超高清五项标准。因为时间关系,这里主要简单介绍视频超分辨率和高帧率重制算法。

  视频超分辨率,基于人工智能技术实现超分辨率的算法可以分为六大类。

  第一种,采用传统差值放大后提取图像细节特征,第二种,低分辨率图像中直接提取细节特征,然后采用特征层进行放大。这样的好处是可以得到加速的效果。第三种,采用渐进式的放大,得到超大倍率的超分效果。

  第四种,采用多次特征层上采样和下采样。第五种,引用了语义信息,较为相似特征的不同类别的目标,采用不同的模型,从而得到更好的超分效果。

  另外一种,引用了强化学习,但是,这些方法都存在计算代价太大,很难应用于工业界。

  因此,我们公司针对不同客户,提出两种策略。针对实时性要求不高的客户,提供效果优先的离线转码策略,另外针对实时性要求较高的互联网产业的客户提供效率优先的轻量级移动端模型。

  离线转码模型是采用密集连接的方式实现视频超分,移动端模型采用深度可分离卷积和循环密集连接的策略。

  以上两种算法都已得到国际顶级学术会议的认可,业界性能指标评估中,都获得不错的效果。

  给大家演示高清转超高清的效果。左边是1080P的视频,右边是局部区域的视频内容。 很容易看出超分处理后的效果明显好于传统插值放大的效果,很多细节表现的更清楚。

  高帧率,可分为四种类型。第一种,采用了光流信息,第二种采用光流和深度信息。

  第三种是采用双向光流信息,第四种是端到端实现高帧率重制效果。

  一般情况下,很难获取光流和深度信息,因此,我们端到端的训练策略,改进了高帧率重制算法,从而得到非常好的高帧率重制效果。

  怎样提高超高清视频质量?

  视频内容可能会受到某些因素,直接影响视频画质。

  比如为了降低带宽成本,互联网行业传输视频的时候,降低码率,这直接影响视频质量。

  视频内容会受到采集设备的影响,不同品牌的拍摄设备的像素密度都存在一些差异性,像素密度低,采集的视频内容可能会存在失真现象。拍摄经验不足,也会导致拍摄内容中存在一些缺陷。

  那先给大家分享,帝视科技如何去解决存在压缩伪影的视频呢?首先存在这些视频压缩伪影的视频进行去压缩伪影,采用视频的空间信息和时序信息去除压缩伪影,其后,在进行视频超分,从而得到去除伪影区域的污点肯和毛刺。

  另外,跟华为mate10去压缩伪影效果对比,在计算复杂度是华为的16%的情况下,我们只利用普通的GPU上去伪影的效果超过华为的效果。

  接下来,大家可能碰到用手机夜间拍摄时,光通量不足的情况,这会采集的视频中引入很多噪声,直接用传统方式视频降噪,会导致很多细节会变成模糊。

  我们帝视科技采取基于人工智能的视频降噪的方式,自适应的判断噪声区域和噪声强度。

  这两个例子中,我们可以看出降噪算法的鲁棒性,与左边视频相比,右边视频的噪声强度更大。但是我们只利用一种降噪算法就能处理噪声区域的污点。

  接下来看一下老旧影片的降噪效果,很容易发现老旧影片实例中也能得到非常好的降噪效果。

  色彩增强,视频例子中可以看出,我们帝视科技的色彩增强后的色彩,亮度、对比度、饱和度更讨人喜欢。

  视频上色,我们的视频上色算法采用了注意力机制,语义信息和调色板。以下是黑白图片上色的效果。不仅能处理风景,而且也能处理人物的场景。接下来看一下,罗马假日视频中的上色效果,目前视频上色还存在一些时序不一致的问题,我们还在优化算法,有待提升视频上色效果。

  简单介绍几种基于人工智能的视频增强及修复的技术,那我们公司怎么利用这些视频增强及修复功能呢?

  怎样实现傻瓜式的超高清视频转码?

  考虑到客户的需求,帝视科技尽量把超高清视频转码服务,做成非常傻瓜式的转码操作平台。

  我们公司提出AI 4K重制工具包,工具包中含有非常多视频增强及修复功能,包括超高清标准化功能,视频内容分析,视频增强及修复功能,客户可以根据需求手动或者自动选择几个参数,帝视科技转码服务器自动配置转码任务,并进行视频转码。

  我们的产品是主要通过两种方式面向客户:

  第一种是视频增强转码服务器的形式,给客户提供标清转高清、高清转4K的服务,视频增强转码服务器中就有 AI4K工具。

  另外一种是公有云的形式,通过视频云转码平台进行视频转码。

  接下来,我们已经向广电行业,互联网行业和终端行业的几家公司提供视频转码服务,包括河南电视台,福建电视台,百度,芒果TV等企业。

  谢谢大家!

责任编辑:李平

版权声明:凡本网注明来源“流媒体网”的所有内容,版权均属流媒体网所有,转载需注明出处。凡注明来源非“流媒体网”的所有内容,其目的在于传递更多信息,并不意味着流媒体网赞同其观点或证实其内容的真实性。