1.1.1人脸识别
强烈的市场需求使得人脸识别在人工智能中发展最快,目前多厂家的人脸识别准确率超过99%。2018年11月,美国国家标准与技术研究院发布的全球权威人脸识别比赛最新报告显示,在1‰误报的场景下,人脸识别平均准确率可以达到99.69%。
人脸具有相似性和易变性。一方面,通用特征成为人脸的检测标准,也是人脸识别的第一步;另一方面,人脸骨骼的细微差异使得每张人脸具有唯一性。通过器官的位置、大小等特征数据,与数据库中人脸对比,完成人脸匹配,即身份识别。
随着智慧城市的建设需求日益提升,人脸识别算法在公安、交通、金融、机场、地铁、港口等多场景下都已经成为标配。广电与安防是人脸识别应用最广泛的行业,也是效率提升最明显的行业。
1.1.2表情识别
愤怒、高兴、悲伤、惊讶、厌恶和恐惧是心理学家Ekman与Friesen最早提出的6种主要情感,表情识别算法也基本从这6大维度去匹配,目前微笑识别已经可达90%以上的准确率。
表情识别与人脸识别的前置条件相同,即需要先检测到人脸,再做人脸对齐、亮度和姿态归一化、数据增强等步骤。
表情识别具有广泛的应用前景,例如视频内容中的人物状态识别;另一方面,在远程教育等场景下,捕捉观众的情绪状态,也能发挥巨大作用。
1.1.3性别、年龄、人种
常见的图像识别性别标准有脸颊骨骼、皮肤状况、颈部是否有喉结等。性别还可以通过语音辅助识别。
年龄识别较复杂,即使是人眼也很难准确地判断出一个人的年龄。人脸的年龄特征通常表现在皮肤纹理、皮肤颜色、光亮程度和皱纹等,而这些因素通常与遗传基因、生活习惯、性别、性格特征和工作环境等方面息息相关。
种族分类以肤色、眼色、毛发、头型、脸型等体质特征作为主要划分依据。
1.2身体解析算法
1.2.1穿着识别
对衣着、背包、发型、帽子等穿戴物的识别,也被称为精细化识别。
排除光线影响,目前对于衣服、配饰的大致分类以及颜色识别已经较为成熟。得益于公安追踪系统而发展,人体的精细化识别在商品广告推荐、流行趋势与统计上也有着广泛的应用。
1.2.2动作识别
动作识别应用广泛,主要集中在内容分类、暴力识别等,另外基于画面内容的视频检索和智能图像压缩等也有着广阔的应用前景和潜在的经济价值、社会价值。
常见的行为识别办法,通过检测全身关节点,来判断目标人物的身体状态。目前移动路径、打架斗殴、奔跑、高空坠落等识别已趋于成熟。
1.3物品解析算法
人脸和身体都有一致的生物学结构,因此差异化较小,而物体则是千变万化,没有特定规律。算法训练时需要分别对每一个物体训练并建立基准模型。物体的不同颜色、造型,同一个物体的各个角度、不同光线下的图片都需要进行标注并导入训练库。
目前有很多厂家使用背景图对比法来实现物体识别,即通过当前图像与标准图像的对比,来判断当前视野下是否存在物品移动、出现消失或其他状况。这种方法虽然不能准确识别到是什么物品,但是在状态上可以给出精准的判断,从而提示为重要信息。
1.4文字识别算法
文字识别也是解放劳动力效果明显的算法之一。除银行、图书馆等办公系统外,文字识别还被广泛用于字幕识别、场景信息提取、稿件的信息校对等广电行业场景。
人类对于文字识别的研究始于上世纪50年代,当时就已经研制出了光学字符识别器。目前文字识别的方法主要有模板匹配法、几何特征抽取法。
2智能算法在广电行业的应用
2.1标签提取与视频归类
作为媒体机构最宝贵的财富之一,媒体资源的存储、管理、编目、归类与检索是广电系统的重要功能。传统的管理与使用效率较低,且大量消耗人力、CPU和GPU等资源。通过标签提取和归类的模式,将极大规范视频资产的索引。
通过文字识别、人脸识别等算法,将视频中的内容进行结构化数据提取,并从中提炼出标签。处理之后的视频内容将以标签或其他数字信息的形式进行存储、检索、查询等,运行效率爆炸式提升。
这一形式与线上购物类似,我们不再需要浏览各个店铺的每一个商品,以寻找自己心仪的产品,而是通过多层筛选,如“长袖”、“黑色”等字眼,快速排除五花八门的颜色和款式,视频传达的信息更为多样化。对于一段台风天气下,车辆被树砸变形的视频,传统的人工提取的方式,可能仅打上了“台风”、“轿车”、“樟树”这些标签,并被分在了“异常天气录像”的分组里。智能识别将根据运行算法的多样性,识别行人人数、园区类型、车辆颜色、车牌号,甚至是植被面积、其他车辆状况等上百条结构化数据。同一视频多个维度,提高了今后的素材调用的效率,扩大了搜索范围。
2.2内容鉴定与审核
电视制作审片过程中,政治敏感的内容审查非常重要。通过人脸识别、文字识别等手段,对视频资源的敏感人物进行识别、标注和监测等。图像智能算法具有更高的准确率和效率,规避了人眼长时间观看出现的视觉疲劳。同时,通过建立和不断维护数据库,反复进行算法训练,数据库能不断完善,各种算法的识别准确率也更高。
另一方面,视频数据暴涨,不良信息量也与日俱增,造成的文化污染、网络犯罪等事件也不断成为焦点。如何及时发现不良信息,进而采取有效的监管措施,已经成为十分紧迫的问题。目前主要的识别方式为,首先提取完整视频文件的关键帧图像,然后采用不良图像内容识别算法对视频进行识别。
内容鉴定与审核上,智能识别并未完全取代人工。在使用人工智能进行初步审核后,仍然需要有经验的专家做人工二次审核,尤其是在政治敏感的广电传媒行业。
2.3信息采集与自动剪辑
AlphaGo之后,AI作曲、写诗等消息陆续曝出,而现在,智能算法又开始觊觎剪辑师的岗位,入局视频制作。智能视频剪辑应用,提高了新闻编辑制作的效率,成为继“机器人写作”之后解放行业生产力的又一救命稻草。
除了自动处理字幕和水印这些常见功能以外,人脸和物品算法也在视频剪辑中发挥重要作用。例如需要一期以美食为核心的电视节目,人工智能可以快速搜寻到符合条件的所有素材,并根据设置条件,提取素材片段,整合成一段完整的视频。目前手机应用市场上还有一些配合音乐做卡点特效的小程序,这说明结合音轨的AI自动剪辑也是一大热点。
自动剪辑以外,智能算法中的人脸识别技术还可以对关键人物进行画面保护,随人而动、超界提醒等,比传统手工打码模式更高效精准。
2.4节目与广告的定向推荐
视频内容占据全网流量半壁江山,视频广告规模一路疯长。人工智能基于数据分析实现个性化呈现或者精准推荐,更符合用户口味。
在上文提到的标签系统的前提下,通过观众的使用习惯,给人群打上标签,如地域、喜好、不同节目的停留时长等,甚至是线上节目的评分,这些都可以完善观众的用户肖像。推荐系统还可以利用相似观众的类似行为进行推送。
2.5视频质量与素材剪辑判断
广电节目尤其是电视节目,对素材本身的质量、可靠程度要求很高。除了在素材来源上严格把关以外,还可以使用AI技术,通过水印、场景转换、是否连续等方式判断素材是否原生。目前水印检测技术较为成熟,其他方面仍然需要人工逐帧排查。
3算法落地通用手段
3.1配置优化
3.1.1合理的阈值设置
各种算法的识别能力,本质是基于模型的相似度打分。分值越高,则匹配程度越高。在不同光线等场景干扰下,相同的检测内容会有不同的匹配程度。因此越来越多的应用厂家开发了“阈值”这一设置项,作为判断是否通过的标准,以增强“yes or no”的判断准确性。
以人脸识别为例,若调整阈值到5以下,则大部分人都相似;若调整到95以上,同一个人不同的照片都无法匹配。所以设置合适的阈值在算法应用上尤其重要。
3.1.2缩小识别范围
常见的检测算法基本是一个“扫描”加“判别”的过程,即算法在图像范围内扫描,再逐个判定候选区域是否有目标物体。因此算法的计算速度会跟图像尺寸、图像内容直接相关。因此我们可以通过设置图像扫描范围、限定目标物体上限等方式来加速计算。
3.2一物一档
移动互联网的爆发,我们积累了大量的数据,同时物联网也极大扩展了获取数据的数量和类型。大部分素材收集上来后散落在一旁,等待硬盘满后覆盖。
越来越多的厂家开始加入到“无底库识别”的行列中来,即后台没有已建数据库支撑的情况下,将新收集到的数据按照自己的或标准的分类方式新建数据库,这是一个收集与建立同步进行的过程。当算法第二次识别到同一人/物体,则与自建数据库进行比对,并更新数据库。
3.3云边计算
云计算的兴起在智能算法上起到了非常关键的作用。尤其是算法的深度学习,极其消耗计算资源,通过云计算就能以低成本获取大规模的算力。
GPU计算的进步对深度学习也有很大的推动作用,它能够加速深度学习中的计算速度,有些情况下甚至成百上千倍的提高。技术层面外,近年兴起的边缘计算,强调算法不能只集中在相机的端侧或服务器上运行,而是通过“云—边—端”逐级下沉的方式,各层面分配合理的算力,处理图像识别的不同阶段,协同完成运算。边缘计算的概念不仅在算力资源上有了更合理的分配,在图像延时、带宽、存储占用上都发挥了极大的作用。
3.4关键帧提取
视频是由成千上万个连续的图像帧组成的,图像帧之间存在时间和空间冗余度。为了节省资源,通常使用关键的图像帧来表示整个视频内容。
目前关键帧提取的方法,根据视频种类的不同,可以分为像素域的关键帧提取与压缩域的关键帧提取。在对视频进行关键帧提取、获得视频的主要内容后,再提取结构化数据。
3.5图像异常修正
3.5.1光线照度
光照变化是影响各类识别能力的最关键因素,该问题的解决程度关系着图像算法实用化进程的成败。光源、遮挡、高光等因素均对识别结果有着巨大影响。目前一般有两种解决思路:
(1)判断光照模式,然后进行针对性的光照补偿,以消除非均匀正面光照造成的阴影、高光等影响,目前这种方法应用最广泛。
(2)基于光照子空间模型的任意光照图像生成算法,用于生成多个不同光照条件的训练样本,然后利用具有良好的学习能力的算法进行识别。
3.5.2分辨率
图像算法识别需要满足最低像素要求,例如把人脸一般情况下至少需要64×64的像素大小。在较低的像素下,识别结果往往不准确,因此图像分辨率的异常也直接影响识别结果。
低分辨率条件下,一般有两种处理办法:
(1)超分辨率增强,即先对低分辨率图像进行图片增强,得到高分辨率图片之后,再用成熟有效的高分辨率识别方法,对增强后的图片进行识别;
(2)直接对低分辨率人脸图片提取特征,以重点、有鉴别性的信息特征为准。
3.6语音识别协同
图像特征以外,声音也是视频数据重要特征。我们可以通过语音检测和识别,强化视频内容的理解和核对。此外,语音识别还可以广泛用于听众来电、热线报料、稿件转换、内容核对、智能客服自动答复等场景。
4结束语
5G时代到来,4K应用越来越广泛,视频将在未来的广电内容形式中占据越来越高的比重。随着人工智能的快速发展,图像智能算法已经逐渐进入到一个稳定的发展时期,未来将会开拓新的专业领域和市场格局划分。智慧广电、融合媒体建设作为新时代广播电视创新发展的战略选择,是以全面提升媒体行业业务能力和服务能力为目标,以云计算、大数据、物联网、人工智能、图像智能解析等综合数字信息技术为支撑,实现智慧化生产、智慧化传播、智慧化服务和智慧化监管,着力提供无所不在、无时不在的高质量广播电视及智慧社区类服务。面对这巨大的信息量,以算法应用为核心、拥有产业链优势的综合性解决方案提供商将布局制胜。
2020年1月7日,由流媒体网、易目唯文化主办的以“融智视听•变革升维”为主题的金屏奖将乘载着荣誉再度起航,树先锋、聚合力、谋发展,与您一同见证新产品、新模式和新物种的同时,探寻创新发展的“金钥匙”。值得一提的是,2019金屏奖现场不仅有奖杯证书、鲜花掌声、头脑风暴,呈现出有风采、有深度、有趋势的年度盛典,还特别安排“春联送福贺新年”互动环节,现场写春联送祝福。在晚宴环节,美酒佳肴、曲艺表演,给您集视觉味觉听觉于一体的享受,还有神秘奖品等您来拿!
了解金屏奖详情请点击:https://www.lmtw.com/2019jp/
责任编辑:侯亚丽
24小时热文
流 • 视界
专栏文章更多
- [常话短说] 【重要】广电“壮士断腕”! 2025-12-11
- [常话短说] 【解局】广电降本增效“大有空间”?! 2025-12-10
- [勾正科技] 短剧榜单|电商,美妆行业持续发力,精品定制短剧推动品牌高声量 2025-12-09
- [探显家] CTV 广告从“注意力”转向“可验证的结果” 2025-12-09
- [常话短说] 【解局】这家广电网络公司宣布提前完成任务! 2025-12-09

