【北京论道】小白世纪杨成:视觉人工智能的商业应用
流媒体网| 2016-10-13

  【流媒体网】消息:10月13日,以“智屏·互联,大‘视’所趋”为主题的流媒体网第十二届论道在北京举办,会上,北京小白世纪网络科技有限公司 COO杨成做了主题为《视觉人工智能的商业应用》的演讲。

  

1.jpg

 

  大家好,下面由我来给大家汇报一下。

  今天这个主题是大数据和人工智能,实际上,整个大数据能力和计算能力恰好是人工智能里面深度学习兴起的基础,从1956年开始至今,正好是人工智能提出来60年。为什么最近两年人工智能才开始火起来,其中最主要的就是跟这个深度学习有关。深度学习主要是依赖于大数据的发展和计算能力的提升。小白世纪做的主要是视觉人工智能中的视频识别和搜索。下面我就把我们的一些研究和商业应用的情况跟各位做一个介绍。

2.jpg

 

  什么是人工智能?

  首先其实我们每天都接触着一些智能化的东西,比如说现在的人工智能其实和我们的幼儿认字、马戏表演其实是一个原理,所以我个人理解的这种智能,其实一个就是连接,一个就是学习和训练。比如说,我们幼儿认字,就是一个反复训练的过程,马戏表演也一样。老虎为什么会钻那个圈,也是一个反复的训练和学习的过程。包括Alpha Go,也是一个训练训练和学习的过程。所以,我们现在谈的人工智能实际上就是把计算机和现实世界连接起来,那么这个连接怎么来实现?通过不断的深度的学习和训练来完成。

  大家看看从人工智能到计算机视觉的大致发展,从50年代到70年代,实际上是一种比较初始的一个人工智能,从80年代到21世纪10年代,人工智能也是一个相对低级的阶段。真正的人工智能出现爆发式的一个增长,或者说变成一个比较明显的热点,应该说是从10年代开始,其实也就是从深度学习开始的。由于深度学习的出现,使得图片识别、语音识别,这些核心的领域都得到了突破性的进展。比如说有一个人脸识别的数据,在2010年左右,人脸识别的精确度,最高的大概是72%左右,到2012年的时候能够达到85%,到2015年的时候,能够达到96%,准确率得到了快速提升。深度学习应用的最多的就是视觉领域,也就是对图像和视频的分析使得图像识别、语音识别和语义理解的准确率都得到了大幅的提升,或者可以说是一个质的跨越。有人说人类识别的准确率,大概是95%左右,所以有人认为,到了2015年,我们达到96%,那么在人脸识别这一块已经超过了人类的智能。

  人工智能应该怎么做?

  我们的工作重点是视频,主要是从这5个角度:一个是对视频进行一个结构化的分析。比如说对视频进行帧镜头,场景、故事、人物的处理;第二个是对目标的检测和跟踪,比如说在视频里面,车辆的出现或者人物的出现,可以对它进行跟踪。

  第三个就是人物的识别,第四个是动作的识别,第五是情感语义的分析。人工智能其实整体而言目前还是一个非常初级的阶段,如果要达到对于画面语言的理解,还有一个漫长的过程。对视频的识别搜索,我们目前主要就是通过4个步骤,第一个是图像的理解和建模,通过特征学习和深度学习技术,对图像予以进行理解、分析、建模。比如说吃饭的镜头,实际上任何的画面,在计算机看来,它就是一串数字,那么他怎么认为这是吃饭?所以我们就是要通过这种人工的智能的研究,把吃饭这个场景或者是这个镜头,让计算机能够理解,让他能够知道,我弹出一个画面来以后,他说这个是吃饭。弹出一个物体来说,他说这个是狗。如何把计算机和现实关联起来,这个就是现在要做的一些主要的工作。第二是建立图像的一个检索库,对海量的视频,比如说数十万部视频使用深度学习,通过卷积神经网络(卷积神经网络,是深度学习里边最主要的一个学习工具),然后建立一个库。再一个就是对目标图像的处理;最后,检索和结果输出。整个大概是这么一个过程。目前计算机视觉,包括人工智能的应用的领域非常广,大家可能知道的比较多的就是人脸的识别搜索用于安防公安等等。我们把这个国内的计算机视觉的主要应用领域做了一个归纳,大概包括这些东西,其中在前3位,主要是人脸识别、人脸搜索和图片搜索。

  

3.jpg

 

  关于小白世纪

  下面,我想再跟大家介绍一下小白世纪。小白是一家有清华大学背景的公司,因为我们的技术都是来自于清华,并且是由清华大学的创投基金投资的一个视频识别搜索型的创新公司。我们成功建立的一套特征学习和深度学习有机结合的系统,通过人工智能及大数据的技术,实现海量视频的分析和处理,推出全网视频精准识别搜索平台,那么凭借这个技术,我们先后获得国际电视联盟的一个创新奖,还有的2016盛景全球创新大赛,这个是全球性的top。还有就是今年参加清华大学校长杯,从140个项目里面最后进入了,前10名,获得铜奖。

  我们把成立一年多以来的事情一个总结:一个是建立场景数据库,目前大概有2200个,明星,人脸物品和场景的模型,这个是我们目前已经建立了的模型;第二个,搜索方式是全量搜索和重点搜索相结合,同时它可以应用于直播和点播。对于点播的搜索,其实也有一些公司在做,但是对于直播的识别,目前市场上应该说做到的不是太多。在速度和效率这一块,通过我们的自己的技术可以做到3天左右建立一个场景或者是人物模型,检索的时间,大概是1到2秒。

  我们也跟国际领先的一个公司做这个对标。针对5个人来进行识别,其中有一个人超过了它就是准确率,另外4个人接近他。因此整体水平应该说还算是比较领先的。另外,我们建立了一个庞大的数据库,从50万部视频里面,大概存储了10亿左右的视频基因,这是一个庞大的视频基因库,然后,在这个里面建立了一个有着660万的深度学习训练集或者叫训练库,从中训练出我们2200个模型。训练一个模型,大概需要3000张左右的图片,当然如果有3万张,它的准确率会更高,但是现在3000张已经够了。这个是我们训练的1200个场景和物品的模型,数据还在更新。另外这个是训练的1000余个明星人脸的模型,基本上覆盖了国内外的一二线明星,这个数据也还在更新中。

  下面我跟大家简单的汇报一下我们目前的一些应用。首先,我们的目标是希望以极致视觉创建精准的价值连接。即使我们可以识别里面的任何物品,但是不是任何一个物品都值得我们来识别。所以,我们希望通过极致的视觉加上精准的场景或者是人脸,再加上商品的连接来产生商业价值,并不是盲目地来做一些识别和搜索。所以大家可以看到第一个,比如说在视频里面看到范冰冰,通过视频搜索可以锁定范冰冰,然后,可以自动添加跟范冰冰相关的影讯品牌或者是商品或者是百科投票等等,最后用户在观看视频是,当范冰冰出现的时候,就可以把它自动的弹出来。

  

4.jpg

 

  我们现在产品主要分为3类,一个是极智广告,也就是找到有关的商品或者场景或者人物以后添加商品影讯和品牌。第二个是极酷互动,可以在找到相关的东西以后,做一些诸如红包、弹幕、寻宝、百科、投票等互动功能。所有的这些形式,其实目前在视频中并不少见,我们跟它的差别就在于我能够投放到精准的场景或者人物上面来。当然,所有的这些展示的东西都是你点进去以后它再展示的,这是一个流程,如果你不点,它大概停留5秒钟左右就没了。这个红包是和我们宣发的宣传片相结合的。最后我们还有一个产品就是极目版权。我们推出了版全网平台,也是通过视频的识别搜索,然后去做比对。版全网包括几个特点:发现快、渠道全、认证准、维权好。同时,我们会把这个取证,包括申诉,把它结合起来。

  从目前我们应用的成效来看,整个的广告的点击率大概是6%左右,应该说远高于目前市场上普遍的互联网广告点击率,我们在实践中也发现,综艺的内容广告点击率比较高,大概有17%左右。这是我们其中的有一款产品,是一个投影仪,曝光率有将近20%,到达率46%。

  这个是我们目前的主要合作伙伴有:视频平台、广告平台、电商等,其中主要有华数、pptv、百视通、风行、国广星空手机电视等,我们希望通过我们的技术提供,能够跟大家一块实现合作共赢、共筑生态!

  谢谢大家。

责任编辑:刘雅

分享到:
版权声明:凡注明来源“流媒体网”的文章,版权均属流媒体网所有,转载需注明出处。非本站出处的文章为转载,观点供业内参考,不代表本站观点。文中图片均来源于网络收集整理,仅供学习交流,版权归原作者所有。如涉及侵权,请及时联系我们删除!