【广州论道】科大讯飞葛勇:人工智能产业及产业进展报告
流媒体网| 2017-05-25

   【流媒体网】消息:2017年,是大视频产业智慧升级,依托运营致胜的关键一年,从电视大屏到智慧家庭,智慧生态的探索发展,是产业需要积极思考并为之实践的方向,同时这也将带动产业的业务、体验提升,完成从看电视到用电视的转型变化。从规模红利到市场红利的实现,取决于产业运营能力的提升。

  2017年5月25日下午,流媒体网举办的第13届电视新媒体产业峰会“《智能+:大视频 大视界 大数据 大未来》”分论坛上,科大讯飞股份有限公司副总裁葛勇进行了主题为《人工智能产业及产业进展》报告演讲。

  人机交互引领产业变革

  首先讲科大讯飞做技术,这是很大一个背景,背景就是我们当前状态下移动互联网。大家可以看到上世纪六十年代是大型机,之后是小型机那个时候人机交互的界面,到我的年代就是个人电脑时代,那个时候最基础的交互是键盘,到我上大学的时候出现了鼠标,我们到了移动互联网时代,随着设备的发展,人机交互的手段越来越多,从鼠标、摄象头、语音就开始发展,再往下的时间点,我们说移动可穿戴设备,人和机器的交互方式会越来越多,但是人机交互的界面,从最开始的窗口到现在已经做到语音手势,甚至下面有脑机借口,从低层到最高层的发展,这个时点上,将来也许再给二十年、五十年,也许什么都不要用,我昨天晚上看了一个电影叫《末日重启》,他只要一个小设备,是脑机接口器,所有东西你可以看到,现在在移动可穿戴设备的下面,特别在原厂无屏移动人机交互的时代已经到来,这也包括我们跟视频相关的设备,比如说机顶盒、OTT盒子也是典型设备的代表。我们理解什么是智能语音技术?有三块:

  一个语音合成技术,相当于一个机器装了人的追波。

  第二个语音识别,相当于把机器装了耳朵。

  第三个,可以对语音语译进行解析,相当给机器装了大脑。 

  这条PPT讲了让机器说中文的发展过程,刚才听到的噪音是95年之前的水平,为什么会有科大讯飞,因为97、98年的时候,我们做了语音合成技术,做了技术,虽然技术不怎么样,但是那个时候已经全世界最好的技术,我们觉得老板挺好,就成立了科大讯飞,再看一下最新的技术(播放视频),已经很流畅,这张表讲语音视频的自然度,4.5是什么意思?把人说普通话的水平分成了五级,四级是一般人说话的水平,五级是播音员说话的水平,4.5级说机器合成的声音,已经超越了普通人说话的水平,正在朝着播音员说话的水平。这是4.5级。

  现在看一下机器说英文的效果怎么样?这是我们做的英文的语音合成技术,其实我们做的英文的合成技术,已经比美国人、欧洲人做的语音合成技术要好,过去十年参加全球的比赛,就是如何把文字变成声音,我们每年都是第一名。

  给我们这条视频一点掌声,到了这一页讲的什么意思是惟妙惟肖的个性化语音合成,我们机器可以说中文、英文,我们也可以模仿每个人的声音,每个人的声音都是有特色的,我们把声音收录过来,就可以给你配音,我们最近有一个产品叫“配音阁”,我们买了一些APP,一些有特色声音的版权,在我们的配音阁的平台上,把一段文字丢进去,选择一个发言人,就按照你发音的声音播报出来,可以给帮你打广告,另外我们做了一些视频类的模板,下面配上你的文字,然后配上广告就非常有特色,所以我们又和视频发生了碰撞。

  刚才说机器装上耳朵,现在讲给机器装上嘴巴,什么人在说什么样的话,我们是可以搞得很清楚,另外一个情况,如果环境很嘈杂,机器还能不能听懂人说话,过去在语音识别抗噪性做了很大的进步,这几年只要是互联网公司,我们都会做语音识别,都想给机器装一个耳朵,所以这些人很多人都会问我,你们做的语音识别和BAT做的语音识别有什么不同呢?这页PPT简单地说明,如果把一个耳朵做成一般人的听力水平,现在并不是多难的事情,问题是让这只耳朵在嘈杂环境下也能听懂人说话,那就不是容易的事情,举个例子,在汽车的情况下,要让这个耳朵能在汽车上听懂人的声音,是很难的事情,汽车里面有典型的噪声,开窗户有风噪,开到空调旁边,有空调噪声,发动机还有发动机噪声,所以是件非常困难的事情,所以科大讯飞给机器装耳朵的时候,已经充分考虑到各种各样的情况。

  这张表就是我们在汽车的情况下做的语音识别,确实是已经全面领先,这也是我们跟专业的语音识别公司的差别所在。

  另外跟我们分享一个进展,我们在原厂的情况下,机器还能不能听懂人的声音,典型的场景就是在客厅里面看电视的场景,你知道,如果想做自然人和机器的交互,每次拿个摇控器要拿到嘴边很厉害,如果你的电视你躺在沙发上,想让你干什么就干什么,这就涉及到我接收的语音离你很远,在这种距离下面,之前所有的语音识别技术都会崩溃,怎么办呢?我们就专门开发了针对原厂情况下的一整套技术,它就是在多种环境下机器听力技术。

  另外一个跟视频也非常相关的事情,就是我们讲交谈风格下语音转写的应用效果,这里有一个新名词“语音转写”,我解释一下,语音识别分为两种场景,一个是语音听写,一个是语音转写,听写你对着手机说话,说一句话手机讲一句话,你跟手机之间有一个反馈,如果识别效果不好的话,你可以调整语速和口音,这是听写,转写是人和人之间很自然的交流,机器在旁边盯着,这样人和机器之间是没有交流,这样的话语音的结果很随意,但是给机器的要求就更难了,现在我在这里演讲,我不看着机器,机器转化成文字,叫语音转写应用,除了把语音转成文字,我们还有一个翻译,去年的发布会,当时我们老板在台上讲,讲的结果,时时显示到大字幕上,同时把相应的中文、英文、韩文、日文显示出来,这是时时的同传系统。这一块跟视频有什么关系?我想的一个需求就是在直播的时候,直播的同志在讲什么,传统的手段是做不了,通过语音转换成文字,他可以知道那些直播的小姑娘是不是发生了什么事情?这是一个。

  第二个可以配字幕,这个系统配字幕配得挺准。

  第三、是不是还有更多的应用,可能大家一起来挖掘。

  刚才可能讲的是科大讯飞的1.0版本,现在互联网进入了下半场人工智能时代,科大讯飞提出什么呢?如果之前是机器能听会说,会面让机器会能理解会思考,我相信未来5到10,人工智能会像水和电一样,深刻改变世界。

  我修整一下,去年阿尔法狗把人工智能推到很高,其实我们去年已经发布了人工智能的发布会,当时其实也把人工智能的热度提高到一个比较好的水平,我们在去年11月23日的发布会,我们的主题是人工智能改变世界,也是把这个热度推到更高的水平。

  人工智能在全球范围掀起新一轮的热潮,美国、中国政府都高度重视,我们简单理解一下对“人工智能”的理解,人工智能就是能够像人进行感知、认知、决策、执行的人工程序和系统,我们觉得1956年的Dartmouch这个会议,有四个大佬,认为这个会议是人工智能的出生典礼。

  关于人工智能业界有两个说法,一个是弱人工智能,一个是强人工智能,就是大数据人工智能,典型的例子,今天飞机会飞,小鸟也会飞,但是小鸟是生物,飞机从来不会学小鸟一样煽翅膀也能飞起来,到人工智能也一样,没必要有大脑,把所有知识整合起来,也是人工智能,是弱人工智能,另外一类是强人工智能,就是像人脑一样工作,在脑科学的基础上,大量投入跟信息进行紧密融合,前者可以比较短见到效果,后者是非常难的长远的项目,在整个国家层面,这也是两条线在往前推荐。

  人工智能三次浪潮不讲了,特别讲一下第二次上大学的时候赶上,到处都在讲神经网络,很好我的职业生涯中能碰到第三次人工智能,这是很高兴的事情。

  我们对人工智能的看法:我们认为是人工智能的理智派,确实人工智能远远没有达到威胁人类的地步,这个行业很有意思的现象,凡事不懂人工智能的,都觉得人工智能好厉害取得人,凡是懂点人工智能都是谨慎的,都是理智派的。

  科大讯飞和人工智能的逻辑关系

  接下来再讲一下,科大讯飞和人工智能的逻辑关系,之前讲了做云的公司,跑到视频的场合来干什么,你是做云的公司和人工智能有什么关系呢?这里我在讲讲科大讯飞和云的公司和人工智能的关系到底是什么?

  这里面有一张图,讲一个背景,是《人类简史》这本书,非常好的一本书,这本书人类形成脑容量可以具备智能的时代,是两百万前已经可以,但是一直到七万年前,才慢慢表现出“智”的智慧,类似于高等生物的行为表现,到现在进化成人,为什么前面的193万年前都干嘛去了,这里后面这本书揭示了一个原因,他说7万千前的时候出现了语音,这是促进人类从野兽进化成人一个根本的原因。从最简单的语言,猴子叫一声等等,到人能够发展语言,可以反馈信息,人会八卦了,会传递小道消息,就意味着有组织,一旦有组织,有意味着整合更大的资源来做事情,一旦有150人组织规模的时候,很多不能做的事情就能做,当然现在随着人类的发展,我们就可以传递虚构的概念,可以在更大规模上,进行大量陌生人的合作,进行社会创新。

  在这个过程中,我们会发现,“语言”,语言是指促进人类智能发展的一个核心的东西,所以我们很荣幸,我们也误打误撞,我们是做语音,很自然了解到语音的产生,语音的机理,促进到人的机理,不自觉就促进到人工智能的机理。牵涉到人工智能的BAT,我们做了考试机器人,让机器人能够考上高考,日本和美国都在做,美国让机器人考上华盛顿大学,日本是考上国立情报所,我们国家是考上一本,这很难,这有什么意义,其实本身并不是很有意义,但是过程研究的一系列的成果,那可是了不得的东西。

  我们的翻译已经道路六级的水平,我们自动阅卷,能够让机像专业老师批阅卷子。高考如果哪个老师看你写的字不好,给批比较低的分数是影响很大。我们去年在江苏省做了一个试点,替代老师评判高考的试卷,怎么做,几万卷下来,先人工改好,这个试卷有了标准答案,让机器去学习,学完之后再让他改其他的卷子,后来发现机器评分的一致性远远好于人的一致性,这意味着如果机器代替评分,可以保证公平性,大家知道最重要就是公平,而且这样的话,我们高考改革就有基础了,不然人为因素怎么搞这个事情,我觉得这个事情是非常重要的事情,能够保障高考公平,能够促进科举制度发展的重要的基础保障。

  还有一个让人惊喜的进步是什么呢?机器自动建知识图谱,我们之前讲知识,知识是什么?知识在计算机的理解,第一件事情知识要阶级结构,一段简单的文本它不是结构化,机器没法推理和理解,怎么让他有用,要把文本分割找到词,找到词和词之间的关系,让知识和机器产生关系,比如说美国大选期间,特朗普炮轰杰布布什,伊拉克战争都是你哥的错,这句话要理解这句话的意思,就要知道他们几个人之间的关系,国家之间的关系,那就需要依赖于知识共建,同样这句话出来之后,我要更新我的知识图谱,慢慢知识库才能建立起来,这样的话,机器才有可能变得结构化起来,慢慢进步的话,慢慢我们在知识图库的构建上,比传统的方法已经稳步的提高,慢慢我们就可以能够有初步知识库构建的套路和方法。

  机器的阅读理解能力,也慢慢能够达到小孩子的水平。

  还有一个有意思的事情跟大家分享一下:

  我们知道有一个很著名的测试叫图灵测试,你拿个林子,背后那个人不知道,但是图灵测试是五十年前就搞的事情,那个时候还没有互联网和大数据,现在一搜,百度谷歌都出来了,现在一搜索答案就出来了,很多时候让后面的人不知道什么东西?所以图林测试受到旨意,这个测试第一句是爸爸没法举起他儿子,因为他很重,第二句话爸爸没法举他的儿子因为他很虚弱,这两句话人很好理解,但是机器就很难,所以过去这些东西很难搞,通过人工智能的技术有了进展,去年我们了第一名,也被MIT报道,但是实际也比之前强了一点,所以还有很长的路要走。

  后面我特别要讲一下:关于杰布布什和一些具体的领域,我们能够看得到摸得到人工智能改变生活的案例,包括医疗、交通等等。举个例子跟大家讲:

  第一人工智能跟教育的关系,复杂的图就不讲了,讲讲故事,我上小学的时候,有几年被老师特许是不用做家庭作业,为什么呢?因为成绩比较好,老师平时给大家布置作业,根本不适合你,你没必要花那个时间,我对老师感恩戴德,这反映了什么东西,过去讲“因材施教”,那是“教”,但是每个人的学习成果,每个人知识点的把握,每个人的水平都是不一样,现在上课怎么上课呢?一个班40、50人老师讲一套东西,怎么做到因材施教,我成绩比较好,老师都是开小班的,只能做到这一层,别的人怎么办?所以跟人工智能一应用,在社会上有很大的贡献,如果机器能够读懂你的作业,把你答题记录在机器,就可以知道你哪个地方学得好,哪个地方学得不好,哪个地方需要花时间,哪个地方需要不花时间。

  第二,根据这些结果,之前掌握不好的地方推送你题库,这样把整个学习变得非常有效率。学习有效率,提分就是自然的结果,所以把人工智能运用到教育对整个国计民生都是非常有意义的事情。

  刚才讲了我们有人工智能阅卷系统,还有学生每周的周考输入进来,通过自动阅卷,把标准化的结果都识别出来,然后自动批改知道哪个地方错了,哪个地方没有错,然后建立起你的档案,分析你哪个知识点好,哪个知识点不好?后面通过一些算法,给你针对性推送图库。这样使学习的效率有了更好的提高。

  我们在合肥一中做了实验,大家可以看到进步是非常明显的,我们现在跟深圳中学,还有北师大附中建立根据地,希望能够把我们的人工智能技术能够给教育系统有效的改变。

  人工智能让医疗更先进

  下面是人工智能和医疗,具体的框架不讲了,给大家看一段视频,这是一张CT的扫描图,然后机器在自动分析,这是肺部的一个CT图,他会找到中间的有结界的地方,然后辅助医生看哪些结界可能有问题的,提醒医生进一步去分析。因为我家除了我做IT之后,其他都是做医生的,我妹夫就是看片子,他每天就看不完的片子,我就经常问他,如果这套系统出来,你们怎么办呢?对你是好事还是坏事,好事可能解决你的脊椎,坏事你可能没饭吃,但是科大讯飞不是替代人,是让机器为人更好的工作,让人有更好的生活。

  另外还有有意思的事情,我们跟公共安全领域的应用,我们跟国家建立实验室,我们建立了一些声文库,这件事情除了政府的公关事情我们不方便多讲,我觉得有一个意思是就是“反诈骗”,电信诈骗是非常恐怖的事情,经常搞得人家倾家荡产,我们在手机端或者局端,时时检测声文信息,如果这个人在我这里登记,我不管三七二十一,我先把你断掉,有些电信诈骗,有些老头老太太,你就是搞不懂,但是我不管你什么,我就给你掐断,这样有效地在源头上解决这个事情。详细的我就不讲了。

  后面给大家看一个例子。这是我们语音在法院的应用,有人打过官司都知道,在法院要配一个书记员,法官被告人律师说什么话,每个人都记录在案的话,如果说话太快书记员说暂停,我记录不下来,就要暂停,所以有了这个系统,可以有效的提升庭审的效率,上来有个法官说本来一下午可以做三场,现在有了这套系统可以做五场,这一点跟视频有蛮大的关系,公安系统原来身份犯人都有笔录,现在要求都有视频记录,防止刑讯逼供,什么叫刑讯逼供?那要抽查,要每个人去看,到你审讯过程中有没有刑讯逼供,这就牵涉到人工智能在视频中的运用,我要检测某一段是不是存在刑讯逼供。所以这个方面都会人工智能在视频领域关键场景的应用都是有需求,如此之外我估计有很多的应用,在关键音频、关键的视频的检测,我记得有一个例子,我们在拍片子的时候,经常有咔碴一下,那叫什么名字我都不太清楚,后来很长时间了解到,就专门为剪片子用的,但是现在只要开始,我这个机器可以很容易把它剪辑出来。

  最后我想总结一下:人工智能不可怕,但是人工智能远比想象要快,未来很多工作,很多事情都会被机器所取代,我们科大讯飞做人工智能的人,我们希望我们的人工智能会让人们生活更美好。大概讲到这里谢谢大家!

责任编辑:吕佩

分享到:
版权声明:凡注明来源“流媒体网”的文章,版权均属流媒体网所有,转载需注明出处。非本站出处的文章为转载,观点供业内参考,不代表本站观点。文中图片均来源于网络收集整理,仅供学习交流,版权归原作者所有。如涉及侵权,请及时联系我们删除!