【广州论道】科大讯飞葛勇:人工智能产业及产业进展报告

流媒体网| 2017-05-25

　　【流媒体网】消息：2017年，是大视频产业智慧升级，依托运营致胜的关键一年，从电视大屏到智慧家庭，智慧生态的探索发展，是产业需要积极思考并为之实践的方向，同时这也将带动产业的业务、体验提升，完成从看电视到用电视的转型变化。从规模红利到市场红利的实现，取决于产业运营能力的提升。

　　2017年5月25日下午，流媒体网举办的第13届电视新媒体产业峰会“《智能+：大视频大视界大数据大未来》”分论坛上，科大讯飞股份有限公司副总裁葛勇进行了主题为《人工智能产业及产业进展》报告演讲。

　　人机交互引领产业变革

　　首先讲科大讯飞做技术，这是很大一个背景，背景就是我们当前状态下移动互联网。大家可以看到上世纪六十年代是大型机，之后是小型机那个时候人机交互的界面，到我的年代就是个人电脑时代，那个时候最基础的交互是键盘，到我上大学的时候出现了鼠标，我们到了移动互联网时代，随着设备的发展，人机交互的手段越来越多，从鼠标、摄象头、语音就开始发展，再往下的时间点，我们说移动可穿戴设备，人和机器的交互方式会越来越多，但是人机交互的界面，从最开始的窗口到现在已经做到语音手势，甚至下面有脑机借口，从低层到最高层的发展，这个时点上，将来也许再给二十年、五十年，也许什么都不要用，我昨天晚上看了一个电影叫《末日重启》，他只要一个小设备，是脑机接口器，所有东西你可以看到，现在在移动可穿戴设备的下面，特别在原厂无屏移动人机交互的时代已经到来，这也包括我们跟视频相关的设备，比如说机顶盒、OTT盒子也是典型设备的代表。我们理解什么是智能语音技术?有三块：

　　一个语音合成技术，相当于一个机器装了人的追波。

　　第二个语音识别，相当于把机器装了耳朵。

　　第三个，可以对语音语译进行解析，相当给机器装了大脑。　

　　这条PPT讲了让机器说中文的发展过程，刚才听到的噪音是95年之前的水平，为什么会有科大讯飞，因为97、98年的时候，我们做了语音合成技术，做了技术，虽然技术不怎么样，但是那个时候已经全世界最好的技术，我们觉得老板挺好，就成立了科大讯飞，再看一下最新的技术(播放视频)，已经很流畅，这张表讲语音视频的自然度，4.5是什么意思?把人说普通话的水平分成了五级，四级是一般人说话的水平，五级是播音员说话的水平，4.5级说机器合成的声音，已经超越了普通人说话的水平，正在朝着播音员说话的水平。这是4.5级。

　　现在看一下机器说英文的效果怎么样?这是我们做的英文的语音合成技术，其实我们做的英文的合成技术，已经比美国人、欧洲人做的语音合成技术要好，过去十年参加全球的比赛，就是如何把文字变成声音，我们每年都是第一名。

　　给我们这条视频一点掌声，到了这一页讲的什么意思是惟妙惟肖的个性化语音合成，我们机器可以说中文、英文，我们也可以模仿每个人的声音，每个人的声音都是有特色的，我们把声音收录过来，就可以给你配音，我们最近有一个产品叫“配音阁”，我们买了一些APP，一些有特色声音的版权，在我们的配音阁的平台上，把一段文字丢进去，选择一个发言人，就按照你发音的声音播报出来，可以给帮你打广告，另外我们做了一些视频类的模板，下面配上你的文字，然后配上广告就非常有特色，所以我们又和视频发生了碰撞。

　　刚才说机器装上耳朵，现在讲给机器装上嘴巴，什么人在说什么样的话，我们是可以搞得很清楚，另外一个情况，如果环境很嘈杂，机器还能不能听懂人说话，过去在语音识别抗噪性做了很大的进步，这几年只要是互联网公司，我们都会做语音识别，都想给机器装一个耳朵，所以这些人很多人都会问我，你们做的语音识别和BAT做的语音识别有什么不同呢?这页PPT简单地说明，如果把一个耳朵做成一般人的听力水平，现在并不是多难的事情，问题是让这只耳朵在嘈杂环境下也能听懂人说话，那就不是容易的事情，举个例子，在汽车的情况下，要让这个耳朵能在汽车上听懂人的声音，是很难的事情，汽车里面有典型的噪声，开窗户有风噪，开到空调旁边，有空调噪声，发动机还有发动机噪声，所以是件非常困难的事情，所以科大讯飞给机器装耳朵的时候，已经充分考虑到各种各样的情况。

　　这张表就是我们在汽车的情况下做的语音识别，确实是已经全面领先，这也是我们跟专业的语音识别公司的差别所在。

　　另外跟我们分享一个进展，我们在原厂的情况下，机器还能不能听懂人的声音，典型的场景就是在客厅里面看电视的场景，你知道，如果想做自然人和机器的交互，每次拿个摇控器要拿到嘴边很厉害，如果你的电视你躺在沙发上，想让你干什么就干什么，这就涉及到我接收的语音离你很远，在这种距离下面，之前所有的语音识别技术都会崩溃，怎么办呢?我们就专门开发了针对原厂情况下的一整套技术，它就是在多种环境下机器听力技术。

　　另外一个跟视频也非常相关的事情，就是我们讲交谈风格下语音转写的应用效果，这里有一个新名词“语音转写”，我解释一下，语音识别分为两种场景，一个是语音听写，一个是语音转写，听写你对着手机说话，说一句话手机讲一句话，你跟手机之间有一个反馈，如果识别效果不好的话，你可以调整语速和口音，这是听写，转写是人和人之间很自然的交流，机器在旁边盯着，这样人和机器之间是没有交流，这样的话语音的结果很随意，但是给机器的要求就更难了，现在我在这里演讲，我不看着机器，机器转化成文字，叫语音转写应用，除了把语音转成文字，我们还有一个翻译，去年的发布会，当时我们老板在台上讲，讲的结果，时时显示到大字幕上，同时把相应的中文、英文、韩文、日文显示出来，这是时时的同传系统。这一块跟视频有什么关系?我想的一个需求就是在直播的时候，直播的同志在讲什么，传统的手段是做不了，通过语音转换成文字，他可以知道那些直播的小姑娘是不是发生了什么事情?这是一个。

　　第二个可以配字幕，这个系统配字幕配得挺准。

　　第三、是不是还有更多的应用，可能大家一起来挖掘。

　　刚才可能讲的是科大讯飞的1.0版本，现在互联网进入了下半场人工智能时代，科大讯飞提出什么呢?如果之前是机器能听会说，会面让机器会能理解会思考，我相信未来5到10，人工智能会像水和电一样，深刻改变世界。

　　我修整一下，去年阿尔法狗把人工智能推到很高，其实我们去年已经发布了人工智能的发布会，当时其实也把人工智能的热度提高到一个比较好的水平，我们在去年11月23日的发布会，我们的主题是人工智能改变世界，也是把这个热度推到更高的水平。

　　人工智能在全球范围掀起新一轮的热潮，美国、中国政府都高度重视，我们简单理解一下对“人工智能”的理解，人工智能就是能够像人进行感知、认知、决策、执行的人工程序和系统，我们觉得1956年的Dartmouch这个会议，有四个大佬，认为这个会议是人工智能的出生典礼。

　　关于人工智能业界有两个说法，一个是弱人工智能，一个是强人工智能，就是大数据人工智能，典型的例子，今天飞机会飞，小鸟也会飞，但是小鸟是生物，飞机从来不会学小鸟一样煽翅膀也能飞起来，到人工智能也一样，没必要有大脑，把所有知识整合起来，也是人工智能，是弱人工智能，另外一类是强人工智能，就是像人脑一样工作，在脑科学的基础上，大量投入跟信息进行紧密融合，前者可以比较短见到效果，后者是非常难的长远的项目，在整个国家层面，这也是两条线在往前推荐。

　　人工智能三次浪潮不讲了，特别讲一下第二次上大学的时候赶上，到处都在讲神经网络，很好我的职业生涯中能碰到第三次人工智能，这是很高兴的事情。

　　我们对人工智能的看法：我们认为是人工智能的理智派，确实人工智能远远没有达到威胁人类的地步，这个行业很有意思的现象，凡事不懂人工智能的，都觉得人工智能好厉害取得人，凡是懂点人工智能都是谨慎的，都是理智派的。

　　科大讯飞和人工智能的逻辑关系

　　接下来再讲一下，科大讯飞和人工智能的逻辑关系，之前讲了做云的公司，跑到视频的场合来干什么，你是做云的公司和人工智能有什么关系呢?这里我在讲讲科大讯飞和云的公司和人工智能的关系到底是什么?

　　这里面有一张图，讲一个背景，是《人类简史》这本书，非常好的一本书，这本书人类形成脑容量可以具备智能的时代，是两百万前已经可以，但是一直到七万年前，才慢慢表现出“智”的智慧，类似于高等生物的行为表现，到现在进化成人，为什么前面的193万年前都干嘛去了，这里后面这本书揭示了一个原因，他说7万千前的时候出现了语音，这是促进人类从野兽进化成人一个根本的原因。从最简单的语言，猴子叫一声等等，到人能够发展语言，可以反馈信息，人会八卦了，会传递小道消息，就意味着有组织，一旦有组织，有意味着整合更大的资源来做事情，一旦有150人组织规模的时候，很多不能做的事情就能做，当然现在随着人类的发展，我们就可以传递虚构的概念，可以在更大规模上，进行大量陌生人的合作，进行社会创新。

　　在这个过程中，我们会发现，“语言”，语言是指促进人类智能发展的一个核心的东西，所以我们很荣幸，我们也误打误撞，我们是做语音，很自然了解到语音的产生，语音的机理，促进到人的机理，不自觉就促进到人工智能的机理。牵涉到人工智能的BAT，我们做了考试机器人，让机器人能够考上高考，日本和美国都在做，美国让机器人考上华盛顿大学，日本是考上国立情报所，我们国家是考上一本，这很难，这有什么意义，其实本身并不是很有意义，但是过程研究的一系列的成果，那可是了不得的东西。

　　我们的翻译已经道路六级的水平，我们自动阅卷，能够让机像专业老师批阅卷子。高考如果哪个老师看你写的字不好，给批比较低的分数是影响很大。我们去年在江苏省做了一个试点，替代老师评判高考的试卷，怎么做，几万卷下来，先人工改好，这个试卷有了标准答案，让机器去学习，学完之后再让他改其他的卷子，后来发现机器评分的一致性远远好于人的一致性，这意味着如果机器代替评分，可以保证公平性，大家知道最重要就是公平，而且这样的话，我们高考改革就有基础了，不然人为因素怎么搞这个事情，我觉得这个事情是非常重要的事情，能够保障高考公平，能够促进科举制度发展的重要的基础保障。

　　还有一个让人惊喜的进步是什么呢?机器自动建知识图谱，我们之前讲知识，知识是什么?知识在计算机的理解，第一件事情知识要阶级结构，一段简单的文本它不是结构化，机器没法推理和理解，怎么让他有用，要把文本分割找到词，找到词和词之间的关系，让知识和机器产生关系，比如说美国大选期间，特朗普炮轰杰布布什，伊拉克战争都是你哥的错，这句话要理解这句话的意思，就要知道他们几个人之间的关系，国家之间的关系，那就需要依赖于知识共建，同样这句话出来之后，我要更新我的知识图谱，慢慢知识库才能建立起来，这样的话，机器才有可能变得结构化起来，慢慢进步的话，慢慢我们在知识图库的构建上，比传统的方法已经稳步的提高，慢慢我们就可以能够有初步知识库构建的套路和方法。

　　机器的阅读理解能力，也慢慢能够达到小孩子的水平。

　　还有一个有意思的事情跟大家分享一下：

　　我们知道有一个很著名的测试叫图灵测试，你拿个林子，背后那个人不知道，但是图灵测试是五十年前就搞的事情，那个时候还没有互联网和大数据，现在一搜，百度谷歌都出来了，现在一搜索答案就出来了，很多时候让后面的人不知道什么东西?所以图林测试受到旨意，这个测试第一句是爸爸没法举起他儿子，因为他很重，第二句话爸爸没法举他的儿子因为他很虚弱，这两句话人很好理解，但是机器就很难，所以过去这些东西很难搞，通过人工智能的技术有了进展，去年我们了第一名，也被MIT报道，但是实际也比之前强了一点，所以还有很长的路要走。

　　后面我特别要讲一下：关于杰布布什和一些具体的领域，我们能够看得到摸得到人工智能改变生活的案例，包括医疗、交通等等。举个例子跟大家讲：

　　第一人工智能跟教育的关系，复杂的图就不讲了，讲讲故事，我上小学的时候，有几年被老师特许是不用做家庭作业，为什么呢?因为成绩比较好，老师平时给大家布置作业，根本不适合你，你没必要花那个时间，我对老师感恩戴德，这反映了什么东西，过去讲“因材施教”，那是“教”，但是每个人的学习成果，每个人知识点的把握，每个人的水平都是不一样，现在上课怎么上课呢?一个班40、50人老师讲一套东西，怎么做到因材施教，我成绩比较好，老师都是开小班的，只能做到这一层，别的人怎么办?所以跟人工智能一应用，在社会上有很大的贡献，如果机器能够读懂你的作业，把你答题记录在机器，就可以知道你哪个地方学得好，哪个地方学得不好，哪个地方需要花时间，哪个地方需要不花时间。

　　第二，根据这些结果，之前掌握不好的地方推送你题库，这样把整个学习变得非常有效率。学习有效率，提分就是自然的结果，所以把人工智能运用到教育对整个国计民生都是非常有意义的事情。

　　刚才讲了我们有人工智能阅卷系统，还有学生每周的周考输入进来，通过自动阅卷，把标准化的结果都识别出来，然后自动批改知道哪个地方错了，哪个地方没有错，然后建立起你的档案，分析你哪个知识点好，哪个知识点不好?后面通过一些算法，给你针对性推送图库。这样使学习的效率有了更好的提高。

　　我们在合肥一中做了实验，大家可以看到进步是非常明显的，我们现在跟深圳中学，还有北师大附中建立根据地，希望能够把我们的人工智能技术能够给教育系统有效的改变。

　　人工智能让医疗更先进

　　下面是人工智能和医疗，具体的框架不讲了，给大家看一段视频，这是一张CT的扫描图，然后机器在自动分析，这是肺部的一个CT图，他会找到中间的有结界的地方，然后辅助医生看哪些结界可能有问题的，提醒医生进一步去分析。因为我家除了我做IT之后，其他都是做医生的，我妹夫就是看片子，他每天就看不完的片子，我就经常问他，如果这套系统出来，你们怎么办呢?对你是好事还是坏事，好事可能解决你的脊椎，坏事你可能没饭吃，但是科大讯飞不是替代人，是让机器为人更好的工作，让人有更好的生活。

　　另外还有有意思的事情，我们跟公共安全领域的应用，我们跟国家建立实验室，我们建立了一些声文库，这件事情除了政府的公关事情我们不方便多讲，我觉得有一个意思是就是“反诈骗”，电信诈骗是非常恐怖的事情，经常搞得人家倾家荡产，我们在手机端或者局端，时时检测声文信息，如果这个人在我这里登记，我不管三七二十一，我先把你断掉，有些电信诈骗，有些老头老太太，你就是搞不懂，但是我不管你什么，我就给你掐断，这样有效地在源头上解决这个事情。详细的我就不讲了。

　　后面给大家看一个例子。这是我们语音在法院的应用，有人打过官司都知道，在法院要配一个书记员，法官被告人律师说什么话，每个人都记录在案的话，如果说话太快书记员说暂停，我记录不下来，就要暂停，所以有了这个系统，可以有效的提升庭审的效率，上来有个法官说本来一下午可以做三场，现在有了这套系统可以做五场，这一点跟视频有蛮大的关系，公安系统原来身份犯人都有笔录，现在要求都有视频记录，防止刑讯逼供，什么叫刑讯逼供?那要抽查，要每个人去看，到你审讯过程中有没有刑讯逼供，这就牵涉到人工智能在视频中的运用，我要检测某一段是不是存在刑讯逼供。所以这个方面都会人工智能在视频领域关键场景的应用都是有需求，如此之外我估计有很多的应用，在关键音频、关键的视频的检测，我记得有一个例子，我们在拍片子的时候，经常有咔碴一下，那叫什么名字我都不太清楚，后来很长时间了解到，就专门为剪片子用的，但是现在只要开始，我这个机器可以很容易把它剪辑出来。

　　最后我想总结一下：人工智能不可怕，但是人工智能远比想象要快，未来很多工作，很多事情都会被机器所取代，我们科大讯飞做人工智能的人，我们希望我们的人工智能会让人们生活更美好。大概讲到这里谢谢大家!

责任编辑：吕佩

分享到：