独家|语音AI在智慧家庭下的平台化路径可能
林起劲| 流媒体网| 2020-12-04

  【流媒体网】摘要:语音AI在中外大视频领域正在成为潮流;那么,如何理解语音AI的价值,其在智慧家庭下的发展路径将是如何?

  最近,语音AI频频出现在笔者的视野中。11月25日上午,中国电信集团与科大讯飞在京举行战略合作协议签约仪式。双方将在智慧家庭、智能客服、A.I.平台,产业数字化拓展、政企行业、天翼云等领域建立长期战略合作关系。实际上,作为中国移动战略参股的AI科技公司,科大讯飞本来就是中国移动语音AI领域全线产品的战略合作伙伴。而中国移动不仅大量大规模推进语音遥控器,此前还发布了面向智慧家庭的小荷音箱。在广电领域,广东广电网络公司、安徽海豚新媒体等机构也都采用了语音AI技术。其中,广东广电语音用户在去年底已经突破百万。当然,广电机构对语音AI的应用主要是在家庭娱乐及智慧家庭范畴,而像中国电信这样的电信运营商还要将其与视频AI等结合起来并应用到行业领域。

  一、语音AI在海外大视频市场成为事实潮流

  不过,更加吸引笔者关注的是,近年来语音AI在海外大视频领域的密集应用——包括Comcast、Verizon、BBC、Virgin Media、Sky等大视频主流机构都在规模化地应用语音AI技术。

  Comcast语音AI应用:从有线电视到智慧家庭到OTT。Comcast最为最大的有线运营商和宽带运营商,早在2013年就开始应用该技术,在2015年基于X1平台推出语音遥控器,并在后续不断进行功能迭代,以推动用户“玩电视”消费习惯。2017年12月,Comcast也开始探索把A.I.的应用领域从上述电视领域拓展到其智能家居“Xfinity Home”系列产品之中,包括家庭监控、物品查找等。截至2018年初,该产品已拥有约2000万家庭用户,每个月收到的用户语音指令高达约6亿条,成为Comcast最受用户欢迎的产品之一。由于Comcast在语音AI技术应用方面的长期积累,其在今年5月发布的流媒体服务Peacock,在8月就启用;基于语音遥控器提供的交互式广告(参考《Comcast的AI之路:从玩电视到智慧家庭及互动广告》)。

  BBC:从依赖第三方到借势第三方。在英伦,BBC感受到语音AI广泛的应用潮流,并在2017年10推出一款通用型软件,并迅速集成到Amazon Echo、Google Home、苹果HomePod、微软Invoke等热门智能音箱产品中。BBC通过这一借势举措,可以方便用户通过这些智能音箱搜索发现BBC自身的节目内容,从而体现了“无处不在”的策略。2019年7月底,考虑到用户隐私保护需求,以及提供BBC自身的个性化应用,BBC宣布创建自己的新语音助手“Beeb(小蜜蜂)”。但BBC依然支持想要访问BBC内容的第三方语音助手,如Amazon Alexa、Google Assistant等。因为,BBC发现很多用户都期望能通过Amazon Echo这样的第三方设备查找BBC节目。当然,BBC发布自身的Beeb应用目标之一是,其在与第三方平台进行协作的同时,确保用户UI包含一致性元素(参考《独家|BBC如何玩转AI语音技术?》)。

  此外,Sky的核心终端平台SkyQ从2019年开始就全面应用语音AI服务。而Verizon和Virgin Media最新发布的终端中都具备语音AI支持。其中,Virgin Media的TV360平台将新的语音遥控器作为重要卖点,Verizon的语音遥控器则由Google Assistant支持(参考《劲语快评|在线直播监管进入2.0阶段,终端平台成海外大视频PK关键》)。

  二、语音AI的核心吸引力是什么?

  语音AI的核心吸引力是什么?它是否仅仅只是一种技术?对于这一问题,可以将语音AI与视频AI/计算机视觉进行对比。两者都凭借深度学习取得重大突破,并在识别准确率上达到人类水平。但是,计算机视觉通过人脸识别这一大技术分支便高完成度地解决1:1或1:N比对问题,快速渗透到了各行各业。而智能语音技术要解决的却远远不是1:1或1:N的比对这样的单一性技术问题。

       然而,在语音AI场景中,完成语音识别之后的关键是对用户指令的理解并维持良好的人-机对话状态(如图2所示),这背后隐藏了高密度信息,这远非单一性的计算机视觉技术可比。以具备全双方语音AI能力的微软小冰为例,它的目标是边听边思考,并学会在倾诉和倾听中控制节奏,还要通过上下文理解和关键记忆以努力识别对话场景并学会引导,显得更加“懂事”(如图2所示)。

  图2:人机对话的实现流程

  图3:全双工语音AI的智能之处——以微软小冰为例

  简而言之,人们面对语音AI时希望得到的自然、类人、甚至高信息密度的交互体验,这是一个宏伟的开放性课题,背后涉及的各学科技术之间的融合创新,处于持续推进阶段。就笔者所知,除了上述全双工处理技术外,语音AI还要面临对话引擎优化、声学感知空间环境等技术挑战。

  笔者以为,语音AI区别于视觉识别等方面智能技术的核心吸引力在于其人-机自然交互的亲和力、需求直达性与开放性。当然,语音AI最关键是对用户需求的理解及对应的场景识别,其在用户语音命令之后将生成的一系列可能由多个设备共同执行完成以满足用户需求的命令。比如,一个用户回家后说“我要看《我是歌手》”,拾音设备在接到该命令并识别之后会将智能电视机接上电源,将客厅灯光适度调整,并在电视机打开后从广播平台和OTT平台寻找最新的《我是歌手》节目,如果广播的直播频道有就切换到播放质量最有保证的频道,否则就在OTT平台寻找提供该节目的APP并将之打开。甚至,后台可以根据该用户以往的收看情况或最新社交话题,与用户进行对话,获得用户进一步的期望并给出针对性节目推荐。

    在此引用笔者一位朋友也是业内人士李栋的话:家庭语音语义能力成为家庭的“新基建”,才会解决现在野蛮生长阶段的诸多问题,才会带来真正的智慧家庭!!这句话深刻体现了语音AI背后的高信息密度,笔者非常赞同。事实上,笔者对于语音AI的最初理解,正是开始于与李栋兄的交流。笔者也继续引用李栋兄后面的话:“以厂商的视角,可以把54M的WIFI+有线比做智慧家庭的黄金时代,百兆无线+蓝牙算是白银时代,正在普及的WIFI6+蓝牙5.2+语音ai就是惨烈的黑铁时代。但这个黑铁时代对用户而言却是更加美好的时代。因为只有普及了的技术才是用户友好的技术!”显然,如何理解这些观点肯定是仁者见仁智者见智了。

  三、未来智慧家庭发展模式研判:“X-1-N”

  从上面的分析来说,语音AI就是一个关键的入口或重要的连接节点,在智慧家庭环境中存在很多可能。具体将是如何呢?这需要结合智慧家庭生态与业务模式进行分析。考虑到(1)类似Echo Show这种带屏音箱的流行,(2)过去一年多以来所谓“智慧屏”带动的跨屏连接潮流,以及(2)智慧家电设施的逐步推进,笔者认为未来智慧家庭场景或是“X-1-N”模式。

VIP专享文章,请登录或扫描以下二维码查看

“码”上成为VIP会员
没有多余的门路、套路
只有简单的“值来值往”一路!

深度分析、政策解读、研究报告一应俱全
极致性价比,全年精彩内容不容错过!
更多福利,尽在VIP专享


分享到:
版权声明:凡注明来源“流媒体网”的文章,版权均属流媒体网所有,转载需注明出处。非本站出处的文章为转载,观点供业内参考,不代表本站观点。文中图片均来源于网络收集整理,仅供学习交流,版权归原作者所有。如涉及侵权,请及时联系我们删除!