“双十一”来到第11年,直播风头正劲。“所有女生”这句来自主播李佳琦的口头禅,成为直播时代的宣言,无数人为之掏空口袋。今年“双十一”期间,淘宝直播已经成为商家标配,服饰、美妆、食品等行业商家纷纷拿起了直播工具,有人甚至戏称:现在还不开直播的店铺,就跟没有详情页一样。

为了更好的观看体验,淘宝自主研发了全新的音视频实时通信架构,实现了大规模低延时直播,从原先5秒至7秒的延时降低至2秒以内,提升了用户和主播的互动效率,此外,人工智能技术还可以实时识别主播正在讲解的商品,陈列在直播页面中。

没错,时代的风吹到哪,技术先行抵达。直播、短视频当道,这类“双十一”新玩法的背后,也有不断进步的AI。

AI助手为主播分忧

进出直播间的剁手党成千上万,分分钟形成刷屏之势,主播分身乏术。这时候,他的AI秘书就登场了。给主播打下手,提供主播问答、商品问答、优惠券问答等服务都不在话下,也就是说,你在直播间问的问题,大多都是AI助手在解答。

据阿里巴巴达摩院资深总监、阿里巴巴集团智能服务事业部总经理赵昆介绍,AI秘书使用了自然语言理解和基于知识图谱问答等技术,能够精确解析直播间观众对于商品和主播的多种复杂表达和问法,在直播场中实现多对一沟通的高效快速响应,大比例提高直播间的客户问题的回复率、解决率。

除了基于文字,AI客服还可以进行基于图片的智能问答。赵昆表示,AI客服利用图片解析算法理解图片内容,结合用户的问题,自动理解和识别截取可以回答用户的图片作为回答,并高亮图片中的精确答案位置。目前,智能图片问答已经覆盖了家电数码、零食果蔬、母婴洗护等多个行业。

方便了剁手党,卖家同样受惠于AI。“双十一”期间,卖家需要在短时间内制造大量宣传图、海报图等,图像智能生成技术就派上了用场。基于图像智能生成技术,AI设计师可以改变传统的设计模式,在短时间内完成大量横幅广告、海报图和会场图的设计。卖家只需要任意输入想达成的风格、尺寸,系统就能代替人工完成素材分析、抠图、配色等耗时耗力的设计项目,实时生成多套符合要求的设计解决方案。

据阿里巴巴达摩院资深算法专家谢宣松介绍,目前该系统已经达到了高级设计师的水准,每秒可以提供几十种方案、可以设计8000张不同的海报,去年“双十一”期间,这位AI设计师就累计为20万企业、商家设计了近600万张图片,消费者在天猫网站看到的各种海报和活动商品图片几乎都出自它手。

图片之外,短视频也成了标配。谢宣松介绍,短视频智能设计产品基于图像智能识别技术和视频智能生成技术,帮助用户在极短时间内完成大量的商品营销类短视频的设计和制作。“用户只需要输入商品详情页链接或者从本地上传图片视频素材,它就可以进行图片素材解析过滤、商品理解和定位、视频素材剪裁准备、视频剧本导演、视频渲染生成等一系列复杂的设计工作,并可以依据用户的风格尺寸等简单的个性化要求进行输入,提供流媒体内容生成视频的解决方案。”谢宣松解释说。

机器翻译帮助货通全球

卖货到全世界,语言不通怎么办?“双十一”之前,机器翻译技术已经经历了升级,对话机器人可以帮助全世界中小卖家将产品详情与评论自动翻译成当地语言,还实现了实时AI语言翻译的客户服务与业务咨询,涵盖64种语言方向。当然,获取商品信息光靠看商家网页还不够,有问题找客服,海外消费者也不例外。在国内,承担客服职责的是对话机器人,这两年,它还有了国际版,专门服务海外业务平台。

据赵昆介绍,对话机器人精通英语、法语、泰语、西班牙语、阿拉伯语等11种语言,两周就能学一门新外语。

“今年,对话机器人新学了阿拉伯语、法语和繁体中文,并且推出了马来语—英语、泰语—英语等混合语言问答功能。”赵昆说,“混合语言问答的情况在马来西亚等地很常见,在当地的客服场景中,大部分用户用英语咨询,少数用户用马来语咨询,并且常有英语、马来语混用。对话机器人不仅要同时理解这两种语言,还必须理解复杂的语言混用情况,并给出相应的回答。”

不过,它使用的并不是机器翻译技术,而是一种自然语言处理技术跨语言学习(Cross-lingual Learning)。“小语种缺乏大规模训练语料,很难通过过去的机器学习技术习得,跨语言学习能够克服资源匮乏的瓶颈。”赵昆解释说,跨语言学习是一种多语言的自然语言处理技术,它通过语言之间的知识迁移,借助中文、英文等语料资源充足的语言,帮助算法模型提升理解小语种的能力,从而快速拓展机器人的多语种支持功能。借助跨语言学习技术,对话机器人还能掌握更多语言,甚至包括土耳其语、乌尔都语等小语种。

“通俗地说,语言是符号,不同的语言是不同的符号系统。想象语言所指的每个事物/知识都对应一个确定的身份标识,后者在不同的语言中被不同的符号所代表,或者说,不同语言所用的符号映射到同一个语义空间。跨语言学习做的是帮助机器理解语言所指的身份标识,并借助资源丰富的语言去学习资源匮乏的语言。”赵昆进一步解释。

他表示,基于语言之间的交叉映射关系,对机器来说,在资源匮乏的情况下,通过将多种语言混合,学习语言间的共性,反而能比学习单一语言效果更好。2017年对话机器人初次在海外落地,用6个月学会了印尼语,又用6个月在智能客服岗位上达成堪比中文机器人的解决能力,而现在,多语机器人新学一门语言的时间已经缩短到两周。

声纹识别开启语音购元年

今年“双十一”,语音购物千呼万唤始出来:消费者只要对天猫精灵说出想要购买的商品,就能直接下单;如果开通了“声纹支付”功能,还可以直接语音付款。

“语音购元年”,听起来科技感十足,据报道,已有数百万人体验了语音购物,其中超过半数的用户是首次尝试。声纹识别技术采用基于深度网络的注意力嵌入式模型,通过网络结构的参数设计,模拟了基于人耳感知的频谱特征,可以在一定程度上消除同一人在不同场景发音下的频谱特征差异干扰,显著提升远场交互下的声纹识别性能。

说话就能付钱,如何确保安全?阿里巴巴人工智能实验室语音技术首席科学家聂再清介绍,作为首个达到商用级别的声纹识别技术智能音箱,天猫精灵的声纹识别率已达99%,这是它支持声纹支付功能的基础,在支付级应用下,用户只要通过3次不超过10秒的交互语音,声纹识别技术就可以准确刻画用户的鲁棒性声纹特征,实现超过99%的识别准确度。

不仅如此,运用中文识别的自然语言理解算法,语音设备可以准确定位消费者需要购买的商品,以平台大数据为基础,依托声纹推荐能力,为消费者进行个性化推荐。“在语音购场景,天猫精灵基于注意力记忆网络可以自主学习各个行业导购员的经验,并结合用户特点呈现最优的导购流程,成为最懂用户和最懂行业的智能导购员。”聂再清说。

此外,今年“双十一”,消费者还可以体验AR试妆产品,AR试妆通过标准化工具拿到彩妆色号、材质等数字信息,通过AI+AR技术让用户看到同样商品在自己脸上呈现出的不同效果。

通过高效实时的精准人脸识别技术,即便在人脸晃动和大角度偏转时,都能有很好的稳定性表现,以毫秒级别画出商品在用户脸上的逼真效果。新玩法背后是新技术。在屡屡刷新的成交额、令人瞠目的商业数字之外,不断突破的技术正贴地而行。

关键词: 淘宝直播 AI助手