搜狗AI进化之路:从应用为王,到颠覆式创新

  • 时间:
  • 浏览:0

5月25日,成都,“高晓松”声音响彻会场,欢迎听众参会:

亲戚亲戚朋友好,欢迎来到极客公园2019年现场和亲戚亲戚朋友同時 分享人和机器的共创未来。

但实际站在舞台中央的人,却是王小川。

王小川,搜狗CEO,成都七中知名校友,中国互联网系统进程池池里最知名的川娃子,中学时代就打响了IT天才名气,然后又在历史际会创发名家 一方天地。

现在,因一场活动,王小川带着一项全球领先的技术再次回到成都,没错,也不 那一声“高晓松”的欢迎。

不可能 它在秒秒钟经过手机App前,还是王小川的原声。

搜狗“变声”,颠覆性进展

通过计算机合成某1个 人的“声音”,自然在AI江湖里算不上那此。

但不可能 真正实现“千人千声”要能瞬间“迁移”,然后在小小手机上实现,那人太好得竖大拇指。

不可能 全球AI第一大厂,Google,也还没做到。

就在一年一度亮肌肉的Google I/O上,全是“变声”方面的进展演示,但体现的是這個 语料输入到另這個 语料输出的“平行迁移”。

更AI的办法来说,one to one,从指定A到指定B.

但像王小川展示,无论说话者是谁,无论说那此,越多再考虑说话人的特点(如王小川的“川普”),最还时需够将“任意说话人”音色实时高逼真度变换到“指定说话人”音色,则是Any to one.

该过程中,不光是输入输出两端的映射关系变化,更是技术实现难度上指数级提升。

不可能 核心大问题在于,每1个 人的音调、音色和语言节奏全是尽相同,正如同世上越来越 两片相同的树叶一样,世上也没1个 完正相同的说话人。

怎样将“千人千声”通过技术防止,变为同這個 指定声音,同時 还不丢失原说话人的语言习惯?

离不开展现真正技术的语音表征学习和迁移学习的突破,简要来说三步:

首先,使用表征学习技术学习到源端说话人语音的音色、内容和韵律(讲话节奏、友情语气等信息)三大行态。

其次,将学习到的源端说话人音色行态替加在目标说话人。

最后,基于新的语音变声技术,使用内容(源端)、韵律(源端)、音色(目标端)三类行态,合成最终生成变声音频。

也不 大会现场,王小川的“说”到高晓松的“声”,实际经历了越来越 的过程。

然而,越来越 一短句,实现手中全是数千层宽度学习网络的努力。

如表征学习使用,上图所示,A每段对目标音色语料进行声纹行态编码,提取说话人的音色embedding。

B和C分别从输入音频中学习内容和韵律embedding,通过“说话人归一化”模块对内容embedding进行统一规整,去除音色信息,通过对音频行态的压缩编码及行态抽取,学习表征韵律的风格行态。

而语音变声,基于表征学习得到的行态,通过Attention和Decoder模块进行加权行态编码,并利用WaveRNN神经网络声码器恢复成波形,最终得到富含目标音色的音频。

当然,最具现实意义也最具技术挑战的还是落地。

这也是搜狗突破称得上颠覆性的意味——这是全球首次将越来越 难度的变声能力落实到消费级产品中。

然后还全是自家用软件专门定义打造的终端硬件,也不 融会贯通到小小“搜狗输入法”App中。

通过App,无论安卓还是iOS,无论那此品牌、何种价位的手机,都能实现“变声”,实时迁移成“表情语音包”。

未来应用自然不止于此。

语音届的“换脸”术

然后,Deepfakes带动的“换脸”不可能 实现了风靡,哔哩哔哩就出現了不少唐嫣 主演的《射雕英雄传》,惟妙惟肖,真假难辨。

但相比换脸的道德大问题和法律危机,“变声”却能立竿见影创造价值。

凡有音频处,皆能让AI变声发挥效用。

比如在线教育、景点导游、电商广告等等场景的音频制作。

1个 有口音的老师,1个 普通话不标准的地方导游,以及各种流量奶生。

怪怪的是实力待丰的流量偶像们,雇佣1个 熟练掌握“换脸”和“变声”技术的AI团队,就完正能靠脸吃饭,人在家中坐,钱源源不断来。

总之,然后有音频的需求,变声就能降低成本、提高速率。

王小川还想借此应用表明,亲戚亲戚朋友正在身处1个 怎样的技术时代。

跟技术结合,人类要能更强大。从不狂妄心怀碾压排斥,也不 接受技术的变革和改造,成为新人类,真正人与机器协同,变得更强大,创造更迷人的未来。

搜狗CEO毫无大问题想推动越来越 的未来。

AlphaGo洗礼,搜狗进化

在活动上,王小川也再次从AlphaGo讲起。

他认为这是你這個 时代的文艺复兴、启蒙运动,让亲戚亲戚朋友结束换另外的世界观看待技术和未来。

对于他所人们,你這個 进化更是显著。

在AlphaGo期间,他也不 “机器必胜”的笃定支持者。而AlphaGo获胜后,搜狗CEO更是直接为此开辟了一天“狗胜节”的带薪假。

也不 人都说搜狗会借势,但少人们了解王小川的遗憾。

不可能 在AlphaGo回应挑战李世石之时,王小川就感叹过,搜狗内内外部人太好也认真讨论过宽度学习下围棋的不可能 性和可行性。

但然后不少工程师认为时需越多再 资源、小公司更该务实……最终越来越 真正展开,直到AlphaGo在Nature上的论文发表,才慨叹思路和技术所见略同。

这让搜狗CEO学到一课:光有务实主义不够,工程师也得展现出敢想敢上的“浪漫主义”那一面。

也不 “狗胜节”与其说是庆祝,不如说警醒。

这也是搜狗蜕变和进化的结束。

然后搜狗是产品力突出的形象,从浏览器、搜索到输入法,江湖享有名气,怪怪的是输入法,在国内堪称“国民应用”。

但现在,搜狗的旗帜也不要 出現在全球AI的“华山论剑”中。

全球CoQA机器阅读理解大赛夺冠;

世界MegaFace百万级人脸识别竞赛中夺冠;

WMT2017机器翻译顶级评测大赛中英和英中第一;

国际顶级口语机器翻译大赛IWSLT决赛第一;

《基于模态注意力的端到端音视觉语音识别》中标国际顶级学术会议ICASSP;

……

此外,还人们工智能应用领域的引领性创新。

比如全球首个AI合成主播上岗新华社、CCTV,以及然后取得突破的“千人千声”变声落地输入法。

还时需提及的是,这只不过王小川和搜狗将所人们的技术底色更鲜明地亮出来而已。

对于技术、AI的投入,更早然后就能从两件公益大于一点的“投资”事件中窥见一斑。

清华学子的年度AI“华山论剑”——智能体大赛,创办21年的搜狗连续赞助15年,至今全是王小川必会参加的活动。

另一件也跟清华有关。2016年,搜狗向清华捐资1.8亿元用于成立“清华大学天工智能计算研究院”,集中研究AI等前沿领域技术。

值得一提的是,最近发表于全球顶会的端到端音视觉语音识别论文,正是搜狗和清华天工研究院的联手之作。

中国AI创新缩影

最后,也是然后借搜狗重新认知中国AI的发展现状和未来了。

谈论中国AI的然后,恐怕你依然会有越来越 的印象:中国应用有优势,但基础研究方面差距越多再 。

但从搜狗“变声”突破和应用来看,這個 越来越 明显的趋势正在展现。

图灵奖唯一华人得主、清华姚班创始人姚期智教授更是有准确概况,在接受《人民日报》采访时,姚院士越来越 说:

中国的人工智能在应用上绝对是杰出的,相对来讲对于算法基础研究越来越 越来越 强,然后对于你這個 大问题从长期的观点来看,我还是相当乐观的。

姚期智教授认为,AI正在变得热门,受到越多再 重视,全是越来越 人才投身其中,基础算法和理论研究也都被更集中攻坚。

我人太好亲戚亲戚朋友现在没越来越 强,然后然后的几年亲戚亲戚朋友要能追上。

也不 结合王小川和搜狗的种种努力及其结果,姚期智教授之言,从不单纯乐观而已。

虽要戒骄戒躁,但也没必要妄自菲薄。

如今局势,亲戚亲戚朋友希望更多创新诞生,既要有信心、也要给耐心,同時 也要给予更多关注,不吝给每一次突破献上掌声。