您现在的位置:首页 > 商界

风雨20载,科大讯飞行至繁花盛开处

  编辑:纪海涛  来源:科技新知时间:2019-06-12

近日,618年中大促正如火如荼进行,各大电商平台已早早开始了这场消费狂欢的竞速。数据显示,在竞争激烈的智能网络产品中,科大讯飞脱颖而出,成功夺得翻译机、录音笔、智能机器人等多个产品品类的销售冠军。

在普通大众的印象中,这家以语音技术见长的人工智能企业似乎是近些年来国内的一股新鲜力量,毕竟人工智能热潮前后才不过五六年的时间。但事实上,这家公司已在智能语音与人工智能领域深耕多年。6月9日,科大讯飞迎来了它的20周岁生日。

一个决定,一个诞生

在科大讯飞20周年内部讲话中,刘庆峰说:“未来十年,我们有三个关键战略路径。第一,要坚定不移地实施顶天立地的技术战略,我们的价值核心基础是技术的持续领先和引领、立足于未来的产业需求、发展高科技并实现产业化;第二,要坚定不移地推行我们平台+赛道的产品战略,产品要成功、生态也要成功;第三,要坚定不移地推动to B和to C的双轮驱动。用A.I.赋能个人成为产业的拓荒者和领导者,我相信科大讯飞在未来十年产业版图的前途会非常巨大。”

这些年刘庆峰做了无数次演讲,而上述一幕只是这些年间的无数分之一。演讲之后,面对满堂的鼓掌与喝彩,也许刘庆峰眼前会掠过自己26岁时的影子。

1999年,26岁的刘庆峰必须做出一个至关重要的选择。

一是出国读博,已经有学校愿意提供几万美元的奖学金。而这条路的尽头,或许是穷经皓首的刘博士,亦或许是一颗耀眼的学界明星;

二是接受刚刚组建微软亚洲研究院的李开复提供的微软奖学金,到微软实习一个月。更大的公司,更大的平台,更平稳的过渡;

三是带领实验室的师兄弟们,一起做一番事业,前路一片混沌。

三个选择,三种人生。刘庆峰选择了最难的第三条路,而这看似冲动的决定背后,却是十分具体而审慎的选择。

在当时,刘庆峰正担任福建中银集团与中科大建立的联合实验室、中文语音合成第一个产业化的实体中银天鹰智能多媒体实验室的总工程师,和师兄弟一起开始为中银集团提供技术支持。

在上个世纪末,所有人都并不清楚语音要具体做什么。今天想搞个语音PDA,明天又想做个语音听写软件,后天又搞工商查询系统,团队疲惫不堪。兄弟们受不了,便找到刘庆峰说,要么你出来当CEO,要么我们就解散。

与此同时,刘庆峰的博士生导师王仁华也对他说,这个事情可以成,这么多优秀的年轻人能团结在一起,在科大的历史上还从来没有过,要是解散就太可惜了。

而且,当时语音技术大都掌握在国外的高校和企业手中,而国内关于这片土地还仍是一片待开垦状态。因此有一句话一直在刘庆峰脑袋里挥之不去,那个声音在说:“中文语音技术应当由中国人做到全球最好,中文语音产业应当掌握在中国人自己手中。”

青年的热血浇筑理想,风华正茂,挥斥方遒。

梦开始的地方,在合肥市西园新村的出租小屋。由于计算机散发的热量,本来狭窄局促的房间显得更加闷热,夏季来临,计算机围成一圈,房顶吊一个电扇,每个人都汗流浃背,一边擦汗一边擦键盘。

回想起创业之初的情形,刘庆峰说,我们在工作室旁边的农村里找了一户人家给我们做饭,中午吃饭也没椅子,大家就都蹲在那个地上。因为做语音需要,我们请了一个播音员女孩子,她来的时候还很兴奋,结果来了三天,她很委屈,一边吃饭一边说,这哪是搞研究的,就是一帮难兄难弟。

而平行宇宙中的刘庆峰,或许正身穿白衬衫,出入于微软研究院,做着一份更加“体面”的工作。

等风来

创业生涯,九死一生,这不是开玩笑。

早在1998年,刘庆峰带队参加了在北京的863语音合成评测,这一次中科大在评测中获得了3分(5分是播音员水准,4分是普通人发音表现,而3分则是勉强可以接受的),这是当时语音合成获得最高的分数,“唯一达到了可实用阶段”。

随后,在1998年8月的“国家火炬计划十周年成就暨高新技术产品博览会”中,中科大的语音合成系统被选为唯一的软件标志性产品而列在特展位上。同年12月,在新加坡举行的国际汉语口语处理研讨会(ISCSL)上,中科大的KD语音合成系统被与会各国专家高度评价,刘庆峰介绍KD系统的论文也获得了大会的最佳学生论文奖。

这是一个技术上极其强劲的团队,但在商海中一样必须面对暗礁涌动。

2000年,个人电脑开始进入中国家庭,很多用户根本不会操作,科大讯飞看准了这个“痛点”,推出了第一款产品“畅言2000”。借助语音方便电脑操作,在当时打出了“会说话就会用电脑”的广告。

刘庆峰将销售渠道铺到了全国10多个省,他们甚至预想了产品热销的丰满梦想,但由于语音输入和控制并非硬需求,大多数人还是更习惯于使用键盘和鼠标,加之价格太高,畅言2000几乎无人问津,科大讯飞也由此亏掉两千多万。

秋末,科大讯飞经历了市场的沉痛打击后,于巢湖半汤温泉,迎来自己命运的第二次抉择。

半汤会议持续了两天,虽然刘庆峰希望借助温泉这样一个放松的环境来想清楚公司的前路。但秋末的寒冷依然使会议的气氛变得肃杀。

有人说直接解散吧。

有人说可以做别的赚钱更快的行业。

十几个人各抒己见,会场一片狼藉。最后,刘庆峰做出了最终的决定:继续做语音,谁不乐意,直接走人。

“燃烧最亮的火把,要么率先燎原,要么最先熄灭”,这是刘庆峰在当年的年度大会上说的一句话,这句话至今仍被挂在讯飞大厦的墙上,激励着每个讯飞人在智能语音与人工智能道路上不忘初心,坚守前行。

回顾科大讯飞二十年来的发展历程,这是两个关乎命运的决定。而随后将科大讯飞带到“全球50大最聪明公司第六名”、“中国第一个语音上市公司”、“中国第一个在校大学生创业上市的公司”这样位置的,则是一个坚持。

智能语音和人工智能,这一在创业初期就决定好的方向,在二十年里科大讯飞一直没有动摇过,并且从来都是全力以赴,而非当作一个简单的业务线来做。

而这样的坚持,在最近几年终于等到了属于自己的风。

2010年10月,科大讯飞发布国内首个以智能语音和人机交互为核心的人工智能开放平台——讯飞开放平台,随后基于该平台相继推出讯飞输入法、讯飞听见等示范性应用,推动与广大合作伙伴携手构建以讯飞为中心的人工智能产业生态。截至2019年5月31日,讯飞开放平台开发者总量超过103万,总应用数超过64万,累计终端用户数超过23.9亿,AI大学学员总量超过30万。

而在之后的短短几年间,各式各样的智能语音公司如雨后春笋般长了出来,行业终于开始蓬勃向上,而在此之前,科大讯飞已经深耕并等待了十几年。

前路繁花

5月21日,上海世博中心,科大讯飞召开了2019新品发布会。

新品发布会上,刘庆峰透露,2018年11月,科大讯飞机器翻译系统参加CATTI全国翻译专业资格(水平)科研测试,达到英语二级《口译实务(交替传译类)》和三级《口译实务》合格标准,意味达到了专业译员水平。  

这是历史上首次参加并通过国家级权威口译水平科研评测的人工智能系统,这也标志着机器自动翻译在辅助人类跨语言信息沟通交流方面上了一个新台阶。

此外,2019年3月,机器阅读理解国际权威评测SQuAD 2.0任务中科大讯飞再次登顶冠军,并同时在EM和F1两个指标上全球首次均超越人类平均水平,一举创下比赛的全新纪录。

“这个里程碑是由中国人写下的,这是英文的自然语言理解,机器已经超过真人水平”,刘庆峰说。26岁刘庆峰脑子里的那个声音:“中文语音技术应当由中国人做到全球最好,中文语音产业应当掌握在中国人自己手中。”已经成为现实。

上述在语音智能领域所取得的历史性突破,离不开背后坚定的战略决心。早在2015年讯飞的年度董事会上,相关高层就已经作出了一个非常重要的决定:不再只追求当前的税后利润增长,要把资金投到决定未来的战略方向上。

结合财报来看,科大讯飞连续多年的研发投入占销售收入的比例达到20%、甚至25%,这就是在为未来做大量储备,把利润填充到了未来发展的战略准备之中。

而这些投入也获得了相应的回报。现如今,科大讯飞在语音合成、语音识别、机器翻译、医学影像、人脸识别、自然语言理解等方面的国际比赛中,多次刷新全球纪录,仅2018年,科大讯飞拿12个国际权威赛事的“世界第一”。此外,目前,科大讯飞主持和参与制定的国家标准有2项、国际标准有1项,累计获得国内外的有效专利有 260 件。

而在具体成果方面,科大讯飞更是提出了严谨的AI价值兑现标准。刘庆峰认为,跨越鸿沟后的人工智能技术价值兑现有三大标准,分别是:“必须要有看得见摸得着的真实应用案例”,“要有能够规模化和可推广的对应产品”,“要可以通过统计数据去说明应用成效”。

同时根据该标准,推出了一系列切实可用的新产品。

双轮驱动,初露锋芒

在中国,想只靠提供技术就成为一家大企业,在客观上存在有诸多困境,而清楚意识到这一点的科大讯飞,从来都没有放弃过C端的布局。

2016年年底,科大讯飞做出新的组织结构调整,拆分出消费者事业部。经过两年的励精图治,在2018年这一调整也已经初见成效。

科大讯飞2018年财报显示,ToC业务实现营业收入25.17亿,同比增长96.54%;实现毛利12.96亿,同比增长70.77%;ToC业务在整体营收中占比达31.80%,毛利占比达32.72%。,To B - To C双轮驱动的良好格局正在形成,在各种经济周期下实现相互补充、相互促进。

而这一系列营收上的突破,很大程度上得益于产品突破。

科大讯飞2019新品发布会中,发布了五大单品和一个操作系统,具体是讯飞翻译机3.0、讯飞智能录音笔、讯飞智能办公本、讯飞学习机X1 Pro、讯飞转写机和iFLYOS 2.0。

其中,在去年成为“新国礼”的讯飞翻译机,全年提供翻译服务5亿+次,伴随用户走遍全球197个国家和地区,电商用户好评率达99%。全新升级的讯飞翻译机3.0实现了医疗、外贸、体育、金融、能源、计算机、法律等七大热门行业翻译,支持粤语、四川话、东北话、河南话四大方言与英语的互译,整体支持的语言已经覆盖到近200个国家和地区。

就在最近,讯飞翻译机3.0、讯飞智能录音笔SR501、讯飞智能录音笔SR701等三款新产品还斩获了2019亚洲消费电子展(CES Asia 2019)的创新大奖,代表了当届该领域内的创新趋势和产业方向。

录音笔作为一款早已被市场验证过的传统工具,在科大讯飞AI技术的加持下,焕发出了全新生机。无论是硬件方面麦克风的豪华配置,还是讯飞自研的算法降噪,都使得智能录音笔在拾音方面上了一个全新的台阶。

而科大讯飞超强的语音识别技术,也使得录音笔兼具了语音转文字功能,识别准确率高达98%,真正实现了录音1小时,出稿 5分钟。

这些都体现了深入还原需求场景,解决用户痛点的产品思维。而这一系列产品所取得的成绩,也为科大讯飞的商业前景和进一步生态布局,奠定了重要基础。

结  语

回望来路,科大讯飞从语音合成技术提供商,到语音识别技术应用于彩铃业务,从第一个基于深度学习的语音识别系统,到语音交互乃至人工智能领域的探索。

脚步不停,景色变幻。但唯一不变的是以智能语音与人工智能领域为核心的深耕。

或许有一天,随着科技的飞速发展和外部环境的急速变化,科大讯飞会延展出更多的业务线条,但有一些内核是永远不会变的,那就是底层的价值观。

2019新品发布会中,刘庆峰登台展示了一段实时变声黑科技,他在台上说什么,台下立马会以另外一种声音传达出来。科大讯飞的这项技术,可通过提取原声语音中的内容信息,包括原声的节奏和情感,再结合特定人的音色进行转换结合,惟妙惟肖的复刻模仿特定人的声音,这种基于音色与内容分离的声音转换技术,实现了声音的cosplay。该项技术在Voice Conversion Challenge 2018国际音色转换大赛中获得全部指标第一名,也是音色和相似度上唯一一家超过4.0MOS分的系统。

不过,刘庆峰现场明确表示不会轻易将该技术在各种APP中对外开放,因为技术是一把双刃剑,存在安全风险,“一定是要有一种健康、安全又有趣的方式来跟这个世界对接”。

“人工智能要持续发展,最核心的是它的价值观如何阳光健康,与人为善。”

自2008年上市以来,科大讯飞始终秉持着这样的价值观。无论是“方言保护计划”,还是“AI教育公益”,抑或是“AI医疗公益”,“AI无障碍公益计划”等一系列行为举措,都体现出了科大讯飞的价值导向,以及积极承担起的社会责任。

科大讯飞2019新品发布会的slogan是“你的世界,因AI而能”,旨在宣扬人工智能(AI)对世界的巨大影响。

但事实上,科技本无善恶,其背后的研发运营人员才是决定科技应用的关键因素。

仔细想想,这何尝不也是我们的世界,“因AI(科技)而能,因爱而能”。

40
最新期刊
X
X