一款“语音实时转文字”工具,引出搜狗人工智能战略

科技动态 2017-08-10 阅读原文

CNET科技行者 8月10日 北京消息(文/周雅):就在一周前搜狗宣布赴美上市计划的那天,搜狗公司CEO王小川在员工内部信中写了这样一句话:“已经没有人会怀疑搜狗的生存问题了,唯一的悬念是搜狗是否能在搜索领域实现颠覆,是否能在人工智能领域引领重大的创新。”一时间,王小川的“悬念”成为看点——8月8日,搜狗正式迎来了第一款语音技术产品“搜狗听写”。

语音实时转文字背后有深度学习技术

搜狗听写的定位是“文字工作者的速记工具”。针对写文章、采访录音、会议记录、笔记整理 、日常记事等场景,以实现高效记录和信息输入。

搜狗听写最亮眼的功能在于“听写”和“转写”两种模式。“听写”模式下,录音的同时可以实时识别结果;而“转写”模式下则可以离线录音,录音完成后一次性获取文字结果。

除此之外还有诸如支持手机边听边改、无线标重点(蓝牙打点)、多客户端同步、信息分享、摘要、断点续录等人性化功能,另外,针对图书馆、咖啡厅等安静场所,搜狗听写提供耳语识别技术——人说话音量低至30分贝时,依然可以准确识别。

被牛露云称作“大杀器”的一个功能,是搜狗听写与搜狗输入法的个人词库已经打通,可以视为媒体撰稿人之间文字互通的功能。

关于下载,搜狗听写除了支持Android、ios版本之外,还开发了Windows版,Windows版特别针对会议场景,观众可以直接看到会议演讲者的实时字幕,字幕可能是直接文字的转写结果,也有可能是双语、多语对照结果,观众甚至可以直接扫码获取当天的录音和文本结果。

这样一款语音识别产品,实际上是基于深度学习技术,以提升复杂场景识别效果。

说到深度学习,离不开三要素:有没有大数据,有没有好的深度学习算法,以及能不能让深度学习算法在深度学习平台上高效运转。

搜狗语音交互中心技术总监陈伟介绍,“搜狗输入法每天语音识别的PV是2.6亿次,产生的语料规模是22万小时。”关于算法,搜狗早期较多使用深度神经网络,随后尝试了CN算法、LSTM的算法,现在转为CN+LSTM+DN的端到端的算法,可以更高效,准确率更高。

有了数据+算法,接下来就是运算,如何高效的给出模型以快速部署到线上,关键在于搜狗的深度学习平台。“我们可以在自有的深度学习平台上调动上百块算卡,快速的给出模型。”陈伟说。

实际上,目前市场上已有一些同类型的产品,例如科大讯发早期推出的讯飞听见等,相比之下,搜狗是否存在优势呢?搜狗语音交互中心负责人王砚峰表示:

第一,讯飞对应的产品,如讯飞听见、讯飞录音宝等,是不能支持长时间录音、并且免费转写的。而搜狗是首次做了长时录音设置,并且支持免费转写。

第二,搜狗的产品是面向垂直场景,包括记者采访的场景、作家写作的场景等等。这些功能虽小,但它体现在具体场景下,怎么绞尽脑汁的想尽办法,帮朋友解决问题。

第三,搜狗听写支持手机端和windows,还有语音实时转文字、边听边改、标重点、快速查找、多端同步、不限时长录音等功能。

此外,依托搜狗日均超过2.6亿次的语音请求,提供海量的真实语料数据,可以使得机器不断学习,不断提升识别准确率,可应用的场景也越来越广泛。

但对于搜狗转写免费会持续多长时间这个问题,王砚峰表示,目前肯定是免费的,至于之后会不会收费,并不完全确定。至少按照现有的产品形态,肯定是在相当长的时间内不考虑使用这个产品来赚钱。作为一家互联网公司,通过技术来收取技术服务费不是搜狗的商业逻辑。至少到现在为止,搜狗还不想通过产品收费的方式来进行商业变现。

搜狗语音交互中心负责人王砚峰

自然交互+知识计算背后是AI平台

搜狗听写不会是搜狗唯一的一款人工智能产品,在王小川的规划中,人工智能是搜狗下一阶段的重要战略。

早在2012年,搜狗便开始研发智能语音技术,并开始布局相关产品的落地。去年8月3日,搜狗举行知音引擎发布会,取得机器翻译的突破。跟进当时世界上最领先的机器翻译的深度学习框架,基于attion的端到端的框架,加上搜狗以前在语音识别上的累积,用3个月时间,搭建起知音引擎,并应用于去年的乌镇大会,该引擎在今年5月份夺得WMT2017中英机器翻译的全球冠军,;去年11月份,搜狗推出了机器同传,率先商用化...

这样的案例很多。搜狗在去年年底推出了一款
机器人

( 300024
,
诊股

)“汪仔”,面向搜索引擎,实时的抓取海量信息,根据问题的上下文,通过文本的分析、自然语言处理的能力,把用户想要的答案提取出来。在今年5月份GMIS2017会上,“汪仔”与人工速记进行了五轮PK,最终以4:1完胜。

“到现在为止,我们可以很坚定的说,机器的识别能力与人工速记相比,已经取得了本质性的领先。”王砚峰说。

然而语音识别同样存在挑战。王砚峰说,语音识别产品未来要解决的,一是远场的问题——人与人之间的远距离喊话,大家可以听得很清楚,但机器的远距离识别是不好的;二是噪声声音识别问题。

彼时搜狗的人工智能战略还只是个轮廓:自然交互+知识计算,如今,轮廓变为框架,搜狗已经形成一个AI技术体系及平台。

平台由四个阶层组成,底层是大数据和深度学习技术;倒数第二层是语言的AI、语音的AI、图像的AI,搜狗的核心是语言,图像和语音都是围绕语言的交互方式;再上一层就是行业应用;最顶层就是搜狗的输入法和搜索两款产品。

搜狗作为一家人工智能公司,在AI落地方面做得远远不够。也正因此,下半年将在硬件、软件等场景集中一波攻势。具体而言,搜狗接下来会往三个方向发力:

1、在可穿戴、车载、客厅场景下,自主研发更多的硬件。比如搜狗在上个月已经发布了一款产品“智能副驾”,主打的模式就是通过多轮对话、地图知识和对话能力的结合,把它变成更好的导航对话引擎。

2、搜狗会积极推广AI云平台、AI云服务,服务更多的行业伙伴。

3、在更多的垂直场景下做产品。

基于搜狗的语音能力和自然交互能力,在非巨头垄断的行业,搜狗将尝试做更多硬件产品的自研、试水、投资,可能自己研发,也可能投资一些公司,以合作的方式把这些产品做出来。

在王砚峰看来,不论是车载市场、家庭场景,还是可穿戴市场,虽然玩家很多,但市场格局还未定型,在这个过程中,王砚峰认为搜狗完全有信心拿出更多爆款产品或有量产品,来抢占市场份额,例如在中国可穿戴设备硬件中排名前五名的糖猫儿童手表,目前出货量已突破100万。

金融界

责编内容by:金融界阅读原文】。感谢您的支持!

您可能感兴趣的

搜狗将在美国IPO 发行数量 募资金额未确定... 2017-07-31 16:25:42 · TechWeb 7月31日消息,搜狐公司今天发布公告称,其子公司搜狗计划就潜在的首次公开招股(IPO),秘密向美国证券交易委员会(SEC)提交了一份登记草案。 搜狗计划向美国证券交易委员会秘密提交IPO登记草案 搜狗计划发行...
如何阻止采用社会工程学伎俩的网络攻击? 看人工智能+机器学习出绝招!... 智能化软件和系统或许是防止勒索软件和网络欺诈大行其道的关键。网络攻击层出不穷,而且在迅速演变,这让人不由得想起了这句名言:“问题不在于你是否被攻击,而在于什么时候被攻击。” 目前网络攻击的趋势似乎与去年的趋势颇为相似,勒索软件继续到处肆虐,由中招的物联网(IoT)设备及其他联网设...
IBM人工智能显微镜 借由浮游生物监控海洋水资源... IBM 发布了人工智能机器人显微镜,透过观察海中浮游生物对环境变化不同的行为,即时分析预测海洋水质的健康状况,像是石油外泄等威胁。在未来 5 年内,小型自主 AI 显微镜将在云中联网并部署到世界各地,持续监测对人类生存至关重要的水资源状况,从而帮助人类预测水供应所面临的威胁。 目前监测...
The Epic Guide to Artificial Intelligence for DevO... Brief summary of this article: What is artificial intelligence? What are the business benefits of AI? DevOps automation i...
清华大学教授孙茂松:机器人的诗与远方 | CCF-GAIR 2017... “孤陈的城市在长夜中埋葬 他们记忆着最美丽的皇后 飘零在西落的太阳下 要先做一场梦” 我们并不知道微软人工智能机器人小冰是不是在一个夕阳西下的时刻,“写”下了这首诗。但我们知道的是,会写诗的AI 背后,一定有一些专注人工智能的研究者。 清华大学计算机科学与技术系教授孙茂松就...