全部版块 我的主页
论坛 提问 悬赏 求职 新闻 读书 功能一区 学道会
498 1
2020-01-11
Jeff Dean再执笔:一文看尽2019谷歌AI重大突破一一3


辅助技术

机器学习能够为我们的日常生活提供更为个性化的辅助。观看美丽的图像、聆听喜爱的歌曲或者与亲朋好友交谈,都是我们生活中必不可少的组成部分。但是,要将十几亿人联系起来,单凭这种直观对接显然无法实现。机器学习技术能够将这些视觉、听觉以及语音信号转换为其他信号,并在统一的管理之下改善人们对于周遭环境的访问能力。我们在这一年中推出的辅助技术包括:

Lookout,帮助失明或者视力低下的用户识别周围信息。其采用与 Google Lens 类似的基础技术,允许我们将手机指向四周以搜索目标物体并与之互动。

Live Transcribe,有望帮助聋哑或者听力障碍人士在日常交流中更加独立便捷。即使对方使用的是他国语言,用户也可以即时将内容转录并翻译为易于理解的形式。

Project Euphonia,负责进行个性化语音到文本转录。对于患有 ALS 以及其他可能导致器具不清或发音不准问题的用户,这项研究提供的自动语音识别(ASR)模型的实际效果上远超以及同类方案。

与 Project Euphonia 类似, Parrotron 利用端到端神经网络帮助用户改善交流,但主要针对语音到语音自动转换(而非转录)。Parrotron 提供语音接口,方便更多用户轻松使用。

目前,互联网上存在数百万张未加文字说明的图像。谷歌提供的图像描述可以帮助盲人或者弱视用户理解这些无标记图像。当屏幕阅读器发现没有配套描述的图像或者图形时,Chrome 浏览器现在可以自动创建相关说明。

我们开发出 Les for Google Go,这是一款以音频形式读取可视文本的工具,能够帮助那些识字不多的用户较为顺畅地理解文本所表达的内容。




让手机更智能

我们的大部分工作,在于通过机器学习技术为手机提供更多新功能,真正让个人设备实现智能化提升。通过开发出可在手机上运行的强大模型,我们得以保证各类常规手机功能拥有更强的响应能力,甚至可在飞行模式或者断风情况下正常使用。目前,我们已经开发出能够运行在手机上的准确语音识别模型、视觉模型以及手写识别模型,这也为后续更多强大新功能的出现铺平了道路。2019 年,我们实现的重要成果包括:

利用 Live Caption 实现手机自动字幕生成功能,可始终为设备上播放的全部视频提供转录字幕。

开发出功能强大的 Recorder 新型转录应用,可帮助用户索引音频信息并直接检索音频内容。

改进谷歌翻译中的拍照翻译功能,我们可以指向文本当中看不懂的特定部分,系统会结合上下文立即进行翻译。

发布 ARCore 中的 Augmented Faces API,让更多新的实时 AR 自表示工具成为可能。

演示了设备上的实时手部跟踪功能,为用户提供手势交互以及设备控制的全新方式。

改进基于 RNN 的屏幕软键盘手写识别效果。

发布一种利用智能手机摄像头实现的全球导航方法,可帮助用户更准确地定位当前所在位置,让我们轻松找到前往目的地的道路。

联合学习是谷歌研究人员在 2015 年发明的一种强大机器学习方法。在它的帮助下,众多客户(例如个人用户乃至企业整体)可以协同训练模型,同时保持训练数据的分散性。如此一来,我们就能在大规模学习系统中有效保护隐私属性。如今,我们正越来越多地在自有产品及功能当中使用联合学习,同时也在努力推动这一领域中众多研究工作的发展。2019 年,谷歌研究人员与来自 24 个学术机构的学者们合作,共同撰写了一篇关于联合学习的论文,重点介绍了过去几年中这项技术的进展以及当前仍然存在的开放性研究问题。
相关链接:https://arxiv.org/abs/1912.04977

过去几年,计算影像的进步使得智能手机的图像质量取得了巨大进步,2019 年当然也不例外。这一年中,我们让自拍效果更上一层楼,提供专业级别的景深图像处理功能,同时也在 Pixel Phone 上通过 Night Sight 功能让拍摄天文照片成为可能。关于这方面工作的更多技术细节,请参阅我们的《在极弱光条件下进行多帧超分辨率及移动摄影》的论文。我们的工作只有一个目的——帮助大家拍下漂亮的照片,纪念生活中的每一个神奇瞬间。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2020-1-12 04:54:47
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群