521全球无障碍宣传日 用AI来让信息获取更平等

作者:张伟 来源:原创 2020-05-21

  每年五月的第三个星期四(今年的五月21日)是全球无障碍宣传日(Global Accessibility Awareness Day),这一宣传日旨在“号召每个人谈论、思考和了解与残障人士相关的数字无障碍和数字包容性”。

  其实无障碍离我们生活十分之近,如电梯中的盲文按钮、楼梯处的无障碍通道、键盘上的F、J按键上的凸起,都是一种无障碍设计。而随着信息技术的飞速发展,互联网已然改变了生活中的方方面面,无障碍也随之扩展到了更多领域上,也就有了现如今的信息无障碍这一说法。

  而提起信息无障碍,多数人会踏进一个误区,那便是这一技术仅是针对障碍人士。其实不然,以语音助手这一功能为例,这个功能不仅帮助障碍人士绕开了此前屏幕交互的困扰,也帮助正常用户带来了更为高效的生活体验。

  但就目前而言,全球有多达10亿人有无障碍方面的需求,但数字无障碍的实现仍然任重而道远。以网页端为例,据非营利组织WebAIM的报告,在其分析的100万个主页中,有98.1%存在不符合Web内容无障碍指南2.0版本(WCAG 2.0)规则的地方,平均每个主页有缺陷的地方则高达60.9处。这些缺陷多种多样,包括文字显示不清晰、图片“alt属性”缺少文字说明、空链接等等。

  无障碍原则应当成为所有科技和互联网公司所秉持的原则,事实上,从相关科技到用户体验,很多知名公司都在无障碍领域投入甚巨。如Google坚持的无障碍优先(accessibility-first)设计思路,并利用AI等先进技术,积极为有需求的人们提供更优质和高效的产品和服务。

  面向耳聋和听障人士的产品、功能与项目

  ·Live Transcribe

  Live Transcribe是一款仅需使用手机的麦克风,便能获取现实生活中的语音并进行实时对话字幕转录的安卓应用程序。它支持超过70种语言(包括中文),覆盖全球80%以上的人口。

  传统的自动语音识别技术(ASR)需要计算密集型的模型和昂贵的连接服务,难以实现大规模应用。为解决这一难题,Google利用了Google Cloud上的云ASR引擎,并构建了基于神经网络的设备上语音检测器。通过训练的图像式模型,该检测器可以检测语音并自动管理与云ASR引擎的网络连接,将长时间使用过程中的数据流量消耗降至最低。

  由此,云ASR引擎既能为Live Transcribe提供更高的准确性,又只会消耗很少的网络流量,确保了最广大的用户群体能方便地使用它。目前,Google已经开源了Live Transcribe背后的引擎,令其能为所有开发者所利用。

  ·Live Relay

  Live Relay则是一项Google正在进行的研究项目,通过将自动语音识别技术的运行完全限制在设备上,辅以文本到语音的转换功能,它可以在保持用户通话私密状态的同时,把对方的语音转换为文字,并在用户打字时,让手机代替用户进行听说。

  Google希望它能帮助到任何在通话期间不能听说的人,特别是患有耳聋和听力障碍的用户。

  ·Sound Amplifier

  Sound Amplifier是一款帮助人们听得更清楚的Android应用。因为不同的人事实上是在不同的声音频率下听得更清楚,所以单纯地让声音变得更响并不能达到这一目标。

  在机器学习技术的帮助下,Google整理分析了大量的听力研究资料和数据,对人们在不同的环境下如何以不同的方式去听有了更深的了解。

  因此,在用户使用Sound Amplifier时,他们可以按照需求自定义频率以增强特定的声音,并过滤掉背景噪音。

  ·Live Caption

  Live Caption是一个快捷而小巧的应用程序,可以自动为正在Android手机上播放的音频或视频配上字幕,从而在极大程度上消除了耳聋和听障人士与数字媒体之间的障碍。

  通过整合三种设备上的深度学习模型,Live Caption可以在保护用户隐私的前提下准确而高效地运行:用于语音识别的循环神经网络(recurrent neural network,RNN)序列转导模型(sequence transduction model),用于预测、生成标点符号的基于文本的循环神经网络,和用于分类和生成声音事件(sound events)标签(如“掌声”、“音乐”)的卷积神经网络(convolutional neural network)模型。

  同Live Transcibe一样,它的语音识别引擎只在语音播放时运行,此外,它还运用了神经连接剪枝(pruning)等技术,在保证转录效果的同时,最大限度地减少了电池和内存的使用量。

  面向盲人和视力障碍患者的产品和功能

  ·在 Chrome 上获取图片说明(Get Image Descriptions from Google)

  许多盲人和视力低下的人依赖于屏幕阅读器(screen readers)浏览网页。对于图像或图形,屏幕阅读器需要根据网页开发者提供的描述,也就是所谓的替换文本(alt text)或“alt属性”,才能进行准确的说明。

  然而,目前有大量的网页图片没有任何描述,这导致屏幕阅读器无法带给使用者足够多的有效信息,甚至可能让他们完全无法使用一个网页。

  通过“在 Chrome 上获取图片说明(Get Image Descriptions from Google)”功能,Chrome可以为这些图片自动提供一个说明,让盲人和视力障碍患者更方便地使用网络。

  该功能会将没有描述的图片上传到运行有多个机器学习模型的Google服务器上,这些模型有的可以识别图片中的文字,有的可以识别物体,还有的可以通过一个完整的句子描述图片的主要内容和中心思想。例如下图,机器自动生成的英文描述就是“Appears to be: Person playing guitar on the sofa(看起来是一个人在沙发上弹吉他)”。

  ·Lookout

  Lookout是一款Pixel上的应用程序,在AI的帮助下,只需用户保持手机对准前方,它就可以帮助盲人和视力障碍患者识别周围的信息。

  事实上,技术与无障碍的结合在Google的产品和服务中随处可见,在上文提到的之外,还有旨在利用AI技术提高计算机理解言语障碍患者话语的能力的Euphonia项目,让认知障碍患者和他们的看护者能更容易地在设备上访问和执行任务的Action Blocks应用程序,可以帮助开发者提高其应用程序无障碍性的Accessibility Scanner工具等等。

  正如Google的理念一样——“以用户为中心”,Google 用户体验团队一直认为,易用性和无障碍设计是相辅相成的。而一个真正重视无障碍的公司而言,无障碍方面的功能和设计是无处不在、无微不至且不断更新的。

  同样,对于所有科技公司而言,也都应考虑残障人士的需求,并利用创新技术和充分的调查研究确保无障碍的实现。对无障碍的重视最终也将惠及我们所有人。

发布
X
第三方账号登录
  • 微博认证登录
  • QQ账号登录
  • 微信账号登录

企业俱乐部