使用深度学习提高移动设备可用性的 6 种方法

已发表: 2020-01-23

随着全球对增强型、更个性化的移动体验的需求不断增加,移动应用程序开发行业的广泛人工智能和深度学习适应是不可避免的。 忘记移动传感和云计算带来的令人沮丧的延迟问题。 近零延迟即将到来,实时数据处理速度可提供最佳结果。

Apple 具有内置神经处理单元的先进仿生智能手机芯片已经帮助神经网络以惊人的速度直接在设备上运行。 使用 Apple 的 Core ML 和 Google 的 ML Kit 平台以及 TensorFlow Lite 和 Keras 等深度学习库,移动开发人员可以创建具有更低延迟、更少错误和更快数据处理的应用程序。

设备上机器学习的主要优势在于它为用户提供了无缝、准确的用户体验。 由于不存在将数据发送到外部服务器进行处理的问题,因此您可以获得更好的数据保护以及用户安全和隐私。 此外,借助移动设备上的神经网络,您无需连接到互联网即可访问应用程序的所有功能。 当然,大多数标准功能仍然需要互联网。

将深度学习部署到移动设备的 6 种方法

利用移动设备计算能力实现深度学习算法,无疑提高了移动设备的可用性。 就是这样:

1. 设备端语音识别

语音识别涉及使用循环神经网络 (RNN)、卷积神经网络 (CNN)、深度神经网络 (DNN) 和其他架构将输入序列转换或转换为输出序列。 开发人员一直在努力解决延迟问题——这会在您的请求和自动助手的响应之间造成延迟——但我们现在可以通过在移动设备中使用紧凑型循环神经网络传感器 (RNN-T) 技术来解决这个问题。

RNN-T 是序列到序列模型。 然而,它们并没有遵循在产生输出之前处理整个输入序列的通常方法,而是在输入处理和输出流中保持稳定的连续性。 这有助于实时语音识别和处理。 您可以通过 Google 助理看到这一点,它可以处理连续的语音命令而不会动摇,并且不需要您在每次请求后调用“嘿,谷歌”。

它可以进行更自然的双向对话,并且 Google 助理会按照您的指示转到 T。希望它设置电子邮件主题、在您的一个文件夹中查找照片并引导您到您姐姐的位置? 完成。

随着谷歌新的 Pixel 4 的发展,它的实时字幕功能可以实时为音频笔记、播客和视频提供字幕,而且——因为处理是在设备上——也可以在飞行模式下进行。 因此,例如,如果视频出现在您的 Twitter 提要中,您可以从其标题中找出它的内容,而无需取消静音。 Live Caption 不适用于音乐或电话和视频通话。

2. 通过手势识别提高效率

借助设备上机器学习管道模型,您可以训练您的移动设备检测、跟踪和识别手部和身体手势。 您的设备摄像头将您的手势和动作记录并存储为 3D 图像数据。 然后,神经网络的深度学习算法使用这个手势库来识别和破译特定的静态和动态手势。 然后他们将它们实时匹配到您的意图并执行您想要的命令。

Google Pixel 4 智能手机配备 Soli 芯片,可促进与手机进行复杂的非语言交互。 手机顶部的这种微型雷达传感器为Motion Sense 技术提供动力,该技术可以检测您的存在以及手部和身体手势,从而实现您的手机交互。 只需挥手,甚至无需触摸手机,您就可以让它打盹、使闹钟静音或导航到播放列表中的下一首歌曲。

3. 增强现实的沉浸式能力

使用 Google 的 ARCore 和 Apple 的 ARKit 平台,开发人员可以构建增强现实应用程序,将数字对象和环境与现实生活设置并列。 基于电话的增强现实的沉浸式功能正在对零售、娱乐、旅游和其他行业产生重大影响。 Lacoste 和 Sephora 等品牌现在允许他们的客户使用增强现实应用程序试用或预览产品,越来越多的购物者更愿意在决定购买之前先在手机上查看产品。

诸如 Pokemon、Ingress 和 Ghostbusters World 等交互式增强现实游戏已获得广泛的媒体报道和忠实的追随者。 如果您想在城镇中找到自己的路,Google Maps Live View 将为您提供实时导航。

4. 更高质量的照片

高照片质量是买家在选择智能手机时的一个重要标准,他们可以通过许多最新型号获得。 它们配备了硬件组件——中央处理单元 (CPU)、图像信号处理器、深度学习图像算法和神经处理单元——在拍摄照片时,它们将智能手机推向了与传统相机完全不同的领域。 有了这些,智能手机可以在像素分类级别上表现出对拍摄高清照片所见内容的更多认识。

Google Pixel 手机和 Apple iPhone 使用多个摄像头和复杂的机器学习算法来识别人和物体、创建深度图、无缝加入长时间曝光并计算准确的色彩平衡

通过在图像数据集上训练神经网络,算法学习如何响应单个图像要求和实时修饰照片。 由麻省理工学院和谷歌的研究人员开发的自动修饰系统允许摄影师在拍摄之前将不同的风格应用于图像。

在卷积网络以低分辨率执行图像处理后,称为仿射颜色变换的映射方法会修改图像像素颜色。 网络将这些转换公式存储在 3D 网格中,然后可以输出高分辨率图像。 这一切都在几毫秒内发生。

智能手机现在在低光和夜间摄影方面也超过了数码单反相机。 通过结合深度神经网络和传感器,智能手机摄像头可以捕捉到比人眼感知的颜色更清晰的图像。

华为在其 P20 Pro 中引入了可行的低光拍摄,在其 Mate 30 系列中使用 RYYB 滤镜、大型传感器和 AI 图像处理来提供高质量的低光摄影和低光摄像。 Google Pixel 4 带有夜视模式,可以拍摄 0.3-3 勒克斯范围内的照片,它的天文摄影可以捕捉到黑暗的星空。 除了在黑暗中自动激活的夜间模式外,Apple 的新 Deep Fusion 系统还将根据光照水平进行调整,并将 iPhone 摄影提升到更令人印象深刻的水平。

即使您对摄影一窍不通,也可以使用这些智能手机拍摄出精美的照片。

5. 提高安全性和隐私性

通过设备上的机器学习,遵守通用数据保护条例 (GDPR) 和加州消费者隐私法 (CCPA) 变得更加容易。 它保证了数据安全,因为您无需将用于生物识别、加密或实时字幕的数据上传到服务器或云进行处理。

设备上自动加密是另一项有用的智能手机功能,它使用 PIN 码、密码或图案保护您的内容,并且仅在您解锁手机时才允许访问您的数据。 因此,如果您的设备丢失或被盗,任何人获取您数据的机会都微乎其微。

iPhone 的面容 ID 功能是更安全的智能手机体验的一个例子。 Apple 智能手机芯片中的设备上神经网络处理并安全地存储用户面部数据。 识别发生在您的设备上,因此您的隐私和安全不会受到阻碍。

Google Pixel 4 的人脸解锁技术由 Soli 芯片提供支持,使用 3D 红外深度映射创建人脸模型以进行人脸识别,并将其存储在设备上的 Titan M6 安全芯片上。 Face Unlock 与 1Password 应用程序配合得很好,通过消除身份欺诈的机会为用户提供生物识别安全性。 要在 Pixel 4 上设置 1Password 应用程序,您只需在自动填充中输入您的详细信息并使用人脸解锁而不是指纹解锁功能登录。

6. 图像识别更准确

将设备上的机器学习与图像分类技术相结合,您可以实时识别并获取有关您遇到的几乎任何事物的详细信息。 想阅读外文文本? 用您的手机扫描它以获得即时准确的翻译。 一件衣服或一件家具有没有引起你的兴趣? 扫描它以获取有关价格和购买地点的信息。 餐厅菜单上有没有诱人的新菜? 您可以使用手机查找其成分和营养信息。

通过促进实时图像识别,Google Lens、Calorie Mama 和 Leafsnap 等应用程序正在提高移动设备的可用性和可学习性,并增强用户体验。

移动设备上的深度学习:最后的想法

设备上机器学习的可能性是巨大的。 随着越来越高效的智能算法、更深的神经网络和更强大的人工智能芯片,深度学习移动应用将成为银行、零售、医疗保健、数据分析、信息技术、电信、航空航天和其他各种行业的标准。

根据 Verified Market Research 的数据,到 2026 年,全球深度学习市场可能达到 266.4 亿美元,其中深度学习芯片组技术市场达到 29 亿美元。 随着深度学习能力的不断提高,移动设备的可用性功能将随之发展并推动进一步的创新。

准备好下一个软件项目了吗? 请与我们联系!