ディープ ラーニングを使用してモバイル デバイスの使いやすさを向上させる 6 つの方法
公開: 2020-01-23強化された、よりパーソナライズされたモバイル エクスペリエンスに対する世界的な需要の増加に伴い、モバイル アプリ開発業界における AI とディープ ラーニングの適応は避けられません。 モバイル センシングやクラウド コンピューティングで発生するイライラする遅延の問題は忘れてください。 最適な結果を提供するリアルタイムのデータ処理速度により、ほぼゼロのレイテンシーが間近に迫っています。
ニューラル処理ユニットを内蔵した Apple の高度な Bionic スマートフォン チップは、すでにニューラル ネットワークをデバイス上で驚異的な速度で直接実行するのに役立っています。 モバイル開発者は、Apple の Core ML と Google の ML Kit プラットフォーム、および TensorFlow Lite や Keras などのディープ ラーニング ライブラリを使用して、待ち時間が短く、エラーが少なく、データ処理が高速なアプリケーションを作成できます。
オンデバイス機械学習の主な利点は、ユーザーにシームレスで正確なユーザー エクスペリエンスを提供することです。 処理のためにデータを外部サーバーに送信する必要がないため、データ保護とユーザーのセキュリティとプライバシーが向上します。 また、モバイル デバイスでニューラル ネットワークを使用すると、アプリケーションのすべての機能にアクセスするためにインターネットに接続する必要がなくなります。 もちろん、ほとんどの標準機能にはインターネットが必要です。
ディープ ラーニングをモバイル デバイスに展開する 6 つの方法
モバイル デバイスのコンピューティング機能を利用してディープ ラーニング アルゴリズムを実装することで、モバイル デバイスの使いやすさが確実に向上しました。 方法は次のとおりです。
1.オンデバイス音声認識
音声認識では、再帰型ニューラル ネットワーク (RNN)、畳み込みニューラル ネットワーク (CNN)、ディープ ニューラル ネットワーク (DNN)、およびその他のアーキテクチャを使用して、入力シーケンスを出力シーケンスに変換または変換します。 開発者は、リクエストと自動アシスタントの応答の間に遅延が生じるレイテンシの問題に苦労しましたが、モバイル デバイスでコンパクトなリカレント ニューラル ネットワーク トランスデューサ (RNN-T) テクノロジを使用することで、この問題を回避できるようになりました。
RNN-T は、sequence-to-sequence モデルです。 ただし、出力を生成する前に入力シーケンス全体を処理する通常の方法に従うのではなく、入力処理と出力ストリーミングの安定した連続性を維持します。 これにより、リアルタイムの音声認識と処理が容易になります。 これは Google アシスタントで確認できます。Google アシスタントは、途切れることなく連続した音声コマンドを処理でき、リクエストごとに「Hey, Google」を呼び出す必要もありません。
これにより、より自然な双方向の会話が可能になり、アシスタントは T への指示に従います。メールの件名を設定し、フォルダーの 1 つで写真を見つけ、妹の場所に案内したいですか? 終わった。
Google の新しい Pixel 4 では、ライブ キャプション機能により、オーディオ ノート、ポッドキャスト、ビデオに字幕をリアルタイムで提供できます。処理はデバイス上で行われるため、機内モードでも可能です。 たとえば、Twitter フィードに動画が表示された場合、音声のミュートを解除しなくても、キャプションから内容を知ることができます。 自動字幕起こしは、音楽、電話、ビデオ通話にはまだ対応していません。
2.ジェスチャ認識による効率化
オンデバイスの機械学習パイプライン モデルを使用すると、モバイル デバイスをトレーニングして、手と体のジェスチャーを検出、追跡、認識することができます。 デバイスのカメラは、ジェスチャーや動きを 3D 画像データとして記録し、保存します。 ニューラル ネットワークのディープ ラーニング アルゴリズムは、このジェスチャ ライブラリを使用して、特定の静的ジェスチャと動的ジェスチャを識別して解読します。 次に、それらをリアルタイムで意図に一致させ、目的のコマンドを実行します。
Google Pixel 4 スマートフォンには、スマートフォンとの複雑で非言語的なやり取りを容易にする Soli チップが搭載されています。 電話の上部にあるこの小型レーダー センサーは、モーション センス テクノロジを強化し、ユーザーの存在、手や体のジェスチャーを検出して、電話の操作を可能にします。 電話に触れなくても、手を振るだけで、スヌーズ、アラームの停止、またはプレイリストの次の曲への移動を指示できます。
3. 拡張現実の没入型機能
開発者は、Google の ARCore と Apple の ARKit プラットフォームを使用して、デジタル オブジェクトと環境を実際の設定と並置できる拡張現実アプリを構築できます。 電話ベースの拡張現実の没入型機能は、小売、エンターテイメント、旅行、その他の業界に大きな影響を与えています。 Lacoste や Sephora などのブランドでは、顧客が拡張現実アプリを使用して製品を試着またはプレビューできるようになり、購入を決定する前に携帯電話で製品をチェックすることを好む買い物客が増えています.
ポケモン、イングレス、ゴーストバスターズ ワールドなどのインタラクティブな拡張現実ゲームは、大々的に報道され、熱烈なファンを獲得しています。 街中の行き方を知りたい場合は、Google マップ ライブ ビューがリアルタイムのナビゲーションを提供します。
4. 高品質の写真
高い写真品質は、バイヤーがスマートフォンを選択する際の重要な基準であり、最新のモデルの多くで入手できます。 これらには、中央処理装置 (CPU)、画像信号プロセッサ、ディープ ラーニング画像アルゴリズム、ニューラル処理装置などのハードウェア コンポーネントが搭載されており、写真撮影に関してスマートフォンを従来のカメラとはまったく異なる領域に押し上げました。 これらにより、スマートフォンは、高解像度の写真を撮影するために見ているもののピクセル分類レベルでより多くの認識を示すことができます.

Google Pixel スマートフォンと Apple iPhone は、複数のカメラと複雑な機械学習アルゴリズムを使用して、人や物体を認識し、深度マップを作成し、長時間露光をシームレスに結合し、正確なカラー バランスを計算します。
画像のデータセットでニューラル ネットワークをトレーニングすることにより、アルゴリズムは個々の画像要件に対応する方法を学習し、リアルタイムで写真をレタッチします。 MIT と Google の研究者によって開発された自動レタッチ システムにより、写真家は写真を撮る前にさまざまなスタイルを画像に適用できます。
畳み込みネットワークが低解像度で画像処理を実行した後、アフィン色変換として知られるマッピング方法が画像ピクセルの色を変更します。 ネットワークはこれらの変換式を 3D グリッドに保存し、高解像度の画像出力を可能にします。 すべてミリ秒以内に発生します。
スマートフォンは現在、低照度や夜間の写真撮影においてデジタル一眼レフを追い越しています。 ディープ ニューラル ネットワークとセンサーを組み込むことで、スマートフォンのカメラは、人間の目で認識できるよりも多くの色でより鮮明な画像をキャプチャできます。
P20 Proで実行可能な低照度ショットを導入したHuaweiは、Mate 30シリーズでRYYBフィルター、大型センサー、AI画像処理を使用して、高品質の低照度写真と低照度ビデオ撮影を提供します. Google Pixel 4 には、0.3 ~ 3 ルクスの範囲で写真を撮影できる夜景モードが搭載されており、その天体写真では暗い星空を撮影できます。 暗闇で自動的に起動するナイトモードに加えて、Apple の新しい Deep Fusion システムは、光のレベルに合わせて調整し、iPhone の写真をより印象的なレベルに引き上げます。
写真の知識がなくても、これらのスマートフォンで素晴らしい写真を撮ることができます。
5. セキュリティとプライバシーの強化
デバイス上の機械学習により、一般データ保護規則 (GDPR) とカリフォルニア州消費者プライバシー法 (CCPA) への準拠が容易になりました。 生体認証、暗号化、ライブ キャプションのデータをサーバーやクラウドにアップロードして処理する必要がないため、データ セキュリティが保証されます。
デバイス上の自動暗号化は、PIN、パスワード、またはパターンでコンテンツを保護し、電話のロックを解除した場合にのみデータへのアクセスを許可する、もう 1 つの便利なスマートフォン機能です。 そのため、デバイスを紛失したり盗まれたりしても、誰かがあなたのデータを取得する可能性はほとんどありません。
iPhone の Face ID 機能は、より安全なスマートフォン エクスペリエンスの一例です。 Apple スマートフォン チップのオンデバイス ニューラル ネットワークは、ユーザーの顔データを処理して安全に保存します。 識別はデバイス上で行われるため、プライバシーとセキュリティは妨げられません。
Soli チップによって促進される Google Pixel 4 の Face Unlock テクノロジーは、3D IR 深度マッピングを使用して顔認識用の顔モデルを作成し、デバイス上の Titan M6 セキュリティ チップに保存します。 Face Unlock は 1Password アプリとうまく連携し、ID 詐欺の可能性を排除してユーザーに生体認証セキュリティを提供します。 Pixel 4 で 1Password アプリをセットアップするには、オートフィルに詳細を入力し、指紋ロック解除機能の代わりに顔認証を使用してサインインするだけです。
6. 画像認識の精度向上
オンデバイスの機械学習と画像分類テクノロジを組み合わせることで、遭遇するほぼすべてのものをリアルタイムで識別して詳細な情報を取得できます。 外国語のテキストを読みたいですか? 携帯電話でスキャンして、即座に正確な翻訳を取得します。 服装や家具は気に入りましたか? スキャンして、価格と購入できる場所に関する情報を入手してください。 レストランのメニューに魅力的な新しい料理はありますか? スマートフォンを使って、その成分と栄養情報を調べることができます。
Google レンズ、カロリー ママ、Leafsnap などのアプリは、リアルタイムでの画像認識を容易にすることで、モバイル デバイスの使いやすさと学習しやすさを向上させ、ユーザー エクスペリエンスを向上させています。
モバイル デバイスでのディープ ラーニング: 最終的な考え
オンデバイス機械学習の可能性は計り知れません。 ますます効率的なインテリジェント アルゴリズム、より深いニューラル ネットワーク、およびより強力な AI チップにより、ディープ ラーニング モバイル アプリケーションは、銀行、小売、ヘルスケア、データ分析、情報技術、電気通信、航空宇宙、およびその他のさまざまな業界で標準となるでしょう。
Verified Market Research によると、世界の深層学習市場は 2026 年までに 266 億 4000 万ドルに達する可能性が高く、深層学習チップセット テクノロジ市場は 29 億ドルに達する見込みです。 ディープ ラーニング機能が向上し続けるにつれて、モバイル デバイスのユーザビリティ機能も進化し、さらなるイノベーションが促進されます。
次のソフトウェア プロジェクトの準備はできていますか? お問い合わせください!