12月9日に行なわれたAWSのAmazon Machine Learning担当バイス・プレジデントのスワミ・シバスブラマニアン(Swami Sivasubramanian)氏による機械学習(ML)フォーカスの基調講演。後半は多くのビルダーに機械学習を拡大するためのAWSの戦略やサービスについて披露した。
AWS Amazon Machine Learning担当バイス・プレジデントのスワミ・シバスブラマニアン(Swami Sivasubramanian)氏
いいアイデアは組織のどこでも起こりえるもの
今回のAWS re:Invent期間中に発表されたSageMakerのアップデートや新機能は、おおむね機械学習のプロ向けと呼べるもの。ここでいうプロとはデータサイエンティストを指しているが、日本はもとより北米でもまだまだMLの専門家は多くない。シバスブラマニアン氏は、「SageMakerのようなツールを使えば、さまざまなユーザーがMLモデルの開発ができる。多くの人たちはスキルがなかったり、時間がなく、モデルを作れない。でも、いいアイデアというのは、組織のどこでも起こりうるもの」と指摘。より多くのビルダーに機械学習を拡げていくというサービスの方向性を明示した。
たとえば、SageMaker AutoPilotは機械学習モデルを自動生成してくれるサービス。スキルと知識の必要な手動での構築と、モデルの作成方法を把握できない代わりに自動化されたAutoMLのギャップを埋めるべく、表形式のデータセットから予測する列を探し、自動的にモデルを生成。リコメンドから最適なモデルを選べるほか、モデルのノートブックの可視性とコントロールも得ることができる。
基調講演では言及されなかったが、新サービスである「Amazon SageMaker JumpStart」も機械学習の敷居を下げる取り組みの1つだ。不正検知や予防保全、需要予測など15を超えるユースケース向けにソリューションを提供し、数クリックでデプロイまで可能になっている。カスタマイズも可能で、PyTorchやTensorFlowで公開されている学習済みモデルもデプロイできるという。
Amazon Redshft ML発表 DB開発者にもMLを
同じデータを扱っていても、機械学習を利用するのはML専門家が中心で、データベースの開発者やデータアナリストにとってはまだまだ敷居が高い。また、機械学習をアプリケーションに組み込むためには複雑で手間がかかった。MLモデルを作り、データベースからこのモデルを読み込むためのアプリケーションコードを書き、MLモデル用にデータをフォーマットし、MLサービスを呼び出し、結果のデータもアプリケーションのためにフォーマットする必要がある。複数のデータベースになると、このフローはもっと複雑になる。こうした負荷の重い作業を減らすべく、AWSは既存のデータベースやツールに機械学習を組み込み、直接扱えるようにしている。昨年発表された「Aurora ML」ではSQLクエリからMLサービスを呼び出し、結果をアプリケーションに返すことができる。また「Athena ML」も同じで、S3に対してのSQLクエリで不審なログインや売り上げ予測などMLモデルを利用できる。
今回発表された「Amazon Redshift ML」はRedshiftのデータウェアハウスからSQLでデータを引き出し、MLモデルを生成する。SQLでセレクトされたデータはRedshiftからS3に移され、セキュリティを保った形でAutoPilotが処理を引き継ぐ。あとはデータのクレンジングや事前準備などを経て、MLモデルを生成し、最適なアルゴリズムを当てる。「ここまでのやりとりはすべて自動化されている。トレーニングされたモデルは、SQLの関数として提供され、Redshift内に格納される。レポートをダッシュボードで使うことができる」とシバスブラマニアン氏は語る。
また、あわせて「Amazon Neptune ML」も発表された。複雑な関係性をデータとグラフモデルで表現する最適なグラフ型データベースであるNeptuneは、ナレッジグラフや遺伝子や疾患の情報管理、不正検知、レコメンデーションエンジンなどに使われている。Neptune MLはグラフデータを選択し、MLモデルを自動選定してくれるので、精度の高い予測が可能になる。「既存のMLテクニックより、50%も精度が改善される」(シバスブラマニアン氏)と語る。なお、SageMaker AutopilotはDOMO、SISENCE、Qlik、Tableau、Snowflakeなどサードパーティとの連携が予定されているという。
MLの知識がないユーザーでも使えるQuickSight Q
AWS自体もQuickSightを強化しており、今回は自然言語での検索が可能なQuick Sight Qという新機能も投入されている。AWS BI&アナリスティック VPのドロシー・リー氏は、「QuickSight Qは最新の機械学習と自然言語の技術を使っている。通常の言語で問い合わせをして、すぐに答えを得ることができる」とアピールする。
AWS BI&アナリスティック VP ドロシー・リー氏
ダッシュボード化されている情報以外を見たい場合、今まではBIチームに調べたい内容をBIチームにリクエストし、数日待たなければいけなかったが、QuickSight Qであれば迅速に洞察を得ることができる。社内や部門で利用されている用語も学習するため、普段の通り「カリフォルニアとニューヨークの1週間の利益の比較」とか、「今年、カリフォルニアでもっとも売れた商品」といった質問を問い合わせればよい。
QuickSight Qで既存のデータを取り込むと、自動的にナレッジレイヤーを生成し、意味とデータの関係性を示すことができる。リー氏は、さまざまなデータセットを選択でき、すぐに始められ、しかも継続的にモデルを改善できるとアピールした。
MLの知識がなくても、MLの恩恵を受けられるサービスはQuickSight以外にも数多く投入されている。コンタクトセンターサービスの「Amazon Connect」では、顧客との音声でのやりとりを文字興ししたり、センチメント(感情)分析を実現する。また、Amazon Kendraは、S3やRDS、外部サービスなどのデータを機械学習で分析し、自然言語で検索可能にする。さらに開発者向けにはMLを用いたコードレビューサービスの「Code Guru」を提供しており、先日はシステムの運用管理に役立つアラートを出す「DevOps Guru」も発表した。
新発表された「Amazon Lookout for Metrics」は売り上げの急激な低下やセールスリードの枯渇など異常値検出を実現するサービスだ。
従来のしきい値ベースの検出では、誤検知も多く、予測不能な状況に弱いという弱点があったが、Amazon Lookout for MetricsはAmazonが利用しているものと同じ機械学習のテクノロジーを用いており、高い精度の予測モデルが自動構成される。また、Amazon Lookout for Metricsでは、19のデータソース、6つのアラート手段を実現するためのコネクタが用意されている。
シバスブラマニアン氏は、「たとえば、ECサイトが不適切な価格で商品を出してしまった場合、いち早く検知できなければ、すべてが売り切れてしまうかもしれない。Amazon Lookout for Metricsではこうした異常値を事業上のメトリクスから簡単に割り出すことができる」と語る。
MLをフル活用した鉛筆工場の生産ラインをのぞいてみた
産業分野の機械学習について説明したのは、Dr.マット・ウッド氏だ。「クラウドとエッジのノードを使うことで、すべてのデザインプロセス、生産ライン、完成品に至るまで、サプライチェーンをカバーできる」とウッド氏は語る。
産業分野はソフトウェアと違い、画一的で密結合なので、重要なシステムの障害はサプライチェーン全体に大きな影響をもたらす。しかし、今までのモニタリングは固定的なしきい値で監視されていたため、有用に活用されていなかったという。また、データを元にした予測保全に関しても、適切なセンサーがなかったり、前時代的な製品だったり、クラウドやMLを使いこなせないという課題があった。こうした課題に対して発表されたのが、MLを活用したモニタリングソリューションの「Amazon Monitron」だ。Amazon Monitronはセンサー、ゲートウェイ、モバイルアプリまでセットで提供される。電池寿命は約3年というワイヤレスセンサーは振動や温度を測定でき、モーターやタービン、コンプレッサー、ファン、ポンプなどさまざまな機器に容易に取り付けられるという。収集されたデータはクラウドに送信され、分析結果をモバイルアプリで確認することも可能だ。「ここまで実現するのにMLの知識が不要だ。企業は容易に予測保全を実現できる」とウッド氏は語る。また、「Amazon Lookout for Equipment」であれば、既設のセンサーから振動や温度のデータ、「Amazon Lookout for Vision」であれば、画像から産業機器や製品の異常を知ることができる。
リアルタイム性が必要な場合はクラウドではなく、エッジでの処理が必要になる。これに関しては、既設のスマートカメラの画像を使った機械学習での分析が行なえる「AWS Panorama Appliance」が発表されている。最大20台までのカメラの画像を認識でき、MLモデルはSageMakerで開発でき、他のAWSサービスとの連携も容易だ。また、同時発表された「AWS Panorama SDK」を用いれば、メーカーはスマートカメラにMLモデルを組み込むことが可能になる。
ウッド氏は、鉛筆を生産する工場のラインを例として、具体的な使い方を披露した。「鉛筆を作るのはボリュームが多く、マージンの少ない事業だ。しかも、いくつかのマニュアルステップが重要で、これを継続して運営していかなければならない」とウッド氏は課題について語る。このラインにセンサーが用意されていれば、Lookout for Equipmentで製造プロセスにおける異常値を検出し、予測保全に役立てることができる。もしセンサーがなければ、Amazon Monitronを追加すればよい。
また、ラインにおいてAmazon Lookout for Visionを使えば、カメラ画像からリアルタイムに製品のへこみや傷、変形を検知できる。さらにPanorama Applianceを利用することで、複数のカメラで製造工程全体を俯瞰し、生産状態や在庫を検証することも可能だ。「MLを使うことで、すべてのプロセスをモニタリングし、ボトルネックを改善。全体のサプライチェーンをよりよくすることができる」とウッド氏は語る。
ヘルスケアデータ専門の「Amazon HealthLake」発表
こうした産業分野のような変革は、医療分野でも起こっているとウッド氏は指摘する。たとえば、製薬メーカーのノベルティスはMLを用いることで、本来20ヶ月かかる創薬プロセスを過程を42日間に短縮したり、重篤なイベントを検出したり、患者の不具合を予測している。
しかし、医療分野で難しいのは、データがサイロ化されていて、共有しにくいという課題だ。電子カルテや医療データは互換性に乏しく、PDFや画像、メモ書きなど非構造化データも多い。これらを検索可能な構造化データに変換するには大きな負荷がかかるため、多くのヘルスケア企業が手をこまねいている状態だ。この課題に対して作られたのが「Amazon HealthLake」になる。
Amazon HealthLakeは医療機関や健康保険会社、製薬企業などヘルスケア企業が、ペタバイトクラスの健康データを保存、変換、照会、分析するためのHIPPA準拠のサービス。分断された生の患者情報を整理・構造化し、セキュアで法令遵守した形で利用できるように変換する。
たとえば糖尿病の場合、Amazon HealthLakeを利用することで分散した糖尿病患者や血糖値のデータが自然言語と医療用語で検索できるように構造化され、両者の関係を表したデータベースとして構成することができる。「数百万人の患者の数億にのぼるデータポイントに基づいた糖尿病集団の全体像が見えるようになる。血糖値の高い、糖尿病を管理できていない集団を特定できるので、この集団に管理を徹底し、合併症を予防することができる」とウッド氏は語る。
もちろん、QuickSigthなどでデータを可視化することでトレンドやリスク要因、治療の経緯などを見ることができ、SageMakerを活用すれば糖尿病の予測につなげることも可能。ウッド氏は、「Amazon HealthLakeによって、ヘルスケア企業はデータの格納や正規化、整理など差別化につながらない作業から解放され、患者の支援と医療ケアの質の向上に専念できる」と語る。
フィリップスで放射線情報科学を担当するイラッド・ベンジャミン氏は、「医療で難しいのは膨大なデータがさまざまなソースから生まれていること。縦割りのデータをいかに医師が判断して、治療につなげていくかが課題となっている」と指摘する。その課題を解決すべく作られた「Philips HealthSuite」では、AWSを基盤にして分散化していたヘルスケアデータを統合管理。また、MLによって診断システムを改善し、精度はもちろん、運用効率も向上させることができたという。「AIを加速することで、画像誘導治療や遠隔での患者モニタリング、価値に基づく診断などにつなげていきたい」とベンジャミン氏は語る。
2020-12-15 19:35:26