Vision

Amazon Web Servicesは、クラウド開発者向けの機械学習サービスであるSageMakerの背景にある考え方について、より詳細な情報を明らかにしました。

Amazon Web Servicesは、クラウド開発者向けの機械学習サービスであるSageMakerの背景にある考え方について、より詳細な情報を明らかにしました。

トム・クレイジット

Amazon CTOのヴェルナー・フォーゲルス氏がAWS re:Invent 2017でAlexa for Businessを発表。(GeekWire Photo / Tom Krazit)

機械学習サービスは、今後数年間、クラウドコンピューティングベンダーにとって最も競争の激しい分野の一つとなることが期待されています。AWSは11月に開催されたre:Invent 2017カンファレンスで、Amazon Web Services(AWS)の顧客が機械学習モデルを構築・学習するのを支援する新サービス「SageMaker」を発表し、月曜日に同サービスの仕組みについてより詳しい説明を行いました。

AmazonのCTO、ワーナー・フォーゲルス氏はブログ記事で、Amazon SageMakerが、固定されたデータ量で機械学習モデルをトレーニングするのではなく、顧客データが到着するたびにスケールするように設計されている点について説明しました。機械学習の潜在的な応用に関心を持つ多くの企業は、時間帯やユーザーのアクティビティに応じて急速に変化するデータセットを保有しています。

「こうした顧客やその他多くの顧客にとって、『データ』という概念は存在しません」とヴォーゲルス氏は記している。「データは静的なものではなく、常に蓄積され続けるのです。」

機械学習モデル開発用のホスト型サービスである Amazon SageMaker の概要。(AWS イメージ)

SageMakerは、AWS顧客のアプリケーションによって生成されるデータ量に合わせて拡張できるように設計されており、ヴォーゲルス氏が「ストリーミング計算モデル」と呼ぶ手法を用いてトレーニングモデルで利用可能なメモリ量を制限し、メモリ内でのスケーリングを試みた場合にアルゴリズムがクラッシュしないようにしつつ、トレーニングプロセスを処理するためにコンピューティングリソースをスケーリングする。ヴォーゲルス氏によると、AWSのような大規模なコンピューティングインフラストラクチャ全体でコンピューティングリソースをスケーリングする方が簡単で、ストリーミングアルゴリズムは他の機械学習トレーニングアルゴリズムよりも多くのソースからデータを取り込むことができるという。

「ストリーミングアルゴリズムは、どんな量のデータでも消費できるという意味で、無限に拡張可能です。…言い換えれば、10ギガバイト目と1000ギガバイト目の処理は概念的には同じです」と彼は書いています。

ヴォーゲルス氏はまた、Amazon SageMakerがコンテナを利用して機械学習のワークロードをコンピューティングネットワーク全体に分散させ、モデルのトレーニング速度を向上させる方法についても説明しました。これにより、モデルはCPUとGPU(グラフィックス・プロセッシング・ユニット)を、それぞれのモデルにとって最適なものに応じて切り替えることも可能になります。

クラウドベンダー間で比較するのは難しいですが、GoogleのCloud Machine Learningサービスは似たような構造になっているようです。「(このサービスは)あらゆる規模、種類のデータと連携するTensorFlowベースのカスタム機械学習モデルを構築するためのマネージドサービスとしての利点を備えています」とGoogleは述べています。クラウドベースの人工知能サービスのリーダーとして一般的に考えられているGoogle(AWSとMicrosoftは確かにこの点に異論を唱えるでしょうが)は、今年初めにデータセットの性質に基づいて機械学習モデルを自動生成するCloud AutoMLも導入しました。