
Q&A: Microsoft の Windows 向け Kinect リリースの詳細
トッド・ビショップ著

マイクロソフトは今朝、Kinect モーション センサーを Windows PC に正式に導入し、ジェスチャーや音声コマンドで制御できる非商用の Windows 7 プログラムを開発者が作成できるようにするソフトウェア開発キットをリリースしました。
このリリースは、Windows向け商用Kinectアプリケーション向けSDKの将来的な展開への序章となるもので、昨年Xbox 360用Kinectセンサーがリリースされて以来、草の根的なKinectハックから始まったトレンドを公式なものにするものです。GeekWireは今朝、Microsoft ResearchのAnoop Gupta氏にSDKの詳細と同社の計画について話を聞きました。
Q: あなたの観点から見た Kinect SDK リリースの重要性は何ですか?
グプタ氏:本当に興奮しています。多くの人がSDKを待ち望んでいました。ついにその待ち望んでいた時間が終わりました。
Q: 待っていない人が多かったですね。
グプタ:これはKinectの公式Windows SDKであり、非商用SDKです。私たちはKinect技術に関する最も深い知見を有しており、Microsoft Researchと製品グループ全体で、この技術の開発にあたり、ディープラーニングアルゴリズムに関する膨大な作業を行いました。これらの知見を共有し、ツールを組み込むことで、世界中の研究者や開発者が、素晴らしく、刺激的で、革新的なアプリケーションを容易に作成できるようになることを願っています。
Q: 開発者は SDK を通じて Kinect デバイスの何にアクセスできますか?
グプタ:生のセンサーデータへのアクセスを提供しています。センサーは3種類あります。RGBビデオセンサー、深度センサー、そして4素子マイクアレイです。この機能は誰にとっても重要ですが、特にコア機能や高度な新アルゴリズムを活用したいと考えている学術研究者にとって重要です。さらに、最大2人まで同時に骨格トラッキングを行う機能も提供しています。これにより、人々が期待するジェスチャー駆動型のアプリケーションを数多く実現できます。
マイクアレイを基盤とした高度なオーディオ機能を多数備えています。例えば、ノイズ抑制機能などです。製造現場や病院など、騒音の多い環境でもノイズを除去できます。エコーキャンセル機能は、会議環境で重要になります。Windowsの音声APIとの統合により、音声認識も可能です。これにより、真にマルチモデルに対応した自然なユーザーインターフェースアプリケーションの構築が可能になると考えています。ジェスチャーだけでなく、ジェスチャー、音声、その他のモダリティをどのように組み合わせるかが重要です。
アンマネージ コードとマネージ コードの両方でプログラム可能なので、C++ インターフェイス、C#、Visual Basic があります。
Q: 最初はなぜ非商用ライセンスのみを採用するのですか?
グプタ氏:私たちは、何かを開発者の手に届けるためには、早い段階でリリースすることが非常に重要だと考えました。そこから学び、それを基にして商用 SDK をリリースします。
Q: 長年、人々はキーボードとマウスを使ってきましたが、今、マイクロソフトはそれを自然なユーザーインターフェースで補完することを目指しています。5年後、10年後、人々はこの日をどのように振り返ると思いますか?
グプタ:これは、これまで存在しなかった新しい機能を追加するという点で、転換点と言えるでしょう。人間の動作をトラッキングし、豊富なマイクアレイ機能、そしてジェスチャーやマルチモーダルインターフェースを(Kinectセンサー単体で)150ドルという価格で実現できたことは、非常に劇的で革命的なことだと考えています。ゲームやエンターテインメントの世界では、既に数千万人もの人々が変革を経験しています。今後、PCや組み込みPCを所有する数億人の人々にこれを届けるには、時間はかかりますが、非常に記憶に残る瞬間となるでしょう。
Q: これにより、人々が機械とやりとりする方法はどのように変わりますか?
グプタ:2フィートの距離に座っているときに、機械とどのようにインタラクションするかという話ではなく、タッチパネル、マウス、キーボードが使えるという話です。もっと興味深いのは、キッチンでチョコチップクッキーを作っている時、手がベタベタしているのに、音声でインタラクションできるという話です。自動車修理工場で油まみれの手を使っていても、医師が滅菌された手でレントゲン写真の別の部分をスクロールしたり、ズームしたりできるのも同じです。ショッピングモールのポスターやインタラクティブディスプレイにも当てはまります。…これは、テレプレゼンス(そしてビデオ会議)に対する考え方にも影響を与えます。
Q: なぜこれが Windows 7 でしか動作しないのですか?
グプタ氏:これは非商用のSDKで、Windows 7マシンは数億台も存在します。そのため、テストやその他の作業をすべて完了させるのは避けたいと考えました。できるだけ早く機能をリリースしたいと考えました。