
Googleのロボット脳は、写真を見るだけでどこで撮影されたのかを判断できる。メタデータは不要だ。
ジェームズ・リズリー著

写真がどこで撮影されたかを推測するのは楽しいゲームになり得ます。実際、それはゲームです。しかし、コンピューターはこれまで、メタデータを素早く調べて写真を地図上に配置することで、この作業を容易にしてきました。しかし、Googleの新しい機械学習プログラムは、メタデータのない写真でも機械学習を用いて地図上に配置することができます。
Googleのコンピュータービジョン専門家、トビアス・ウェイアンド氏が開発したPlaNetは、arXivに投稿された新しい論文によると、写真の3.6%から特定の道路まで正確に特定できるという。確かに、これは大したことではないように思えるかもしれないが、地図上に画像を配置する点では人間よりもはるかに優れた性能を発揮した。
ストリートビュー画像を見て地図上の位置を推測するオンラインゲーム「GeoGuessr」で人間と対戦した際、PlaNetは半数以上の勝率を誇った。人間に勝った確率が半数以上だっただけでなく、誤差距離の中央値は人間よりも約1,200kmも近かった。
「PlaNetは合計50ラウンド中28ラウンドを制し、平均位置推定誤差は1131.7kmでした。一方、人間の平均位置推定誤差は2320.75kmでした」とウェイアンド氏は記している。「この小規模な実験は、PlaNetがストリートビューのシーンを地理位置情報で特定するタスクにおいて、超人的なパフォーマンスを発揮することを示しています。」
しかし、研究チームはどのようにしてロボットの脳に画像を配置することを教えたのでしょうか?大量の画像を見せることでした。

ウェイアンドのチームは、地理位置情報を持つ9100万枚の画像を機械に入力しましたが、機械は実際には各画像の正確な座標を記憶しようとはしませんでした。それは後で検索する際にデータが多すぎて精査できないためです。代わりに、機械は各画像をグリッド上に配置して、それぞれの視覚的な手がかりに注目しました。グリッドは、密集した都市部(写真が撮られる可能性が高い場所)では正方形が多く、辺鄙な地域では正方形が少なくなっていました。
その後、研究チームはさらに3400万枚の画像を用いてニューラルネットワークを検証しました。その後、いよいよテストが始まりました。
人間と対決する前に、ウェイアンド氏のチームは230万枚のFlickr画像を使ってこの機械をテストしました。その結果、機械は写真の10.1%を都市レベルの精度で、28.4%を正しい国に配置できました。また、約半数が正しい大陸に配置されました。
繰り返しになりますが、これらの数字は大したことではないように思えるかもしれませんが、このマシンを批判する前に、自分のスキルを試してみることをお勧めします。また、写真を見つけることは必ずしもこのプロジェクトの最終目標ではありません。むしろ、機械が視覚的な問題に適用できる力を示し、機械が利用できるようにデータを整理する新しい方法を強調することが目的です。