AlexNetが、画像認識コンテスト(ILSVRC)を圧倒的なパフォーマンスで制してから十年、ディープラーニングは画像認識技術を飛躍的に進展させました。今や、典型的な画像認識タスクであるクラス分類や物体検知においては、ディープラーニングを用いた最新モデルの性能は、人間のそれを凌駕しつつあります。同時に、こうした技術の多くは商用利用も可能なオープンソースとして公開され、多くのエンジニアが、画像認識や機械学習の専門的な知識がなくてもその恩恵を得られるようになりました。

それでは、最先端の画像認識モデルは人間を越え、人間が視覚でこなしてきた仕事を代替できるようになったかというと、そう話は単純ではありません。これはディープラーニングに限ったことではないのですが、現状のAI技術が人間に遠く及ばないのは、その「汎用性」です。AIは一定の領域においては極めて優秀な能力を発揮するのですが、その領域を大きく広げることは容易ではないのです。

これはいわゆる「機械は決められたことしかできない」という否定的な評価とは意味合いが違います。将棋やチェスの領域でAIの指す手は、人智を越えた「神の一手」とさえ呼ばれるものがあるといいます。一方で、将棋で圧倒的な性能を叩き出すそのAIプログラムは、数学の宿題を手伝ってくれたりはしない、そういうことを言っているのです。

さて、画像認識に話を戻しましょう。我々は数年に渡り、画像認識を自動車に応用する様々な研究開発をトヨタ自動車と行っています。車外の状況の確認はもちろん、車内の状況の確認にも画像認識は重要な役割を果たします。
自動車は実に多彩なシーンで利用されます。まず第一に、一言で自動車と言っても、乗用車もあればトラックやバスもあります。高速道路を走ることがあれば、未舗装の砂利道だって走ります。晴天の日も猛吹雪の日も自動車は使われます。老若男女どころか、犬だって猫だって乗りこむこともあるかもしれません。自動車には、予測不能な状況にも対処できるような柔軟な画像認識が必要となるのです。
こうした研究開発のひとつとして、Sigfossとトヨタ自動車の共同研究の成果を報告する論文が、9月19~21日に米国カリフォルニアで開催された国際会議 (Artificial Intelligence for Industries 2022 https://semanticcomputing.wixsite.com/ai4i-2022、IEEE sponsored) に採択され、両社共同で発表しました。
タイトルは、
Real Time Analysis on Bus Passenger for Unmanned Door Operation using Overhead Fisheye Cameras
この論文はマイクロバスの自動ドア開閉に関するもので、人検知、姿勢推定、オプティカルフロー分析などを組み合わせ安全で精度の高いドア開閉判定を可能にする技術を発表しています。
自動ドアの開閉を無人で安全に行うためには、ドア付近の状況を的確に判定する必要があります。従来は遮断型のセンサなどで安全の確保を行っていましたが、ドアの形状、開閉方式の変化などで、画像による判定が必要なシーンが増えています。バスの使用形態を考えれば、まさしく多様な状況にも対処できる画像認識が求められており、Sigfossの研究開発もこうした実用的な状況での精度や速度の確保に重点を置くようになってきています。
ちなみにオプティカルフローはディープラーニングが画像認識の主流となる以前からある技術で、フレーム間の画素の動きを数学的に推定するものです。人や物の特定のクラスが推定できるわけではないのですが、逆に未知の物体の動きも捉えることができます。

こうした新旧の技術の特徴を活かし、うまく組み合わせることで柔軟で精度の高いシステムを開発しているのです。