next up previous
: 2. 実 験 1 : 外観表現とイメージ操作による三次元物体認知 : 外観表現とイメージ操作による三次元物体認知


1. はじめに

物体を認知するとはどういうことだろうか. ここでは外界から視覚的に得られた情報を 自分の中にある記憶と照らし合わせる処理過程であると考えることにする. このような視点に立つと,人間を網膜画像という入力と, 記憶された様々な物体の形状に関する知識とから, 何らかの出力を行う認識機械のようなものと看倣すことができる. この認識機械への入力は網膜に投影された画像であり, それは外界に存在する三次元の拡がりを持った物体を 二次元の面上に投影したものである. そしてその出力は物体の同定あるいは分類であると考えることができる. 注意しなければならないのは, 入力つまり網膜への投影の過程によって 奥行きに関する情報は基本的に欠落するということである. 二次元の投影像のみから元の三次元形状を復元することは いわゆる逆問題となっており, 数学的には一意の解を求めることが不可能な不良設定問題になる. これは物体認識が困難であることの一つの要因となっている.

物体認識を困難にするもう一つの問題は, 同一の物体が様々な条件によってその外観を変化させるということにある. 例えば物体は観察者との位置関係によってその見えを大きく変えるが, 人間はそのような変化に対して常に安定した知覚を得ることができる. 位置関係の変化だけではない. 照明も変化するし,一部が他の物体に隠される場合もある. また,物体自身が変形する場合もあるだろう. このような変化に対しても安定した認識が可能でなければならない. 安定した認識とは, 言い換えると入力の変化に対して常に同一の出力が得られるということである.

1.1 物体形状の脳内表現

1.1.1 視点不変の構造表現

安定した物体認識を実現するために, 既知の物体の内部表現はどのようなものでなければならないだろうか. Marrらは安定した物体認知を達成するために 内部表現は網膜像の変化に関して不変なものでなくてはならず, それは物体中心の三次元表現であると考えた[Marr NishiharaMarr Nishihara1978]. この理論は美しくかつ直感的に理解しやすかったため, コンピュータビジョンの分野でも支持され, この理論に基づく実装が様々に考案されたが, 実際にはあまりうまくいかなかった. その主な原因は, 逆問題となっている 二次元の投影像から三次元の構造を安定して得ることの困難さにある. 網膜像から元の三次元構造を復元することは不良設定問題であり 数学的には一意に解くことはできない. 外界の物体の幾何学的構造等の知識を拘束条件として 解ける場合もあるが,一般的には非常に難しいとされている. そして,そのような処理が なんらかの方法によって実現可能であるのかどうかすら いまだに明らかにされていない.

1.1.2 視点依存の外観表現

視点変化に関して言えば,視点不変の表現がもし得られたならば, それは同時に視点不変の認識が達成されたことを意味する. しかし視点不変の表現は視点不変の認識のための必要条件ではない. 視点依存の二次元的画像ベース表現に基づく理論は, この二次元から三次元の再構成という処理を必要としないという点で, 物体中心の三次元表現に基づく理論と異なっている. この理論では, ある視点からの物体の見え方がそのまま記憶されると考える. Marrらは理論的側面から このような方法には 基本的に少しでも見え方の異なる外観を記憶することが要求されるという 困難さが伴うことを指摘した[MarrMarr1982]. しかし,この批判は,ある外観の記憶が他の外観の認識に全く利用できないという 前提に基づいていることに注意しなければならない. 本当に少しでも視点が異なれば 別の物体として扱わなければならないとすると, 結果として彼らの言うように莫大な記憶容量が必要となり,非現実的である. しかし,ある視点からの記憶を用いて他の視点からの認識ができるならば, 全てを記憶する必要はなくなる. 実際,人間は一つの視点における外観の記憶に基づいて その近傍の外観を認識できることが示されている [Bulthoff EdelmanBulthoff Edelman1990,仁科乾仁科乾1993]. この汎化の能力の存在により, 二次元画像ベースの表現に基づく物体認識が 有限の記憶容量によって達成できることになる. この理論は,不規則な形状を持つ新奇物体を人間が認識するとき, 認識率あるいは認識時間が強い視点依存性を示すという心理実験の結果が 主な根拠となって注目され, 最近の10年間で強く支持されてきた [Rock DiVitaRock DiVita1987,Edelman, Bulthoff, WeinshallEdelman et al.1989,仁科乾仁科乾1993] また,神経生理学的方法によって, ある物体のある特定の方向からの外観にのみ反応する神経細胞が サルの下側頭皮質 (IT) から発見された[Logothetis, Pauls, Bulthoff, PoggioLogothetis et al.1994]. 彼らの示したデータによると, 物体の異なる視点に対してそれぞれ反応する異なる神経細胞が存在した. ある神経細胞は,ある物体の一つの視点からの外観に強く反応し, そこから遠ざかるにつれて反応が減少した. この結果は心理実験の結果ともよく合うものになっている. さらに, 円形基底関数 (Generalized Radial Basis Function, GRBF) を使った ネットワークによるシミュレーションでも, 様々な視点における視点依存の外観表現を十分な数だけ持つことによって 視点不変の認識は達成できることが示されている [Poggio EdelmanPoggio Edelman1990].

1.2 新奇物体による実験

視点依存性を支持する実験は特に初期においては ほぼ全てが図[*]に示すような 新奇物体を刺激として用いていることに注意しなければならない. Biedermanらはこのような形状の物体を認識するという状況は 非常に特殊であり, 普通は人間の物体認識は視点不変の特性を示すと主張した [Biederman GerhardsteinBiederman Gerhardstein1993,Biederman GerhardsteinBiederman Gerhardstein1995]. しかし,彼等の批判に対して, より日常的な物体を刺激とした実験が行われ, そこでもやはり視点依存性が確認された [Hayward TarrHayward Tarr1997]. このような結果を見ると, 人間の物体認識の視点依存性は やはり重要なものであると考えなければならないだろう. また,これらの実験の結果から, それ以前に行われた新奇物体を用いた実験の結果も無意味なものではなく, 人間の物体認識の特性を説明していると考えられる.

本研究でも刺激としてペーパークリップ物体と呼ばれる新奇物体を使用した. 基本的に無限に異なる形状を作成することができること, 記憶した視点からの汎化可能な範囲が比較的小さく 学習による汎化可能範囲の変化を確認しやすいこと, 形状の複雑さを関節数で操作可能であること, 異なる刺激間の類似度が比較的均一であることなどの点で, 本実験の目的に適していることが理由である.

1.3 物体認識における三次元構造情報の寄与

著者らはペーパークリップ形状を用いて 三次元構造情報を積極的に利用しなければ認識が困難な課題を設定し 再認実験を行った[仁科乾仁科乾1996]. この課題で被験者は, まずターゲット刺激を一つの方向からだけ見て学習する. 次に,テスト刺激として, (1) ターゲットをそのまま回転したもの, (2) ターゲットを回転してから奥行き方向に頂点をランダムにずらしたもの, (3) 全く異なる物体, の三通りのうちの一つが呈示され,それに対して 被験者は (1) のみを正解としなければならない. つまり,この課題で被験者は二次元の射影としては同形状であるが, 三次元形状は異なるような物体を比較することが要求された. また,テスト刺激の呈示時間として Short条件 (1000msec) とLong条件 (被験者の反応まで) の2種類を設定し, それぞれの条件における正答率及び (2)(3) に対する誤答率と, その学習による変化を調べた. その結果,三次元形状の比較が要求されるような状況においては, より長い認識時間が必要であることが分かった. Short条件では, 被験者は視点の変化が少ないときには 反応時間が制限されない場合と同程度の高い認識率を示したが, 視点の変化が大きいときには認識率の低下が著しかった. このような結果から我々は,処理速度が速いが視点汎化性能の低いモジュールと, 処理速度が遅いが視点汎化性能の高いモジュールの二種類が存在するのではないか, という仮説を提案した.

純粋に視点依存的表現に基づく理論では, 記憶表現は視点依存のビューであり, 入力表現と記憶表現の比較は基本的には 画像のマッチングのような方法が想定されている. これは上記の前者のモジュールに相当すると考えられる. 表現は視点依存であり, それを重ね合せることによって比較するので, 視点が大きく変化した場合には 同じ物体に属するビュー同士であっても差が大きくなってしまい認識できない. 後者は三次元形状情報をより積極的に利用するモジュールだと考えることができる. これは物体の三次元構造を再構成し, それを脳内で操作し新しい視点からの見えを生成するような処理を含む. 実際人間はある種のイメージ操作によって 新奇な視点からの見えを想像することができる. 三次元的に回転した物体のイメージを比較するには その角度差に依存した時間を要することが知られており, メンタルローテーションと名付けられている. このモジュールはそれに類似した機能を持つものが想定される.

また,我々の実験で試行を繰り返し行うと, 反応時間を制限した場合の成績はそれほど向上しなかったが, 反応時間を無制限とした場合の成績は大きく向上した. つまり,上記の仮説に基づくと 三次元的イメージ操作を行うモジュールのみにおいて 学習の効果が見られたということになる. このことからも,両者は全く異なるプロセスであることが示唆される.

図:



日本認知科学会論文誌『認知科学』