実験1の結果は, 物体認識において既知の視点からの汎化に関わる二種類の処理, つまり,刺激の複雑さに依存しない画像ベースの変換と 複雑さの影響が大きい三次元構造ベースの変換が, ともに利用されているという可能性を強く支持する. 注意すべきなのは,呈示時間に制限のない条件においてもなお, ある程度の視点依存性が観察されたことである. この事実は, 三次元的比較処理では三次元構造を利用してはいるが, 視点不変の三次元モデルを形成しているわけではないことを示している. したがって,ここで三次元構造の利用と述べたが, これとMarrあるいはBiedermanらの理論での視点不変表現とは はっきりと区別しておかなければならない. 視点不変の表現があれば, ここで述べるような逐次的な変換は不要なのである. 明確なメカニズムはさらに研究を進める必要があるが, Marrの言う Dスケッチのような, 観察者中心で奥行きや面の方向を保持する表現を, 三次元構造の部分的復元を行うことによって 他の視点からの表現に変換するような処理が考えられる. いわゆるメンタルローテーションと呼ばれる現象の説明にも類似した, 視点依存の内部表現を三次元構造情報を用いながら少しずつ変換する イメージ操作である可能性がある.
BulthoffAnd1990a:psychoは
二つの視点からの形状を記憶した後,
それらの視点の
中間 ( INTER),
延長線上 ( EXTRA),
直交 ( ORTHO)の
それぞれの位置からの再認誤答率を調べ,
水平方向の回転と垂直方向の回転に非対称性が存在するために
常には成立しないものの,
一般的にはそれらが
INTER EXTRA ORTHO
の順に大きくなることを示した.
彼等の結果で特に注目すべきなのは
EXTRA条件よりも ORTHOの認識の方が困難であったという点である.
記憶した外観のうち最も近接したものと比較することだけによって
再認するような解法であるとすると,このような差は生じない.
つまり,ある新奇な外観を認識するために,
最も近い既知の外観だけでなく,
認識する外観とそれを結んだ延長線上にある
さらに向う側の別の外観の情報を利用していることになる.
Bulthoffらも指摘しているように,
INTER条件の方が EXTRA条件よりも容易であったことから,
少なくとも,この認識はUllman1991a:recoらによる
複数の二次元画像の線型計算のような方法で
一撃的に計算されているのではないといえる.
処理速度 | 比較可能な角度差 | 学習の効果 | カテゴリ依存性 | 形状の複雑さの効果 | |
二次元的比較処理 | 速い | 小さい | 小さい | なし | 小さい |
三次元的比較処理 | 遅い | 大きい | 大きい | あり | 大きい |
我々の提案する二種類の比較モジュールが存在すると考えると, 上記の誤答率の差がそれぞれのモジュールの特性によって説明できる. 我々の想定するのは, 視点依存表現と,前述のメンタルローテーション様の逐次的イメージ操作が, 同時に存在するようなシステムである. このようなシステムでは, まず表現の視点依存性から, INTERの方が EXTRAよりも 誤答率の低くなることが予想できる. また,三次元構造情報を用いて少しずつ変換する処理は 既知の外観を元に学習されなければならないため, 既知の二つの視点の延長線上である INTER及び EXTRAの方が, ORTHOよりも成績が良いことが説明できる.
実験2では, 物体認識における既知の視点からの汎化が学習によって向上すること, そしてその学習が二種類の物体のそれぞれにほぼ独立に獲得されたことを示した. NishinaAnd1996b:shitでは ,学習は主に三次元構造を用いた変換において見られた. このことから,実験2でのカテゴリは 三次元構造によって定義されている可能性がある.
汎化の範囲が大きいということは, より少ない方向からの記憶でその物体を認識できることを意味し, 記憶容量の面で効率的である. しかし,全く新奇な物体に対しては, 角度の変化に対して見えがどのように変化するかが分からない. そのため,その物体のカテゴリに対する親近度が低い間は, 汎化可能な範囲が狭く認識時に強い視点依存性を示す. 同一カテゴリの物体を数多く見ることによって, そのカテゴリに共通した,角度の変化に対する見えの変化の様子を学習し, 徐々に汎化の範囲が拡大していくと推測できる. 特定のカテゴリに共通な情報を抽出しているために, 他のカテゴリの物体が現れたときには,その情報を適用できない場合がある. 結果として汎化の大きさが減少することになる.
GRBFネットワークのような視点依存表現による物体認識モデルでは, ネットワークの各ユニットが特定の物体の特定の方向からの見えの記憶に対応する [PoggioPoggio1990,Poggio EdelmanPoggio Edelman1990]. このモデルは記憶ベース機構を数理的に抽象化したものであり, その意味ではシンプルで理解しやすい. またそのふるまいは,我々の実験でも示された認識の視点依存性とも親和性が高い. 人間の視覚的物体認識の最も基本的な部分はこのような機構によって 実現されている可能性が高い.
しかし,より効率よく安定した認識のためには 外界に存在する「構造」を抽出して利用することが得策である. GRBFネットワークによるシミュレーションでは, ペーパークリップ上の折線上物体の認識において, 一つの外観の記憶表現はそれを中心として 〜 の範囲の認識にしか貢献しないとされている. これに対して我々の心理実験の結果では,十分な試行の後には 近くでもかなりの成績で認識できることが分かった. 人間が単純に二次元画像を記憶しているだけではないことは この事実からも明らかである. 数多くのサンプルを単に記憶するのではなく そこに何らかの構造を見いだすことによって, より強力な汎化が可能になり, 新奇な視点にもより広範囲に対応できると考えられる. 我々の実験で示した,三次元構造情報及びカテゴリ内情報は そのような外界の構造のうちの二つであろう. 三次元構造情報は視点空間内での汎化に, カテゴリ内情報は物体のカテゴリ空間内での汎化に それぞれ利用されていると考えられるのである.
認識の視点依存性は, 表現の視点依存性及び認識における視点の汎化と深く関わっている. 同様に,汎化のカテゴリ依存性は, 形状記憶表現のカテゴリ依存性及びカテゴリ内の汎化の存在を示唆する. すなわち,物体の記憶表現は, 視点空間において圧縮されているだけでなく, カテゴリ空間においても圧縮された表現,つまり, 形状カテゴリに共通な情報が共有された表現になっている可能性がある.