日本認知科学会機関誌

『認知科学』

第2巻第3号:1995年2月発行●


●研究論文●

主観的輪郭を含めた3次元物体認識システム

3-D Object Recognition System Using Subjective Contours
石原 恵子・石原 茂和*・長町 三生**
Keiko Ishihara, Shigekazu ISHIHARA,& Mitsuo NAGAMACHI        
広島中央女子短期大学
Hiroshima Chuo Women's Junior College
*:尾道短期大学
**:広島大学工学部(現在は国立呉工業高等専門学校)

目次

Abstract
1.はじめに
2.主観的輪郭形成に関わるプロセス
2.1 主観的輪郭とは
2.2 主観的輪郭を作りだすプロセス−生理学,心理学からの知見
3.低次プロセスでの輪郭処理
3.1 BCS のアルゴリズム
3.2 主観的輪郭についての低次プロセスのシミュレーション
4.3次元物体認識のための形状記述
4.1 日常の様々な物体の認識
4.2 物体形状の3次元表象による物体認識プロセス
5.主観的輪郭生成を含む物体認識システム
6.考察と今後の課題
文献
著者紹介

3-D Object Recognition System Using Subjective Contours

Keiko Ishihara, Shigekazu ISHIHARA,& Mitsuo NAGAMACHI
Hiroshima Chuo Women's Junior College

  We describe a 3-D object recognition system from gray-scale images. It uses "subjective contours" as well as luminance edges (physical contours). In this paper, we suppose two kinds of subjective contours based on psychological and physiological findings: (1) Subjective contours that are automatically generated as by-products in the lower level processes of visual system. Alignment and proximity of physical contours and line ends promote generating such contours. The edge detection process involved in this kind of subjective contours are modeled by BCS neural network (Grossberg & Mingolla, 1985) in our system. (2) Subjective contours that represent a hypothesis of segmentation with volumes in the higher level process. The volumes have primitive shapes and they are components of object models. We used geons (Biederman, 1987) for describing object models. Higher level process groups both physical and subjective contours that are detected in the lower level process into the most probable geons, by found features such as line junctions and curvatures of lines. We describe the idea of recognition system that combines lower and higher level processes. We applied it to partially shaded images, arrangement of lines and partly degraded image.
Keywords
object recognition system(物体認識システム),
subjecive contours (主観的輪郭),
BCS (境界輪郭システム),
object models(物体モデル),
geons(ジオン)

  • 目次に戻る

    1.はじめに

     人間と共生するロボットには,日常的に存在する多くの種類の物体を,大まかでも高速に認識することが求められる.このような能力をもつコンピュータ・ビジョン・システムは現在のところ存在しないが,人間の視覚システムが最も大きな特徴とする能力である.人工視覚システムに,われわれ人間のもつ視覚の特徴をモデル化し取り入れることは,人間に近い視覚能力を備えるための1つの方法になるであろう.
     2次元の網膜像から3次元の物体としての認識を得るためには,まず網膜像の中から輪郭を検出し,それらを特徴としてまとめあげて表面として表現し,3次元形状を構成することが必要である (Marr, 1982) .ここで最初のステップである輪郭の検出は,普通,画像の中に急激な輝度変化がある位置で行なわれる.しかし,我々人間は,主観的輪郭と呼ばれる,輝度変化のない位置でも輪郭があるように知覚されることがある.人間と同じような視覚認識を行なうためには,この2種類の輪郭を扱う必要がある.本研究では,人間の視覚システムに関する心理学的,神経生理学的知見を取り入れたモデルを作ることにより,通常の輪郭に加えて主観的輪郭を利用して柔軟で高速な物体認識を行なうシステムを構築する.
     本稿では以下,2章でまず,心理学や生理学などで主観的輪郭の生成に関わると言われているプロセスについて挙げ,次に3章では主観的輪郭生成に関わる視覚の低次プロセスのモデル,4章では高次プロセスに利用される3次元物体の記憶表象についての仮説を説明する.そして5章で筆者らが提案する,主観的輪郭の生成を含んだ輪郭処理を行なう物体認識システムの構成を説明する.


  • 目次に戻る

    2.主観的輪郭形成に関わるプロセス

    2.1  主観的輪郭とは
     輪郭は普通,視野内に明るさや色などに物理的不連続がある場合に知覚されるが,主観的輪郭はそのような不連続のないところに形成される輪郭である.例えば図1(a) の中心にあるように見える三角形(Kanizsa の三角形 (Kanizsa, 1979) と呼ばれる)や (b) の中を通る縦の線などは主観的輪郭である.

    図1 主観的輪郭線を誘導する図形の例

     また,図2では葉が重なり合っているように見える.図の中に白枠で囲んだ部分には明るさの差がないにもかかわらず,「変わった形の葉」としてではなく,「葉が重なった」ように,そこに輪郭が知覚されるという点で,これも主観的輪郭と呼べるであろう.入力画像をより単純な,規則的な形として認識する傾向にあることに主観的輪郭が寄与していると考えられる.

    図2 明るさの差がないところに知覚できる葉の輪郭(白枠の中)

     さらに,多くの場合,物体の表面には模様があるが,表面の縁でとぎれてしまう.この模様の不連続に対応して物体の輪郭を作り上げ,背景から物体を切り出すのも主観的輪郭によるものであろう (藤田, 1994).このような場合には,模様の個々の構成要素が多数あるというよりも,主観的輪郭でまとめられた物体があるというように,より単純な認識結果を得ていると考えられる.自然の光景では,照明が一様でなかったり,ノイズがあったりして物体の輪郭線が完全に検出できない場合も少なくない.このような悪条件下でも多くの場合人間は部分的な手掛かりから物体として認識することができる.線画の一部の輪郭線分を消去した刺激を用いた実験では,角や交差点の部分を消去して線分の中ほどを残した絵からは,物体の認識が困難であるのに対し,輪郭線の中ほどを消去して角や交差点を残した絵からは,前者よりも物体の認識が容易であることが示されている (Biederman, 1987).このことから,物体の認識とそれに伴う主観的輪郭の知覚には角や交差点が重要な情報を与えていることがわかる.さらに,我々はすばやく大まかな形を見て何があるかを認識することと,美術観賞のように時間をかけて輪郭の詳細を観察することの両方ができる.主観的輪郭の誘導図形に対しても,注視を続けると主観的輪郭が消失することが多い.
     以上のことから,人間が物体認識において主観的輪郭を知覚することの利点として,高速な認識を行ない,また認識結果を単純なものにする働きあるいはその副作用として,人間は主観的輪郭の知覚メカニズムを備えているのであろうと我々は考える.その意味で,主観的輪郭は単なる付随現象ではなく,視覚情報処理の過程を解明するヒントを与えてくれるものであり,また人間のように見えることのできるメカニズムを作るということは主観的輪郭の現象も説明できるものでなければならない.

    2.2  主観的輪郭を作りだすプロセス−生理学,心理学からの知見
     主観的輪郭を生成するメカニズムについてはこれまで様々な報告が行なわれており (渡辺・永瀬, 1989),決定的なものはないようである.大きく分けて視覚システムの低次プロセスで主観的輪郭が自動的に作られるという説と,もっと高次の認識や記憶が関わるという説がある.
     人間やサルなど霊長類の大脳視覚野では,視覚経路の入り口に位置する第1次,第2次視覚野(V1野, V2野)は,明るさの差による輪郭方位の処理が行なわれていることが知られている (Hubel & Wiesel, 1968; Oram & Perrett, 1994; 藤田, 1994).この中で,V2 野には物理的な明るさの輪郭だけでなく,その線の端点の並びでできた,図1(b)のようなタイプの主観的輪郭に相当する線分の方位や,切り離した細い棒の間を補間するような方位にも反応する細胞が存在することが発見された (von der Heydt, et al., 1984).その後,傾斜線残効に関して,順応刺激に物理的輪郭あるいは線分の端点に誘導されるタイプの主観的輪郭を使い,テスト刺激にも物理的な輪郭あるいは主観的輪郭を用いて実験が行なわれた.このとき主観的輪郭と物理的輪郭の間で傾斜線残効の転移が認められたことから,主観的輪郭と物理的輪郭の両方に反応し,その双方で方位選択性が等しい神経細胞の存在が推定された (Paradiso, et al., 1989).このことから,線分の端点において線分と直交する方位に発生したり,物理的輪郭の間にギャップがある場合に同じ方位に埋めたりするような主観的輪郭は,視覚プロセスの中でも初期に自動的に行なわれる,エッジ方位の処理の段階ですでに始まっていると考えられている.
     後者の立場としては,主観的輪郭によってつくられた形が単に輪郭線としてあるのではなく,奥行きをもった表面としての性質をもつことを示している.視覚全体のプロセスの中で表面の表現は物体の認識に結びついた,比較的高次のプロセスと言えよう.図1(a) のタイプでパックマンを4つ配置して四角形にしたもので1つのパックマンの切れ目の位置や角度を少しずつ変えたものを連続して呈示されたとき,その切れ目に注目するよりも主観的に作りだされた紙の端が3次元的に折り返るアニメーションのような知覚をする (山田, 1990),また主観的にできた面が模様と共に仮現運動する (Ramachandran, 1985) ことなどは,主観的輪郭で囲まれた領域を1つの奥行きをもった面として視覚システムが扱っていることを示すものであろう.主観的輪郭で透明な面が重なっているように見えることも,表面としての性質を持つことを示している (竹市, 1994).また,主観的輪郭でなじみのない形ができるようにした図を使ったときには,その形をあらかじめ記憶した被験者の方がそうでない被験者よりも主観的輪郭を知覚しやすいという実験は,形状に関する記憶が主観的輪郭生成に関与していることを示している (Wallach & Slaughter, 1988).Rock & Anson (1979) は,誘導された主観的輪郭の一部となる物理的輪郭が連続したものと連続していないもの,誘導図形が不完全性をもつもの(この例では円に切り欠きが入ったもの,図3(a))と不完全性をもたないもの(不規則な形,図3(b), (c))の条件を組み合わせた誘導図形を用いて,物理的輪郭の連続性または誘導図形の不完全性のどちらかが主観的輪郭の知覚に必要なほか,先行情報の提示による観察者の構えが主観的輪郭の知覚を促進することを示した.彼らはまた,透明なシートに描いた図3(a) のパックマン図形の手前や奥に縞模様シートを置いた実験で,表面の奥行きに関して主観的輪郭図形を知覚することの適合性を検証するプロセスがあることを示唆した.これらの実験では,高次の処理が主観的輪郭の知覚に影響することを示すものである.また放射状に配置した物理的線分の端点に主観的輪郭が知覚されるタイプで,誘導図形の条件によっては知覚する主観的輪郭の形に個人差が見られた (畑本 他, 1990) が ,低次レベルの処理だけではそれほど個人差があるとは考えにくいため,高次処理の関与が考えられる.

    図3 Rock & Anson (1979) が使ったタイプの刺激
    (a) 不完全性,連続性ともあり (b) 不完全性なし,連続性あり (c) 不完全性,連続性ともなし

     上のことから,主観的輪郭の形成は,輪郭線分の方位検出のような視覚システムの低次プロセスも,形状記憶に関わる高次プロセスもどちらも関連していることになる.誘導図形とマスクを交互に瞬間提示した実験からは,図3(a) のパックマンの切り欠き部分以外の円弧輪郭をマスクすると,誘導図形の提示時間を延ばしていくうちに,誘導図形は最終的に知覚されなくても主観的三角形が知覚されるようになり,パックマンの輪郭すべてをマスクすると誘導図形が知覚されても主観的三角形が知覚されないこと (Gellatry, 1980),また同様のパックマン図形で,主観的輪郭が知覚される場合に誘導図形の連続性が不完全性よりも時間的に早く作用すること (高橋, 1991) が挙げられており,このことからも主観的輪郭の知覚にただ1つの処理レベルが原因となるのではなく,複数の処理レベルが関わっていることが示唆される.
     ここで筆者らは,主観的輪郭と呼ばれる現象について2つのメカニズムを仮定する.1つは非常に初期のレベルでおこるもので,これは V1 野や V2 野での輪郭処理の際に,いわば副作用として起こりうるものである.ここで作りだされた輪郭要素はそれより高次の処理では物理的輪郭と同等のものとして,あたかもそこにエッジがあるように処理されるとする.この種の主観的輪郭生成は次の3章で述べる BCS によってモデル化できる.もう1つはそれよりも高次の,表面や立体要素の認識のレベルが関わるものである.自然のシーンでよくあるように,物体の重なりや陰影,あるいはノイズによって入力画像から物体の輪郭が完全に検出できない場合にも,エッジの角や交差点のような部分的な情報を使って記憶表象の中の物体モデルを利用して,画像の中から奥行きとまとまりをもった形として切り出す.このレベルに関わる物体形状のモデルは4章で述べる.
     筆者らが構築する物体認識システムは,この2種類の主観的輪郭に関連するプロセスを合わせもつものである.


  • 目次に戻る

    3.低次プロセスでの輪郭処理

    3.1  BCS のアルゴリズム
     Grossberg と Mingolla が提案した BCS (Boundary Contour System) は,上に述べたような V1 野, V2 野の細胞の構造や機能を考慮して作られたモデルの1つである (Grossberg & Mingolla, 1985).これは画像の輝度情報からノイズを除去したり補間したりして物理的な輪郭を抽出する過程の中で副次的に主観的輪郭も生成するものである.
     BCS のネットワークは,V1 野, V2 野の組織として知られているハイパーコラムと同じような構造をもっている.網膜の知覚平面に対応して規則正しく並んだユニット群が画像上の画素点を表わし,各画素点には複数の少しずつ異なる線分方位を表現するレイヤーがある.ここでいうレイヤーとは神経生理学や神経解剖学でいう脳の層ではなく,ネットワークの中で同じ機能をもつユニットの層である.画像上のある点でのコントラストの方位成分はそれに対応するレイヤーのユニットが持つポテンシャル値で表わされる.つまり,図4のように,入力画像の輪郭線が少しずつ異なる方位に分解されて表現される.

    図4 明るさのエッジ方位を表現するユニットのレイヤー

     BCS が通常の物理的輪郭と主観的輪郭を計算するアルゴリズムは,同一レイヤー内,および異なるレイヤー間の近傍のユニット間の競合と協調,およびフィードバックのプロセスをもとにしている . これには4つの計算ステージがあり,図5はそのアルゴリズムを示している. (1) 近傍にある同じ方位を表現するユニット間でのレイヤー内競合プロセス(輪郭を細線化・図5の上から3列目), (2) 同じ位置にある,互いに直交する方位を表わすユニット間でのレイヤー間競合プロセス(線分端点で直交成分が現れる・図5の上から2列目), (3) ほぼ共線関係にある2点(相対位置の方位とポテンシャル値の大きい方位とが整合しているような2点)の間の協調プロセス(図5の最上列), (4) そのような2点の間にあるユニットのその方位のポテンシャルに対して正のフィードバック(2点間を補間する・図5の最上列から下に向かう矢印).

    図5 BCS のアルゴリズム

    3.2 主観的輪郭についての低次プロセスのシミュレーション
     前節で述べたアルゴリズムを Grossberg らは差分方程式の形で表現している (Grossberg & Mingolla, 1985).我々はそれをコンピュータ・プログラムとして実装した.そして,主観的輪郭が知覚されると言われる図形(図1)に適用した結果が図6である.ここでの入力画像は2値の128x128画素,アルゴリズムの中で最初にコントラストを検出する方位マスクの大きさは 7x2 画素に相当する.図6の中に並んでいる線の方位と長さが,その位置でのその方位のポテンシャルの大きさを表わす.図6(a)では近接して並んでいるパックマンの切り欠き部分と,パックマンの間に置かれた線分の端点との間をつなぐようなポテンシャルが発生している.図6(b)では水平線分の端点に線分と直交するような方位(垂直)のポテンシャルが発生しており,図形の中央部分ではそれらの間の協調によって主観的輪郭が作られる.前述の計算ステージ (3) で与えるパラメータの値によって協調範囲(距離)が決定され,共線関係にある2点がその範囲内にあればステージ (4) で補間される.この例での左右端で発生したポテンシャルのように,それより離れていれば補間は行なわれない.

    図6 BCS アルゴリズムで生成された物理的および主観的輪郭(図1の図形を入力)

     シミュレーション結果では,入力された線分の端点で直交するような方位成分が発生し,また近接する2つの端点の間にもポテンシャルが発生している.このことから,主観的輪郭の基礎をつくりだすことができることがわかる.


  • 目次に戻る

    4.3次元物体認識のための形状記述

     低次プロセスで検出された輪郭の破片を表面や立体としてまとめあげて記述することは,視覚システムの中でも高次プロセスに含まれる.

    4.1 日常の様々な物体の認識
     物体が何であるかの認識には,形の情報が重要である.単純な形の線画からでもカラー写真からと同じくらいすばやく,そのものの名前を答えることができる (Biederman & Ju, 1988).Biederman は円筒や直方体,くさび型などのような単純な凸型の幾何学的立体の組み合わせと,それらの空間的位置関係で多くの物体の形が記述できると考えた.彼はこのような一般化円錐でできる基本的立体をジオン (geon; geometrical ion) と呼んでいる (Biederman, 1987).ジオンの集合と相互の接続関係で日常的に見られる物体を記述した例を図7に示す.
     ジオンは軸と断面の属性を対比的な2通り,または3通りに分類されることで互いに区別される.すなわち,軸と断面の辺が直線か曲線か,また断面の辺が平行か平行でないか,またはどこかでふくらんでいるか,断面が対称か非対称かという属性で,全部で24個(または36個)の集合となる.このような属性は,物体を見るときの視点が変化してもあまり影響を受けることがなく,また瞬間的に判断できるものである (Biederman, 1990).

    図7 ジオンによる日常的物体の記述

    4.2 物体形状の3次元表象による物体認識プロセス
     このシステムでは物体の形状がジオンに基づいて記述されるとし,画像から物体を認識するために,どのジオンが最もよくあてはまるかを特定する.つまり画像の輝度情報から得られた手掛かりをもとにあてはまりそうなジオンの仮説を作り,物体モデルの記憶表象と比較し,物体モデルを構成するジオンの半数以上があてはまれば,それを見ている物体であるとして認識し,基準を満たさなければさらに他の手掛かりを求める.
     ジオンの間の結合関係は,視点が大きく変化すれば(特に物体が水平な軸の回りに大きく回転している場合)変化してしまう.しかし,この論文の範囲では典型的な見え方から頂点の種類が変わらない程度の回転を扱い,大きな視点移動による結合関係の変化は扱わないことにする.  画像上の輪郭からの手掛かりは,輪郭が1点に集まる頂点の形(L 型,Y 型,矢印型など)と,輪郭が直線か曲がっているかである.これらの特徴は立体の物理的な形に制約されているので,視点が少し変わってもあまり変化しない,安定した特徴である.


  • 目次に戻る

    5.主観的輪郭生成を含む物体認識システム

     これまでの章で,物体認識における主観的輪郭知覚の利点を挙げ,主観的輪郭を含めた輪郭を生成するための低次プロセスと高次プロセスに用いるべきメカニズムを整理した.この章では,本論文で提案する3次元物体認識システムの構成を述べる.このシステムでは主観的輪郭を次のように扱っている.すなわち, (1) 低次処理で自動的に,副次的に作り出されるもの.ここではこのプロセスを BCS でモデル化する.線分の端点やエッジの連続性・近接性などが原因になって作り出され,後の処理では物理的輪郭と同等に処理される.(2) 3次元世界での分節を表現するもの.ここでは基本立体であるジオンの形状に基づいている.立体形状についての仮説であり,物理的輪郭のような線が引かれるわけではなく,その領域にあるジオンが存在すると推論して認識するものである.
     図8は主観的輪郭を含めた3次元物体認識システム TORES-BM (Three dimensional Object REcognition System by Biological Model) 全体の概念図である.網膜像は (1) 視覚バッファを通して入力され,まず (2) 明るさのエッジ検出を行なう.これには3章で説明した BCS のアルゴリズムを用いる.次に (3) 検出されたエッジ(輪郭)をグループ化して,3次元形状の手掛かりとなる特徴(頂点,線分など)がどこにどんな種類があるかを特定する.その特徴の種類を基にして (4) 3次元の物体モデルを構成する.(5) 記憶に表象されている物体モデルのデータベースを備え,(6) それに基づいて要素立体(ジオン)を検索,(7) 見ている物体が何であるかを同定することによって認識する.これらの処理は人間の処理方式にならって視野の中で中心視された領域でのみ行なわれると考えている.

    図8 主観的輪郭を含めた3次元物体認識システム TORES-BM の構成


     次に,それぞれのシステム構成要素で行なわれる処理について詳細に述べる.
     (1) 視覚バッファ
     視野全体の明るさの分布が視覚バッファに入力される.その画像から特定の中心視領域が画素の明るさの値に変換される.中心視領域は視野の中でも,周囲より明るい領域のうちの1つに定められるとする.ここでは2種類のグレースケール画像が入力された場合を例として説明する.図9は照明が一様でなく,輪郭線の一部が背景と同じ輝度をもつ場合,図10は主観的輪郭が知覚されなければ直線の集まりとして知覚されるような場合である.

    図9 入力画像(一部が背景と同じ輝度をもつ場合)

    図10 入力画像(直線の集まり)

     (2) エッジ検出
     BCS のニューラルネットワークによって,まず局所的な明るさの差の方位に分解し,ネットワーク内のユニットどうしの競合・協調プロセスを経て物理的な輪郭と同時に主観的輪郭の候補となるエッジ方位成分も生成する.実行例として,図9から検出したエッジを図11に示す.背景と等輝度の領域内でエッジや頂点が検出されていない.図12図10から検出したエッジを示す.(a) では BCS アルゴリズムによって各線分の端点で線分に直交するような線分が発生し,主観的輪郭に相当する線分が現われている.これに対して(b) は BCS を適用しなかった場合(コントラストと方位の検出のみ行なった)には,物理的輪郭に相当するエッジだけが検出されて,主観的輪郭に相当する線分は現われない.

    図11 図9から検出したエッジ

    図12 図10から検出したエッジ
    (a) BCS によって主観的輪郭を生成した場合 (b) 主観的輪郭を生成しなかった場合

     (3) 特徴タイプの特定
     輪郭要素の組み合わせから,頂点の種類( Y 型,矢印型,L 型,曲がりL 型,曲がり Y 型)とその位置を検出する.特定の頂点を検出するために,テンプレートで画像全体をスキャンする一般的な方法で行なうが,BCS の出力が各方位を表わす8つのレイヤーに分解して表現されることに合わせて,方位を表わすポテンシャル値の大きさを条件として検出するテンプレートとして用いている.つまり,垂直方位の大きな値のポテンシャルが垂直に並んでいるときに,垂直方位の線分として検出する.テンプレートの大きさである各方位の並びは10画素とした.
     図13図11から検出された頂点,図14図12(a)から検出された頂点である(いずれもマッチした画素数の比率は 85% 以上).図13ではエッジが検出された部分で頂点が検出されている.図14では生成された主観的輪郭を含めて頂点を検出している.結果として両方とも直方体のジオンが復元される.なお,主観的輪郭を生成しなかった図12(b)では,テンプレートのマッチ率が 70% を越えるような頂点は検出できなかった.この場合,次の段階でジオンを復元することができないので,認識結果は直線の集まりということになる.

    図13 図11から検出したエッジ

    図14 図12(a)から検出したエッジ

     (4) ジオンの復元
     特徴タイプの組み合わせから,基本立体(ジオン)の形状を復元する.頂点の種類,輪郭線の曲がり,および頂点で接する面の接続関係の組み合わせの関係は物理的に制約されている.このルールの例を図15に取り出して示す.これらの対応関係が生後の視覚経験から学習され,記憶されているものと考えた概念モデルを図16に示す.この対応関係を表現するためにコネクショニスト・ネットワークを用いている.検出された頂点の種類と,その位置で接続されて存在しうる表面の形 (Lee & Paterson, 1991) の間にリンクがあり,また接続表面の形とありうる物体モデルの間にリンクがある.またエッジの連続性から直線か曲線かを検出し,それぞれが含まれるジオンとの間にもリンクがある.各レイヤーの間のリンクは例を与えた学習によって形成した.頂点タイプと面の間,面とジオンの間ごとに、完全な見え方をしたものを例題として入力値を1とし,instar 学習則 (Carpenter, 1989) によってリンクの結合値を更新させた.

    図15 特徴のタイプの組み合わせとジオンの関係のルール

    図16 エッジからジオンを復元するネットワーク

     ところで,物体モデルと,画像の中にあるエッジとのマッチングの問題は,コンピュータ・ビジョンの分野でも古くから考えられてきた(白井 編, 1987; 谷内田 編, 1990 など).ジオンに限らず一般化円筒(円錐)に基づくモデルは軸と断面で構成されるため,画像中の手掛かりを使ってジオンの軸を取り出さなければならない.細長い立体であれば比較的簡単であるが,一般には軸の決定はむずかしい問題である.もう1つの物体モデルの記述法は,物体をさまざまな方向から見たときの,見かけの形状(アスペクト)の集合として表現することである.アスペクトの生成法については Ikeuchi & Kanade (1988) が論じている.この記述法ではモデルに多くのアスペクトを蓄えなければならないが,画像とモデルの各アスペクトを直接比較することができる.
     このシステムでは,画像から直接ジオンの軸を決定することを避けて,代わりに頂点のタイプや,接続しうる面といった,見かけの形状を利用してマッチングする方法をとっている.  エッジの検出結果からあてはまるノードに大きな活性値がリンクを通して送られ,ジオンが推定される.例えば図13, 14 に検出された頂点の組み合わせからは,どちらも直方体のジオンが復元される.
     図13の各頂点テンプレートの出力値をこのネットワークに入力した結果得られたジオン・ノード群の出力値の一部分を図17に示す(黒いバー).白いバーは完全な線画が入力された場合のジオン・ノードの出力値である。正しいジオン・ノードが大きい値を出力している.

    図17 図13の頂点ノード出力値から得られたジオン・ノードの出力値

     (5) 記憶内の物体モデル表象
     日常にある3次元物体の形状がジオンの集合とそれらの間の接続関係で記述されている.また物体モデルのデータベースは,自己組織化ニューラルネットワークによって互いに類似した形状の物体がまとめられている (畑本 他, 1991; Hatamoto, et al., 1992).例として図18の入力画像から上述の方法でエッジに続いて頂点を検出し,復元されたジオンから物体を同定した場合を図19に示す.ここでは同じ種類の円筒型ジオンが2つの位置で検出され,スイッチの部分の四角形のジオンは頂点が1つだけ検出されたために弱い値で検出されている.これらのジオンの組み合わせを物体モデルの表象とを比較し,2つの円筒型ジオンと1つの直方体ジオンが適合した「懐中電灯」が選ばれた.

    図18 入力画像

    図19 頂点から接続面,ジオン,物体の同定

     以上のシステムを統合することにより,主観的輪郭の知覚をも含めた物体認識システムが構成される.ここで提案した認識システムと脳の視覚システムの対応という点では,(1) 〜 (2) は2章で述べたような網膜から第2次視覚野まででの処理に相当する.それ以降の処理については,最近の生理学的研究で発表されている,「特定の色をした特定の物体」「物体Aと物体Bがあり,上からこの順に並んでいる」など素情報の組み合わせによる物体認識に対応するような細胞が側頭葉に発見され,また,サルの下側頭皮質では形や色,方向などの組み合わせ視覚特徴もコラム状に並んでいる (Fujita et al., 1992) ことにほぼ沿ったものである.


  • 目次に戻る

    6.考察と今後の課題

     現在のこの視覚システムでは,ジオンのような比較的単純な形の立体であれば,さまざまな形の3次元物体が認識できる.照明が一様でなく部分的に物体表面と背景の明るさに差がないような領域があったり,多くの線分の並びから形成されるような図形からでも,単純な形状をもつ3次元物体としての仮説を作って形状を認識することができることになる.
     また,図1に示したような,いわゆる主観的輪郭を誘導する2次元図形に対しても,同様な説明をすることができる.すなわち,主観的輪郭は,画像上の少ない手掛かりから推定した3次元物体の輪郭の一部として作られる.このため,生成された主観的輪郭の形状は,検索された基本立体を反映しており,表面としての性質を伴なう,観察者の記憶や先行情報に影響される,異なる基本立体が検索されれば異なる形状の主観的輪郭図形が知覚されるなど,2章に挙げたような性質が説明できる.
     ところでこのシステムは,物体を大まかな3次元形状として扱うことで,高速に認識・同定することを目的としているので,正確な線の形状や表面方向を計測することを目的とする認識課題には適していない.また,検出される輪郭をすべてジオンの仮説生成に利用するため,入力画像に多くの物体が含まれている場合には,非常に大きな計算量が必要となる.このような画像を一度に処理しようとすると,どの輪郭を同じジオンに含めるかという問題が発生するからである.しかし,人間はこのような場合にもすばやく物体の切り分けを行なっており,試行錯誤的に輪郭をあてはめているとは考えにくいので,これを効率的に行なう何らかのメカニズムを考える必要があろう.
     また,物体モデルの適合基準について,どこまで一致すればその物体であると同定するかという問題がある.物体モデルを表現するジオンの集合は,物体モデル記述の抽象度で規定される.これと低次処理の解像度の関係はこれからの課題である.
     このシステムでは主観的輪郭を取り扱ったが,古くからの主観的輪郭研究で発見されてきた,主観的輪郭が誘導される,あるいは誘導されないと言われる図形について説明できるわけではない.例えば,Kanizsa 流に黒い十字形を四隅に配置した図形では,主観的輪郭が誘導されないと言われているが,このシステムではエッジの近接性と連続性によって誘導されることになる.システムをさらに人間の視覚に近づけるためには,このようなメカニズムについても今後の課題となる.
     人間やサルに関する大脳生理学・神経解剖学は近年めざましく発展しているため,そこでの知見とも照らし合せて今後検討を重ねることが必要であると考えている.


  • 目次に戻る

    文献
    Biederman, I. (1987)
    Recognition-by-components: A theory of human image understanding, Psychological Review, 94(2), 115-147.
    Biederman, I. (1990)
    Higher-level vision, In Osherson, D. N., et al. (Eds.). Visual Cognition and Action, 2, 41-72, MA: MIT Press.
    Biederman, I. & Ju, G. (1988)
    Surface versus edge-based determinants of visual recognition, Cognitive Psychology, 20, 38-64.
    Carpenter, G. A. (1989)
    Neural network models for pattern recognition and associative memory, Neural Networks, 2, 243-257.
    Fujita, I., Tanaka, K., Ito, M., & Cheng. K. (1992) 
    Columns for visual features of objects in monkey inferotemporal cortex, Nature, 360(26), 343-346.
    藤田一郎 (1994)
    大脳視覚野の生理学. 伊藤正男, 安西祐一郎, 川人光男, 市川伸一, 中島秀之, 橋田浩一編. 『岩波講座認知科学 3 視覚と聴覚』, 42-88, 東京: 岩波書店.
    Gellatly, A. R. H. (1980)
    Perception of an illusory triangle with masked inducing figure, Perception, 9, 599-602.
    Grossberg, S. & Mingolla, E. (1985)
    Neural Dynamics of form perception: Boundary completion, illusory figures, and neon color spreading, Psychological Review, 92(2), 173-211.
    畑本(石原)恵子, 長町三生, 石原茂和, 松島加代子, 松原行宏 (1990)
    主観的輪郭の形成における知覚スキーマの作用に関する研究, 日本人間工学会誌26 (特別号), 252-253.
    畑本(石原)恵子, 石原茂和, 長町三生, 松原行宏 (1991)
    視覚対象の認識における記憶表象の役割, 日本人間工学会誌27(特別号), 224-225.
    Hatamoto (Ishihara), K., Ishihara, S., & Nagamachi, M. (1992)
    A mechanism for contour generation using visual representations present in memory. Proceedings of International Conference on Economics/Management and Information Technology 92, 441-444.
    Hubel, D. H. & Wiesel, T. N. (1968)
    Receptive fields and functional architecture of monkey striate cortex, Journal of Physiology, (195), 215-243.
    Ikeuchi, K. & Kanade, T. (1988)
    Automatic generation of object Recognition programs, Proceedings of the IEEE, 76 (8), 1016-1035.
    Kanizsa, G. (1979)
    (野口 監訳 (1985). 『視覚の文法−ゲシュタルト知覚論−』, 東京: サイエンス社.)
    Lee, C. M. & Patterson, D. (1991)
    A hybrid neural network vision system for object identification. In Kohonen, T., Maekisara, K., Simula, O. & Kangas, J. (Eds.), Artificial Neural Networks, 69-74, Amsterdam: Elsevier Science Publishers.
    Marr, D. (1982)
    (乾,安藤訳 (1987).『ビジョン−視覚の計算理論と脳内表現−』, 東京: 産業図書.)
    Oram, M. W. & Perrett, D. (1994)
    Modeling visual recognition from neurobiological constraints, Neural Networks, 7 (6/7), 945-972.
    Paradiso, M. A., Shimojo, S., & Nakayama, K. (1989)
    Subjective contours, tilt aftereffects, and visual cortex organization, Vision Research, 29(9), 1205-1213.
    Ramachandran, V. S. (1985)
    Apparent motion of subjective surfaces, Perception, 14 (1), 127 -134.
    Rock, I. & Anson, R. (1979)
    Illusory contours as the solution to a problem, Perception, 8, 665-681.
    白井良明 編 (1987)
    『知識工学講座9 パターン理解』, 48-61, 東京: オーム社.
    高橋晋也 (1991)
    主観的輪郭の微小生成過程における図形手がかりの作用の検討, 心理学研究, 62 (3), 212-215.
    竹市博臣 (1994)
    主観的な遮蔽表面と透明視がアモーダル表現の形成と仮現運動の対応問題の 解決に及ぼす影響, 認知科学, 1(1), 87-106.
    von der Heydt, R., Peterhans, E. & Baumgartner, G. (1984)
    Illusory contours and cortical neuron responses, Science, (224), 1260-1262.
    Wallach, H. & Slaughter, V. (1988)
    The role of memory in perceiving subjective contours, Perception & Psychophysics, 43, 101-106.
    渡辺武郎, 永瀬英司 (1989)
    主観的輪郭のメカニズム, 基礎心理学研究, 8(1), 17-32.
    谷内田正彦 編 (1990)
    『コンピュータビジョン』, 143-156, 東京: 丸善.
    山田 亘 (1990)
    主観的輪郭の変形の一様相, 日本心理学会第54回大会発表論文集, 471.
    【終わり】
  • 目次に戻る

    著者紹介
    石原 恵子(いしはら けいこ)(正会員)
     1991 年広島大学大学院工学研究科システム工学専攻博士後期課程単位取得退学.同年広島大学工学部助手.1992年より広島中央女子短期大学で専任講師を経て現在助教授(人間工学,情報科学).人間の情報処理様式を取り入れた視覚認識システムを研究している.日本心理学会,日本人間工学会,電子情報通信学会,計測制御自動学会各会員.
    石原 茂和(いしはら しげかず)(正会員)
     1988 年日本大学大学院文学研究科心理学専攻博士前期課程修了.1992年広島大学大学院工学研究科システム工学専攻博士後期課程単位取得退学.現在尾道短期大学専任講師.記憶,視覚から感性工学まで幅広くニューラルネットワークを使ったモデルを研究中.日本心理学会,日本人間工学会,計測制御自動学会,人工知能学会,情報処理学会,日本ファジィ学会各会員.
    長町 三生(ながまち みつお)(正会員)
     1963 年広島大学大学院博士課程修了.文学博士.広島大学助手,助教授を経て工学部教授(管理工学担当).1996年4月より国立呉工業高等専門学校校長.感性工学,CAI,認知心理学,産業用ロボットと安全管理などの研究に従事.電子情報通信学会,情報処理学会,日本人間工学会,計測制御自動学会,日本経営工学会,日本ファジィ学会,日本機械学会各会員.

  • 目次に戻る