SEEING IS BELIEVING 보는 것이 믿는 것이다.
사진
SPOT THE DIFFERENCE (47페이지 사진)
You see a room full of objects. The robot sees a collection of dot. When the scene changes minutely, you have no trouble recognizing it as essentially the same picture. The poor robot has to begin all over again, checking out its groups of dots.
당신은 물체들로 가득한 방을 본다. 로봇은 점의 모임으로 본다. 장면이 세세하게 바 뀔 때 당신은 본질적으로 같은 물체임을 인식하는데 전혀 어려움이 없다. 불쌍한(poor) 로봇은 각 점들의 집합을 확인하는 작업을 또 다시 해야만 한다.
문제 제기
인간은 두 개의 눈(binocular eyes)과 뛰어난 색 시각(vision) 을 가진 시각 동물이다. 뇌의 많은 부분은 시각 정보(data)를 처리(processing)한다. 눈의 뒤에 있는 망막(retina)에서 처리되는 것뿐만이 아니다. 우리의 삶에서 시각이 작용하는 거대한 역할은 우리가 사용하는 말에도 반영되어있다. 우리가 어떤 것을 이해할 때 " I SEE"라고 말한다. 우리가 사용하는 굉장한 시각 능력을 로봇에게 부여하는 것을 무엇이 막을 수 있겠는가?
본문
사람들은 주위를 볼 때 뇌가 하는 작용을 의식하지는 않는다. 처음 눈에 도착된 상(image)은 뒤집혀 있도록 구성되어 있다. 뇌가 그 상을 바로 뒤집는다. 상을 뒤집는 "upside-down glasses"를 장착한 실험을 했다. 몇 시간 후 그들의 뇌가 적응하였고 그들이 안경을 벗을 고 원래의 세팅으로 적응되기 전까지 올바른 방향으로 세계를 보았다. 여기서 나온 놀라운 현실은 당신의 머릿속에서 모든 것이 일어났다. 망막의 로드(rod)와 콘(con)에 빛의 자극(stimulus)을 뇌가 해석함으로써 이루어진 것뿐이다.
이렇게 쉽게 시각 입력을 인식하고 해석하는 능력이 우리가 로봇이 가지는 문제를 이해하는데 어렵게 만든다.
우리가 카메라(눈)에 의해 보내지는 그림-로봇이 보는 것과 같은 그림-을 보고 벽, 책상, 의자가 갖추어진 사무실을 볼 수 있다. 그러나 로봇은 색깔을 가진 작은 수천 개의 점으로 가득 찬 직사각형을 본다. 이 점(pixels이라고 부르며 picture elements의 약자이다.)은 세계에 대한 정보의 한 단위고, 이 정보는 어떤 것을 의미하기 전에 해석되어야 한다.
픽셀매니아(PIXELMANIA)
한 개의 영상의 픽셀의 수는 카메라의 해상도(resolution)에 의해 결정된다. 예를 들어 낮은 해상도를 가진 디지털 스틸 카메라는 800*600픽셀의 영상, 480,000개의 점으로 상을 만들어 낸다. 물론 비디오카메라는 한 개의 영상을 제공하지는 않지만 초당 60개의 영상, 즉 28,800,000개의 점을 만들게 된다. 표시되어지는 색깔의 수에 따라 다르지만 각각의 점이 32bits의 조합된 정보까지 가질 수 있다. 만약 우리가 우리와 같이 두 개의 눈을 가진 로봇을 원한다면 모든 것이 두 배로 필요로 하게 될 것이고 그것은 처리하기에 너무 많은 데이터이다.
불쌍한 로봇(poor robot)이 이런 점(pixels)들을 가지고 무엇을 할까? 컴퓨터 시각(vision) 연구가들은 이 정보를 가지고 다음과 같은 순서로 정보를 처리하는 컴퓨터 프로그램을 개발했다. 처음 세그먼테이션(segmentation)이라고 불리는 과정에서 같이 속해 있는 것처럼 보이는 점들을 함께 묶는다. 다음으로 기본적인 기하학(geometry)을 이용하여 선과 평면을 형성한다. 그리고 형상(object) 인식 프로그램이 책상과 같이 이미 알고 있는 것과 이 모양(shape)을 매치시키려고 한다. 로봇이 고정되어 있어도 힘든 작업인데, 만약 움직인다면, 로봇이 만나는 물체가 각도에 따라 다르게 보이므로, 매우 어렵게 된다. 반면 인간은 책상 공간(room)의 두 개의 다른 끝점을 인식하는데 어려움이 없다. 아무도 정확히 어떻게 이것이 수행되는지 모른다.
인간은 태초부터 많은 다른 현명한 일들을 할 수 있다. 신생아조차도 얼굴같이 보이는 것에 반응하여 열심히 꿈틀(wriggle)거린다. 만약 조금 나이가 많은 아기 앞에 스크린을 설치하고 장난감을 그 뒤로 움직인다면, 아기는 물체가 다시 나타날 것으로 예상되는 모퉁이를 응시할 것이다. 분명히 우리는 움직임에 대한 많은 기본 지식(built-in knowledge)을 가지고 있다.
몇몇 인간과 다른 동물의 시각 정보 처리과정을 이해하기위한 시도는 컴퓨터 능력(power)에 맡겨두는 것보다, 로봇이 더 잘 볼 수 있도록 도울 것이다. 아마도 패턴인식은 표면(face)의 특정한 모양을 찾는다. 관심을 가지는 것(예를 들어, 움직이는 것)에 집중하는 것은 많은(overload) 정보를 취급하는데 도울지도 모른다. Caltech(California Institute of Technology)의 Carver Mead에 의해 시작된 실리콘 망막에 대한 작업은, 이후 다른 연구가들에 의해, 단순히 대용량의 정보를 컴퓨터가 처리하는 카메라가 하는 방법보다는, 실제의 망막이 하는 방법으로 처리 하는 것과 같이 시각 정보의 입력을 조합하는 칩을 생산하고자 한다. 그렇게 이 공간을 봐라.
출처 : 사전 참조 - Google Dictionary ( http://www.google.co.kr/dictionary )