작성자

  • 윤두밈(Graphics AI Lab)
  • 자연스러운 사람의 얼굴 모션을 캡처하는 일을 하고 있습니다.

이런 분이 읽으면 좋습니다!

  • 3D 그래픽스에서 사실적인 인물을 표현할 때, 얼굴의 움직임에서 어색함을 느끼고 이를 해소하고자 하는 연구자

이 글로 확인할 수 있는 내용

  • 3D 그래픽스에서 자연스러운 사람을 표현하기 위한 3D Scan 및 4D Scan 기술에 대해 소개합니다.


엔씨에서 4D Scan을 연구하는 이유

엔씨에서는 이전부터 3D 스캔과 바디 모션 캡처 기술을 사용한 덕분에 사실적인 디지털 휴먼을 제작해 왔습니다. 하지만 그럼에도 불구하고 사실적이지 못한 부분을 발견하게 되었는데요. 그것은 바로 캐릭터의 표정을 구현하기 위해 사용하는 얼굴 모션 캡처 기술은 얼굴의 큰 움직임만 캡처할 수 있다는 것이었습니다. 눈의 깜빡임, 입이나 턱 등 얼굴의 큰 움직임만을 캡처하다 보니 사람이 표정을 지을 때 생기는 미세한 얼굴의 주름, 근육 움직임까지는 포착하기 어렵다보니 딱딱한 표정이 나타나기 쉬웠다는 거죠. 그래서 미세한 표정 변화가 필요할 때에는 아티스트가 직접 제작하는 것이 일반적이었습니다.

이러한 문제점은 4D Scan을 통해 해결할 수 있습니다. 4D Scan은 3D정보를 동영상처럼 스캔할 수 있어서(4D=3D+시간) 얼굴의 미세한 움직임까지 극사실적으로 추적할 수 있기 때문이죠. 이를 통해 배우의 시그니처 표정을 그대로 담아낼 수 있어 더욱 자연스러운 얼굴 표정을 만들 수 있습니다. 최근에는 4D Scan 데이터를 활용하여 기존 파이프라인을 혁신적으로 자동화하는 연구들이 대세이기도 합니다. 그리고 결과적으로는, 유저들에게 실제 사람에 가까운 표정의 캐릭터들을 통해 캐릭터의 감정이나 게임 내 분위기를 더 생생하게 전달하여 차원이 다른 몰입감을 줄 것으로 기대하고 있습니다.

이 글에서는 4D Scan이 어떤 과정을 통해 얼굴 표정을 캡처를 하는지를 소개합니다. 우선 아래 데모 영상으로 4D Scan 과정과 결과물을 확인해 보세요!


[NC] TDC 01 - Project AVATAR - 4D Scan


사실적인 인물을 표현하기 위한 열망

게임과 같은 가상 세계에서 사람을 사실적으로 표현하기는 매우 어려운 일입니다.

만화나 애니메이션 등과 같은 매체에서는 사람을 표현할 때, 데포르메1와 같은 추상적 표현을 사용하여 사실적인 표현을 많이 생략하고 특유의 과장된 표현을 활용합니다. 그러면 사람과 다르지만, 오히려 사람처럼 느껴지는 효과를 얻을 수 있습니다. 그러나 사람과 유사한 외모와 움직임을 재현하고자 한다면 문제 난도는 매우 높아집니다.

그 대표적인 원인으로는 ‘디테일’‘익숙함’, 이 두 가지를 들 수 있습니다. 인간의 시력은 마이크로미터 수준의 작은 변화로 인해 발생하는 미미한 빛의 변화도 감지합니다. 이를 통해 상대방의 단순한 외형뿐 아니라 혈색, 피부 변화 등 3D 그래픽스로 표현하기 어려운 세밀한 부분까지 자연스럽게 인지합니다. 또한 하루에도 수십 번 자신이나 타인의 얼굴을 보기 때문에 익숙해지고, 이에 따라 작은 차이에서도 평소와는 다른 이질감을 느낄 수 있습니다. 3D 그래픽스로는 이런 세밀한 부분을 의식적으로 표현하기 어렵기 때문에 ‘불쾌한 골짜기’가 발생할 가능성이 있습니다. 이런 특징들이 모여 사람과 유사하게 만들수록 오히려 어색함을 느끼게 되는 ‘불쾌한 골짜기’에 빠지게 됩니다.

그림 1. 불쾌한 골짜기 (출처: https://ko.wikipedia.org/wiki/불쾌한_골짜기)

이러한 어려움에도 불구하고 영상 매체에서 사실적인 가상의 인물을 만들고자 하는 열망과 수요는 끊임없이 이어져 왔으며. 3D 그래픽스 아티스트가 상용 툴을 사용하여 無로부터 인물 전체를 제작하는 고전적인 방식은 여전히 다양한 분야에서 사용되고 있습니다. 그러나 최근에는 현실에 존재하는 인물로부터 정보를 추출하여 가상의 인물을 제작하는 방법이 많이 사용되고 있으며, 이러한 방식 중 하나가 3D Scan입니다.


고품질로 정적인 사람의 얼굴을 추출할 수 있는 3D Scan 기술

엔씨 AI Center, Graphics AI Lab에서도 3D Scan 기술을 활용해 왔는데요. 3D Scan 기술은 그래픽스 분야에서 사용하는 가상 캐릭터를 만드는 방법의 하나입니다. 전통적인 방법과 달리 실제 모델의 촬영 이미지를 사용하여 사람의 모공까지 표현할 수 있으며, 사실적인 얼굴 메시와 텍스처를 생성할 수 있습니다. 이 장점으로 인해 현실적인 인물 표현이 필요한 영화에서 필수적으로 사용되는 방법입니다.

이러한 3D Scan 기술이 점차 보편화되어 요즘은 게임에서도 자주 사용되고 있습니다. 하지만 게임의 모든 캐릭터를 3D Scan으로 제작하기에는 비용이 많이 들기 때문에, 주인공 캐릭터나 컷신의 클로즈업 장면에서 주로 사용됩니다. 그리고 3D Scan을 하기 위해서는 적합한 배우를 섭외해야 하며, 고해상도 이미지를 특정 조명에서 촬영할 수 있는 3D Scan 전용 장비도 필요합니다. 프로세싱 과정 중 아티스트가 수작업으로 추가 처리해야 하는 과정도 존재하죠. 이 모든 것은 결국 많은 시간과 비용이 듭니다.

그런데도 불구하고 3D스캔은 높은 품질을 보장하기 때문에 여전히 매력적인 기술입니다. 하지만 3D Scan도 아쉬운 점이 있습니다. 바로 배우의 움직임을 캡처할 수는 없기 때문에 실제 배우의 역동적인 움직임을 똑같이 재현할 수는 없다는 점입니다.

그림 2. Esper 사 의 Light Cage (출처: https://en.wikipedia.org/wiki/Light_stage)


고밀도로 동적인 얼굴의 움직임을 추적할 수 있는 4D Scan 기술

그렇다면 3D Scan과 앞으로 소개할 4D Scan은 무슨 차이가 있을까요? 3D Scan과 4D Scan의 차이를 이해하는 가장 쉬운 방법은 카메라와 캠코더의 비교를 통한 설명입니다. 두 기기 모두 이미지 정보를 저장하는 기능을 공유하고 있지만, 그들의 핵심 차이는 다음과 같습니다. 카메라는 고해상도의 정적 이미지를 제공하는 반면, 캠코더는 시간에 따른 동적인 움직임을 캡처합니다. 이 점을 바탕으로 3D Scan과 4D Scan 기술의 차이점을 설명하자면 3D Scan이 정지해 있는 인물의 외모를 스캔하는 것이 목적이라면, 4D Scan은 3차원 공간에서 해당 인물의 움직임을 스캔하기 위한 기술입니다.

한편, 움직임을 캡처하는 기술로 페이셜 퍼포먼스 캡처가 기존에 사용되고 있었습니다. 이 페이셜 퍼포먼스 캡처와 4D Scan의 중요한 차이는 바로 캡처의 정밀도입니다.

기존의 페이셜 모션 캡처 방식은 얼굴에서 정해진 위치의 움직임을 추적하는 방식입니다. (그림3) 추적할 위치를 명확히 하기 위하여 마커를 그리거나 붙이기도 합니다. 이 방식의 한계는 추적할 수 있는 위치가 제한되어, 사람이 감정을 표현할 때 나타나는 미세한 얼굴 변화를 캡처하지 못하는 것입니다. 반면, 4D Scan은 마커를 사용하지 않으며 사진 정보(Photometric 정보)를 활용하여 피부의 미세한 움직임까지 캡처할 수 있습니다.

(다만 4D Scan 기술은 3D Scan과 같이 한정된 공간에서 캡처를 진행하는 기술로 활동 범위가 넓은 배우의 연기를 위한 페이셜 퍼포먼스 캡처는 기존의 마커 기반 모션 캡처로 진행하게 됩니다. 관련 내용은 다른 아티클로 소개하겠습니다.)

그림 3. 페이셜 퍼포먼스 캡처의 예시 (출처: https://www.fxguide.com/fxpodcasts/fxpodcast-dr-mark-sagar/)


(2부에서는 4D Scan의 핵심 파이프라인을 소개합니다. 2부에서 만나요!)

  1. ‘데포르메(deformer)’는 어떤 대상의 형태가 달라지는 일, 또는 달라지게 하는 것(변형, 왜곡)을 뜻하는 미술용어로, 만화, 일러스트 분야에서는 표현하려는 대상을 간략화 또는 과장해서 표현하는 방법론을 말한다.