문장을 넣으면 이미지를 만들어주는 인공지능 “달E(DALL E)”

‘발레복을 입고 개를 산책시키는 무’

 

인공지능은 나날이 발전중입니다. 그 중에서도 역사상 가장 뛰어난 언어 인공지능으로 불리는 GPT-3은 상상 외의 능력을 보여주기도 합니다. 인공지능 연구소인 오픈AI(Open AI)에서는 지난 5일 블로그에 ‘텍스트로 이미지를 만드는 달E(DALL·E: Creating Images from Text)’라는 글을 업로드했습니다.

 

초현실주의 화가 살바도르 달리와 픽사 애니메이션 “월 E”에서 이름을 딴 달E는 데이터를 활용해 다양한 물체와 동물을 그리고 여러 결과를 보여줄 수 있는 인공지능 모델입니다. 달E에게 “발레복을 입고 강아지를 산책시키는 무우”를 그려달라고 주문하면 위 이미지와 같은 그림을 그려줍니다. 특히 무우를 의인화했을 때 팔다리의 위치를 별도로 지정해주지 않았음에도 별로 어색하지 않은 위치에 팔다리가 붙어있는 모습이 흥미롭다고 연구진은 적었습니다. 이뿐만 아니라 “아보카도 모양의 암체어”, “중국 음식 사진”과 같은 문장을 입력하면 아래와 같은 결과물이 나옵니다.

 

 

‘아보카도 모양 암체어'(좌), ‘중국 음식 사진'(우)
일단 암체어는 지금 당장 그대로 발매해도 될 정도로 보이는 것들과 ‘이게 뭐야’ 싶은 것들이 섞여 있는데, 중국 음식 사진의 경우에는 처음엔 맛집을 탐방하는 사람의 인스타그램인가 싶을 정도였습니다. 인공지능이 데이터를 분석하며 ‘중국 음식’의 분위기를 만들어낸 겁니다.
‘샌프란시스코 알라모 공원의 야간 사진'(좌)’ 실제 사람이 촬영한 알라모 공원(우)

또 ‘샌프란시스코 알라모 공원의 야간 사진’을 입력하면 샌프란시스코 알라모 공원의 특징인 건물들인 ‘페인티드 레이디스’를 배경으로 한 사진이 등장합니다. 일부 이미지에선 건물이 겹쳐 보이는 등 오류가 보이지만, 대부분 사진은 알라모 공원의 페인티드 레이디스라는걸 알기 어렵지 않습니다.

 

 

저기요 선생님 뭘 그리신 겁니까

 

물론 달E가 만능인 건 아닙니다. ‘이런걸 만들어 봐’라는 명령은 탁월하게 수행했지만, ‘보이는 걸 따라서 해봐’라는 명령은 잘 수행하지 못하는 모습도 확인할 수 있었습니다. 위 이미지들의 명령어는 ‘위쪽에 있는 고양이와 똑같은 스케치’였습니다. 대부분이 고양이 그림이긴 한데, 비슷한 그림은 찾기가 힘듭니다. 

 

 

“위 주전자와 똑같은 주전자, 아래쪽엔 ‘GPT’라고 쓰여져 있음”이라는 명령어
다만 비교적 형태가 단순한 주전자를 주고 ‘위 이미지와 완전히 똑같은 주전자 아래에 GPT라고 쓰여져 있음’이라는 명령어를 주면 제법 비슷한 형태에 비슷한 수행율을 보였습니다. 일단 텍스트에서 따옴표로 표시한 ‘GPT’라는 단어를 분리해서 그것만 작성할 줄도 알았고요. 그런데 몇몇 결과에선 색이 바뀌거나, 위치가 바뀌거나, 손잡이가 없어지는 등 창의력(?)을 발휘한 모습이 흥미롭습니다.
연구지는 달E를 어떻게 설계했고, 어떻게 학습시켰는지 추가 자료를 통해 공개하겠다고 알렸습니다. 멀게만 보였던 인공지능이 만드는 이미지를 실제로 쓰게 되는 날이 멀지 않은 것 같네요.

 

 

Categories: NEWS
웹인편집부

Written by:웹인편집부 All posts by the author

Leave a reply