[AI 그림]프롬프트의 한계점 - 올바른 프롬프트 작성하기

bing ai 및 stable diffusion이 프롬프트를 어떻게 해석하는가

Posted by ash tensor on December 28, 2023 · 4 mins read 카테고리
카테고리 링크
📁 ML 📁 AI그림

AI 그림

솔직히 말해서, 이제 인공지능 그림은 놀라움을 넘어서서 조금은 지루한 소재인 것 같다. 인공지능이 사람의 그림을 뛰어넘는 그림을 그려 내는 것을 이제는 모두가 당연하게 느낀다.

이제는 GPT도 인공지능 그림을 그려주고(gpt 4를 구독했을때), BING도 그림을 그려준다. 뤼튼도 마찬가지다. 이제 인공지능과 그림은 분리할 수 없는 소재가 되어 버렸다.

인공지능 그림을 크게 나누자면 GPT와 bing, NAI 와 같이 SaaS형 AI와 스테이블 디퓨전과 같이 사용자의 PC에서 로컬 PC의 자원을 사용해서 그림을 그려내는 신경망이 존재한다.

개인적으로 모두 사용해 본 결과, 가장 쉽게 그림을 그려낼 수 있는 건 SaaS형 서비스들이다. 예를 들어서 GPT와 같은 경우에 그림이 마음에 안 드는 경우에 그 그림에 덧붙여 추가적으로 그림을 수정해 달라고 요청하기도 쉽고, 채팅으로 요청만 하면 되기 때문에 전문적인 지식이 없는 사람에게는 꽤나 높은 수준의 에셋을 얻을 수 있기 때문이다.

프롬프트

프롬프트 : 모험가 길드의 내부

프롬프트 : 모험가 길드의 내부, 압도적인 현실감, 뛰어난 디테일, 높은 퀄리티

프롬프트 : 모험가 길드의 내부, 압도적인 현실감, 뛰어난 디테일, 높은 퀄리티, masterpiece, best quality

이런 식이다. 1번에서 2번을 넘어갈 때 가장 큰 퀄리티의 차이가 보이고, 2번에서 3번을 넘어갈 때는 그렇게 큰 성능 향상이 일어나지는 않아 보인다. 이런 SaaS형 서비스들에서도 그림을 그릴 때, 퀄리티 프롬프트(추가한 best quality, masterpiece, 뛰어난 디테일과 같은 지시)가 적용되는 것을 확인할 수 있는데, 이는 스테이블 디퓨전과 비슷한 모습이다. 당연하겠지만.

프롬프트 : 모험가 길드의 내부, 압도적인 현실감, 뛰어난 디테일, 높은 퀄리티, masterpiece, best quality, fantasy world

4번 그림은 모험가 길드를 넘어서서 거대한 왕성을 그려냈고, 5번 그림은 원래 주제인 모험가 길드는 오른쪽 구석에 조그마하게 쳐박혀 있는 모습을 볼 수 있다. 둘 다 모두 기존 프롬프트에 fantasy world라는 프롬프트를 추가한 내용이다.

이렇듯 bing Ai에서도 똑같은 주제를 요청한다고 하더라도 다음과 같이 프롬프트에 따라서 영향이 미치는 모습을 확인할 수 있는데, 점점 가면 갈수록 그림이 급격하게 변화하는 것을 확인할 수 있다. 모험가 길드의 내부라는 주제와는 다른 방향으로 이동하고 있는데, 이는 프롬프트의 한계성에서 기인한다.

프롬프트의 한계성

bing ai는 DALLE 3를 사용하고, DALLE-3는 프롬프트를 해석할 때 GPT-3를 이용해서 이미지를 재구성한다. GPT를 이용해 본 사람들은 GPT가 가끔 오타를 내거나 내 지시에 오타가 있더라도 그것과는 상관없이 잘 무시하고 대답하는 걸 볼 수 있었을 텐데, 이는 언어모델이라는 GPT의 한계 때문이다.

따라서 DALL-E 는 culture라는 단어에서, Sculpture라는 단어를 연상하고야 만다…

이런식으로. 위 그림의 프롬프트에는 지금까지의 프롬프트에 더해서 fantasy culture를 추가한 모습이다. masterpiece와 culture가 서로 영향을 끼쳐 멋진 스태츄를 그려준 모습이다.

또한 DALL-E와 Stable diffusion이 완벽히 같다고 할 수는 없지만 open ai가 발표한 여러 논문을 참고해 보면 (https://cdn.openai.com/papers/dall-e-3.pdf) DALLE-3 역시 그림 - 태그 쌍을 통해 프롬프트를 해석한다고 밝혔는데 아마도 이는 Stable diffusion이 Devian art, danbooru와 같은 그림 - 태그 학습이 이뤄진 이미지 사이트들을 바탕으로 학습한 것과 비슷할 것으로 보인다.

따라서 어떤 특정한 단어가 danbooru와 같은 사이트에서 다른 뜻으로 학습이 되어 있거나 한 경우에는 올바르지 않은 결과를 출력하고야 만다. 예를 들어서, legend 라는 단어는 흔히 쓰이는 보통명사지만 league of legend라는 고유명사의 일부이다. 이런 경우에, GPT와 같은 트랜스포머 신경망은 내가 리그 오브 레전드의 그림을 그려주기를 바라지 않더라도, 리그 오브 레전드의 요소를 섞어서 그려내고야 마는 것이다.

여기에는 5번 그림을 다시 가져왔는데, 보면 확인할 수 있지만 화면 둘레에 마치 액자와 같은 모습을 확인할 수 있을 것이다. 이는 masterpiece라는 프롬프트 때문이다. 명작을 보여달라고 했기 때문에 DALL-E 3는 박물관에 있을 법한 명작을 출력해 준 것이다.

나는 퀄리티 프롬프트라고 생각했던 프롬프트가 어디선가 이런 작용을 하고 있을 수 있다는 것을 항상 염두에 두어야 한다.

환각

위 그림은 신경망에게 차 키를 들고 있지 않은 소년이라고 요청한 내용이다. 하지만 코끼리 효과가 일어난 모양인지 여지없이 차 키를 들고 있다.

이 둘은 GPT가 환각을 보는 원리와도 비슷하다. 뉴스에서 빔샤벨을 든 세종대왕의 멕북 에어 사태를 설명해 줘, 라고 요청했을 때 GPT가 신나서 설명해 주던 것 말이다. 이는 언어 모델의 한계 때문이지만 개인적으로는 꽤나 멋지다고 생각한다.

누가 빔샤벨을 든 세종대왕의 맥북 에어 사태를 그림으로 그릴 수 있겠는가? 안드로이드는 전기 양의 꿈을 꾸는가? 적어도 GPT는 그 꿈을 그릴 수 있는 것 같다.

사실 이 모든 과정이 어쩌면 창의성의 근본일지도 모른다. 고흐도 별이 빛나는 밤에를 그릴 때, 사실은 환각을 보고 있었다고 하니까.


Thanks. mind sharing?

← Previous Post Next Post