이미지 생성 모델 살펴보기
학습 목표
이 유닛을 완료하면 다음을 수행할 수 있습니다.
- 적대적인 생성형 네트워크 대신 확산 모델을 사용할 경우 누릴 수 있는 이점에 대해 설명할 수 있습니다.
- 널리 사용되는 생성형 AI 도구를 파악하고 용도를 설명할 수 있습니다.
단어에서 이미지로의 전환
생성형 AI는 비교적 새로운 기술이지만, 이미 사람들과 조직이 업무를 효율적으로 할 수 있도록 도움을 주고 있습니다. 이를 통해 회의록을 요약하거나 글쓰기 프로젝트의 초안을 작성하거나, 코드 작성에도 활용할 수 있습니다. 생성형 AI 도구의 이러한 애플리케이션에는 하나의 형태 또는 다른 형태로 텍스트를 만드는 데에만 중점을 둔다는 공통점이 있습니다.
그러나 대규모 언어 모델(LLM)을 사용하여 고품질의 이미지, 3D 개체, 애니메이션 등을 만들 수 있는 또 다른 형태의 생성형 AI 도구도 존재합니다. 글쓰기에 생성형 AI를 활용해 성과를 높였다면, 이제는 이미지와 애니메이션 제작에도 이를 활용해 작업의 품질을 향상시킬 수 있습니다.
이 뱃지에서는 멀티미디어 분야에서 생성형 AI가 현재 어떤 역할을 하고 있는지, 그리고 그 기능이 어떻게 빠르게 발전하고 있는지 살펴보겠습니다. 또한 생성형 AI를 워크플로에 어떻게 효과적으로 통합할 수 있는지에 대해서도 알아보겠습니다. 그리고 이미지 생성을 위한 생성형 AI의 책임감 있는 사용을 둘러싼 몇 가지 어려운 질문을 살펴보겠습니다.
AI 모델의 발전
우리가 살고 있는 세계는 대규모 언어 모델의 영향을 받아왔습니다. 연구원들은 LLM이 실제로 실행되기 전 수년 동안 AI를 학습시켜 이미지를 만들었습니다. 하지만 이러한 모델은 몇 가지 중요한 방식으로 제한되었습니다.
예를 들어 가능성을 보여준 한 가지 유형의 신경망 아키텍처는 적대적인 생성형 네트워크(GAN)였습니다. 다시 말해, 고양이와 쥐 게임을 하기 위한 두 개의 네트워크를 설정한 것입니다. 하나의 네트워크는 사실적인 이미지를 생성하고, 다른 하나는 생성된 이미지와 실제 이미지를 구별하도록 설정됩니다. 시간이 경과함에 따라 첫 번째 네트워크는 두 번째 네트워크를 속이는 데 점점 더 능숙해졌습니다.
이 방법은 사람들을 비롯해 모든 종류의 피험자들에 대해 매우 설득력 있는 이미지를 생성할 수 있습니다. 하지만 GAN은 일반적으로 한 가지 주제의 이미지를 생성하는 데 적합합니다. 예를 들어, 고양이 이미지를 탁월하게 생성하는 GAN은 쥐 이미지를 만드는 데는 적합하지 않을 수 있습니다. 또한 GAN은 첫 번째 네트워크가 동일한 이미지를 반복해서 생성하는 '모드 붕괴' 현상을 경험할 수 있습니다. 그 이유는 해당 이미지가 항상 두 번째 이미지를 속이는 것으로 알려져 있기 때문입니다. 하나의 이미지만 생성하는 AI는 그다지 유용하지 않습니다.
정말 유용한 모델은 고양이, 쥐 또는 쥐 의상을 입은 고양이를 요구하든 관계없이 다양한 피사체의 이미지를 만들 수있는 AI 모델입니다.
stability.ai에서 DreamStudio를 사용하여 AI로 생성한 이미지로, "손으로 그린 쥐 의상을 입은 고양이의 귀여운 이미지”라는 메시지가 표시됩니다.
위의 AI 생성 이미지에서 확인할 수 있듯이 해당 모델은 이미 있습니다! 이 모델에 사용된 수학 계산은 물잔 속에 염료 방울이 떨어져서 확산되는 것과 같은 물리 현상과 관련이 있어 확산 모델로 알려져 있습니다. 대부분의 AI 모델과 마찬가지로 기술적인 세부사항은 굉장히 복잡한 연구 논문의 일부와 같습니다.
중요한 것은 확산 모델이 이미지와 텍스트를 연결하도록 학습되었다는 것입니다. 인터넷에는 캡션이 달린 고양이 사진이 많아 이러한 학습에 도움이 됩니다. 충분한 샘플이 제공되면 모델은 '고양이', '쥐', '의상'과 같은 본질적인 요소를 추출할 수 있습니다. 그런 다음 확산 원리를 사용하여 생성된 이미지에 이러한 본질을 반영합니다. 이 과정은 복잡하지만, 결과는 놀라울 수 있습니다.
사용 가능한 확산 모델의 개수는 날이 갈수록 늘어나고 있지만 가장 잘 알려진 네 가지는 DALL-E, Imagen, Stable Diffusion 및 Midjourney입니다. 각 모델은 학습에 사용된 데이터, 언어 세부 사항을 임베드하는 방식, 사용자가 결과물을 제어하기 위해 상호 작용하는 방식에서 차이가 있습니다. 따라서 결과는 도구에 따라 크게 달라질 수 있습니다. 지금 한 모델이 잘하는 일은 연구 및 개발 속도가 빨라짐에 따라 내일은 다른 모델이 더 잘할 수 있습니다.
이미지용 생성형 AI의 사용
생성형 AI는 귀여운 고양이 만화를 만드는 데 그치지 않습니다. 일반적으로 생성형 AI 모델은 세밀한 조정을 거치며 다른 알고리즘 및 AI 모델과 결합됩니다. 이를 통해 아티스트와 창작자들은 각자 다양한 방식으로 이미지를 만들고, 조작하고, 애니메이션을 만들 수 있습니다. 몇 가지 예를 살펴보겠습니다.
텍스트에서 이미지로
텍스트에서 이미지를 생성하는 생성형 AI를 사용하면 놀라운 예술적 다양성을 탄생시킬 수 있습니다. 이 예에서는 손 그림 스타일의 고양이를 선택했습니다. 하지만 초현실적인 스타일이나 타일 모자이크 같은 다른 방식으로도 표현할 수 있습니다. 상상하는 게 가능하다면 확산 모델은 어느 정도 성공적으로 사람들의 의도를 해석할 수 있습니다.
다음 유닛에서는 최적의 결과를 얻기 위한 유용한 팁을 살펴볼 예정입니다. 하지만 지금은 만들 수 있는 첫 번째 한계점은 여러분이 상상할 수 있는 범위 내에 있다는 것을 알아두세요. 다른 확산 모델로 다른 사람들이 만드는 것을 찾아보세요.
최근에는 텍스트 생성과 함께 이미지 생성을 인라인으로 사용할 수 있는 기능도 등장했습니다. 따라서 GPT 도구를 사용하여 스토리를 개발하는 동안 컨텍스트를 활용하여 이미지를 생성할 수 있습니다. 더 나아가, 의상을 입은 고양이처럼 동일한 주제에 속하는 다른 이미지가 필요한 경우 이러한 모델들은 첫 번째 이미지를 참조하여 캐릭터의 일관성을 유지할 수 있습니다.
텍스트에서 3D 모델로
전형적으로 3D 모델을 만들기 위한 도구들은 기술적이며 숙달하는 데 높은 수준의 기술이 필요합니다. 그러나 현재는 3D 모델이 커머스에서 제조, 엔터테인먼트에 이르기까지 다양한 분야에서 널리 사용되고 있습니다. 생성형 AI를 활용해 이러한 수요의 일부를 충족시킬 수 있습니다. DreamFusion과 같은 모델은 놀라운 3D 모델을 생성할 뿐만 아니라 모델의 색상, 조명 및 재료 특성을 묘사하는 데 지원되는 리소스를 생성하기도 합니다.
이미지에서 이미지로
그림 한 장이 천 개의 말과 같은 가치가 있다면, 생성형 AI 모델의 프롬프트 일부로 그림이 사용될 때 얼마나 유용할지 상상해보세요! 일부 모델은 그림에서 의미를 추출하도록 학습되어 있으며, 텍스트에서 이미지로의 생성과 유사한 방식으로 학습됩니다. 이 양방향 번환은 다음과 같은 사용 사례에서 기반이 됩니다.
-
스타일 전이: 간단한 스케치와 장면에 대한 묘사로 시작하며, 생성형 AI가 모든 세부 사항을 채우도록 합니다 결과물은 르네상스 회화나 건축 도면과 같은 특정 예술 스타일이 될 수 있습니다. 일부 아티스트들은 이미지를 구축하기 위해 이를 반복적으로 수행합니다.
-
세부 사항 지우기: 피사의 사탑에 가서 두 손으로 직접 기둥을 들어 올리는 시늉을 하는 사진을 찍는다고 상상해보세요 안타깝게도 사진 속에는 20명의 다른 사람들이 같은 행동을 하고 있습니다. 이제 걱정하지 마세요! AI가 사실적인 잔디와 하늘로 빈 공간을 채워서 깨끗한 사진을 생성할 수 있습니다.
-
세부 그림 추가: 팬더에게 파티용 모자를 씌우면 어떤 모습일까요? 이를 직접 알아내는 위험한 방법도 있고, 생성형 AI를 사용하는 훨씬 안전한 방법도 있습니다. AI는 장면에서 항목의 특정 위치를 파악하고, 마법과도 같이 항상 그 자리에 있었던 것처럼 보이게 만들 수 있습니다.
-
그림의 테두리 확장: 생성형 AI는 그림의 컨텍스트를 사용하여 장면의 테두리 너머에 나타날 가능성이 있는 항목을 계속 표시합니다.
애니메이션
모든 생성 이미지에는 어느 정도의 무작위성이 내재되어 있으므로, 조금씩 다른 일련의 이미지를 생성하는 일은 생성형 AI에 있어 그 자체로도 쉽지 않은 과제입니다. 따라서 이미지를 차례로 재생하면 선과 모양이 바뀌고 반짝이는 등 다양한 변형이 나타납니다. 그러나 연구자들은 생성된 애니메이션의 일관성이 허용 가능한 수준으로 유지되도록 이러한 효과를 줄이는 방법을 개발했습니다.
이전의 모든 스틸 이미지 사용 사례는 애니메이션에도 어떤 식으로든 적용될 수 있습니다. 예를 들어 스타일 변환을 사용하면 스케이트보더가 트릭을 하는 동영상을 애니메이션 스타일의 동영상으로 변환할 수 있습니다. 또는 음성 패턴으로 학습된 모델을 사용하여 생성된 3D 캐릭터의 입술에 애니메이션을 적용할 수도 있습니다.
생성형 AI로 멋진 이미지를 만들 수 있는 가능성은 무궁무진합니다. 다음 유닛에서는 생성형 AI의 기능을 책임감 있게 활용하는 방법을 살펴보겠습니다.
리소스