IT, 테크 정보/소식통

OpenAI, GPT4o 이미지 생성 기능 추가

Itsues 2025. 3. 28. 20:00

목차

 

GPT-4o 이미지 생성 기능

굉장히 자연스럽고 사실스럽게 묘사하는 모습. 출처:OpenAI

 

오픈AI가 GPT에 새로운 이미지 생성 기능을 도입하였습니다.

 

샘 알트만 오픈AI 최고경영자(CEO)는 화요일 라이브를 통해 GPT-4o 모델을 활용하는 이미지 생성 기능이 대폭 개선되었다고 발표하였습니다. 이 이미지 생성 기능은 단순히 아름다운 이미지를 만드는 것을 넘어, 실용적이고 가치 있는 시각적 콘텐츠를 생성할 수 있는 능력을 보여줍니다. GPT-4o의 이미지 생성 기능은 기존의 DALL-E 모델을 대체하며, 언어 모델에 직접 통합되어 더욱 강력하고 유연한 성능을 제공합니다.

 

 GPT-4o 모델을 기반으로 한 이미지 생성 기능은 사용자의 요구사항을 정확히 이해하고, 이를 바탕으로 놀라울 정도로 사실적이고 세밀한 이미지를 생성할 수 있습니다. 또한, 이 모델은 단순한 이미지 생성을 넘어 사용자와의 대화를 통해 이미지를 지속적으로 개선하고 수정할 수 있는 능력을 갖추고 있습니다.

 

오픈AI는 새로운 이미지 생성 기능을 위해 공개적으로 사용 가능한 데이터와 셔터스톡과 같은 회사와 파트너십에서 얻은 독점 데이터로 훈련했다고 말했으며 크리에이터들이 자신의 작품이 학습 데이터셋에서 제거되도록 요청할 수 있는 '옵트아웃(opt-out)' 양식도 제공한다고 전했습니다.

 

주요 기능 및 특징

GPT-4o의 이미지 생성 기능은 여러 면에서 기존 모델들을 뛰어넘는 성능을 보여줍니다. 

기능 설명
정확한 텍스트 렌더링 이미지 내 텍스트를 정확하게 표현하는 능력
복잡한 객체 처리 복잡한 프롬프트를 정확히 해석하고 실행
멀티 턴 생성 대화 맥락과 사용자의 의도를 고려한 이미지 생성
포토리얼리즘 다양한 스타일로 현실감 있는 이미지 생성
업로드 이미지 활용 업로드된 이미지를 기반으로 새로운 이미지 생성 또는 수정

정확한 텍스트 렌더링 기술

문맥을 정확히 이해햐는 모습.

 

GPT-4o의 가장 주목할 만한 특징 중 하나는 이미지 내 텍스트를 정확하게 렌더링하는 능력입니다. 이미지 내 텍스트를 정확히 렌더링하여 기존 모델에서 어려웠던 오타 없는 텍스트 생성을 가능하게 만들었습니다.

 

이러한 텍스트 렌더링 능력은 광고, 포스터, 인포그래픽 등 텍스트와 이미지가 결합된 콘텐츠 제작에 큰 변화를 가져올 것으로 예상됩니다.

 

멀티 턴 생성

 

GPT-4o의 이미지 생성 기능은 단순히 한 번의 프롬프트로 이미지를 생성하는 것을 넘어, 사용자와의 지속적인 대화를 통해 이미지를 점진적으로 개선하고 수정할 수 있는 능력을 갖추고 있습니다. 

 

사용자는 초기 이미지를 생성한 후, "배경색을 파란색으로 바꿔줘", "인물의 표정을 더 밝게 해줘" 등의 자연스러운 지시를 통해 이미지를 세밀하게 조정할 수 있습니다. 이러한 대화형 프로세스는 사용자의 의도를 정확히 반영한 이미지를 얻을 때까지 계속될 수 있으며, 전문적인 디자인 도구를 사용하지 않고도 원하는 결과물을 얻을 수 있게 해줍니다.

 

GPT‑4o는 채팅 컨텍스트의 이미지와 텍스트를 기반으로 구축하여 전반적으로 일관성을 유지할 수 있다고 설명했습니다. 예를 들어, 비디오 게임 캐릭터를 디자인하는 경우 다듬고 실험하면서 여러 번 반복하더라도 캐릭터의 모습은 일관성을 유지할 수 있습니다.

 

복잡한 객체 처리

GPT-4o의 이미지 생성 기능은 복잡하고 세부적인 지시를 정확히 이해하고 실행하는 능력이 탁월합니다. 최대 20개의 다른 객체를 포함한 복잡한 프롬프트도 정확히 처리할 수 있습니다.

 

특히 주목할 만한 점은 최대 20개의 서로 다른 객체를 포함한 복잡한 장면을 생성할 수 있다는 것입니다. 이는 스토리텔링, 교육 자료 제작, 제품 시각화 등 다양한 분야에서 활용될 수 있는 강력한 기능입니다.

 

업로드 이미지 활용

GPT4o는 사용자가 업로드한 이미지를 분석하고 해당 이미지를 바탕으로 학습합니다. 그 다음, 이미지 생성에 필요한 세부 정보를 문맥에 맞게 변환합니다.

 

사용자는 대화를 통해 이미지를 구체화할 수 있으며, 이미지의 스타일 일관성을 유지하면서 수정할 수 있습니다.

 

포토리얼리즘

 

다양한 이미지 스타일로 현실감 있는 이미지를 생성할 수 있습니다.

 

 

접근성 및 이용 가능성

OpenAI는 GPT-4o의 이미지 생성 기능을 ChatGPT Plus, Team 및 Free 사용자들에게 제공하고 있으며, Enterprise 및 Edu에서도 곧 이용할 수 있다고 전했습니다. Sora에서도 사용할 수 있으며 DALLE GPT를 통해 해당 기능을 이용할 수 있다고 밝혔습니다. 

 

개발자들은 API를 통해 GPT-4o로 이미지를 생성할 수 있게 되지만 현재는 아니며, 몇 주 내에 접근이 가능해질 예정입니다.

 

이 기능의 출시는 AI 이미지 생성 기술의 접근성을 크게 향상시켰습니다. 이제 별도의 전문 도구 없이도 ChatGPT를 통해 고품질 이미지를 생성할 수 있게 되었습니다. 이는 디자이너, 마케터, 교육자, 콘텐츠 제작자 등 다양한 분야의 전문가들에게 새로운 창작 도구를 제공하는 것입니다.

  • ChatGPT Plus 구독자: 월 $20의 구독료로 이용 가능
  • ChatGPT Team 사용자: 팀 구독을 통해 이용 가능
  • ChatGPT Enterprise 고객: 기업용 서비스에 포함
  • API 접근: 향후 출시 예정

 

OpenAI는 안정성 및 투명성을 보장하기 위해 모든 GPT-4o 생성 이미지에는 AI 생성임을 식별하는 C2PA 메타데이터가 포함되며, 오픈AI는 콘텐츠 정책을 위반하는 요청을 계속 차단할 것이라고 밝혔습니다. 아동 성적 이미지, 딥페이크, 누드, 폭력적 이미지에 대한 철저한 사전 차단 시스템을 운영하고 있습니다

 

 

GPT-4o의 이미지 생성 기능은 AI 기술의 발전이 어떻게 창의적인 작업과 실용적인 문제 해결을 지원할 수 있는지 보여주는 훌륭한 사례입니다. 이 기술은 단순히 이미지를 생성하는 것을 넘어, 사용자의 의도를 정확히 이해하고 구현하는 능력을 갖추고 있습니다. 정확한 텍스트 렌더링, 세밀한 지시 따르기, 자연스러운 대화형 편집 기능은 디자이너, 마케터, 교육자 등 다양한 분야의 전문가들에게 새로운 가능성을 열어줄 것입니다.

 

 

728x90