a3f63e56e2
- 10_Wiki/Comfyui/: ComfyUI docs generated via /wikify - 00_Raw/_youtube/: /youtube extraction outputs - Move some 00_Raw originals into 10_Wiki/Topics_meeting; remove empty canvases and stray files Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>
321 lines
14 KiB
Plaintext
321 lines
14 KiB
Plaintext
제목: 상상을 현실로 만드는 AI 구글 OMNI 완벽 가이드 l EP.3 구글 I/O 실리콘밸리[AI왕기초]
|
|
영상: https://www.youtube.com/watch?v=tsFVedfl3Mg
|
|
비디오 ID: tsFVedfl3Mg
|
|
언어 우선순위: ko, en
|
|
세그먼트: 314개
|
|
------------------------------------------------------------
|
|
|
|
구글이 옴니를 발표하면서 또다시 영상
|
|
생성에서 패러다임을 바꿨습니다.
|
|
이제는 텍스트나 이미지뿐만 아니라
|
|
영상을 넣고서 또 다른 영상을 만들
|
|
수가 있어요. 그러니까이 편집을 할
|
|
수가 있게 된 거죠. 그것뿐만
|
|
아니라이 세상에 있는 물리 법칙을
|
|
이해하면서 훨씬 더 진짜 같이 영상을
|
|
만들 수 있게 되었어요. 저는 지금
|
|
미국 샌프란시스코 입구글 아이오에
|
|
참여하고 있습니다. 그래서 전
|
|
세계에서이 구글 옴니를 가장 빨리
|
|
알려 주는 사람일 거예요. 오늘이
|
|
영상에서 구글 옴니의 이론뿐만 아니라
|
|
실습까지 아주 쉽고 자세하게 알려
|
|
드릴게요.
|
|
안녕하세요. 커넥트 AR 여러분의 A
|
|
멘토제입니다. 자, 여러분, 제가이
|
|
구글 아이어 온다면서 중요한 것들
|
|
중에서 월드 모델에 대해서 알려
|
|
드렸는데 지금 그 월드 모델이 새로운
|
|
영상 생성에 적용이 돼서 옴니가
|
|
나왔다는 걸 저도 이제 막 알았어요.
|
|
아직까지는이 옴니가 제대로 발표가 안
|
|
되는데 내일이 구글 아이오가
|
|
시작하면서 바로 발표가 될 겁니다.
|
|
그리고 제가 지금 밤에 저녁
|
|
11시인데 이걸 빠르게 만들고
|
|
편집까지 해서 어 예약을 걸어두고
|
|
자려고요.이 이 구글 아이오에 있는
|
|
동안은 잠을 자기는 틀린 거
|
|
같습니다. 자, 그래도 여러분들이
|
|
조금이라도 더 많이 알았으면 좋겠어서
|
|
진짜 최선을 다해서 한번 만들어 볼
|
|
건데이 옴니의 특징은 영상 생성뿐만
|
|
아니라 뭔가 편집이라고 할 수가 있는
|
|
거 같아요. 편집이란게 뭐 자르고
|
|
붙이고 뭐 그런게 아니라이 영상
|
|
안에서 누군가가 새로 들어오는 거죠.
|
|
제가 걸어가는 영상을 촬영했다고
|
|
할게요. 근데 옆에 여자 배우가
|
|
필요한 거예요. 그럼 이걸 영상을
|
|
다시 찍고 다시 편집하는게 아니라 그
|
|
옆에다가 그냥 여자만 넣을 수 있지
|
|
않을까? 여성 캐릭터만 넣을 수 있지
|
|
않을까? 그러면 거기에서 발생되는
|
|
비용이 엄청나게 줄어들잖아요. 하나만
|
|
템플릿으로 찍어 놓고 여러 개를 복사
|
|
붙여 넣기 해서 다른 방식으로 사용할
|
|
수 있다. 이게 엄청나게 영상을 좀
|
|
효율적으로 사용할 수 있는 방법이지
|
|
않을까 생각을 합니다. 어오브에서
|
|
프리미어에서 편집을 하는게 아니라
|
|
뭔가 내가 상상한 것들을 그 영상
|
|
안에다 넣는 그리고 재생성하는
|
|
재편집하는 그러한 인공지능 모델이라고
|
|
생각할 수 있을 것 같습니다. 거기서
|
|
용어가이 네이티브 멀티모델리라고
|
|
하는데이 멀티모델이라고 하면은 여러
|
|
보고 듣고 말하고 어 그리고 사람이
|
|
하는 것처럼 한 번에 하는 인공지는
|
|
모델을 멀티모델이라고 합니다. 근데이
|
|
멀티 모달이 여러 가지 종류가 있는데
|
|
인공지능은 여러 개를 이렇게 연결하는
|
|
방법도 있고 또는 인공지는 모델 하나
|
|
자체가이 모든 것을 다 하는 그런
|
|
방법도 있는데이 옴니는 네이티브
|
|
멀티모델 태생적인 통합 모델이라고 해
|
|
가지고 텍스트 비디오 오디오 이미지를
|
|
전체 다 학습한 인공지능 모델이라고
|
|
합니다. 그리고 우리가 동영상을
|
|
생성을 할 때 어떤 식으로 생성을
|
|
하냐면 이미지 프레임이라고 있어요.
|
|
이렇게 주먹을 뻗는다라고 했었을 때
|
|
이게 동영상이잖아요. 그러면이
|
|
동영상은 이렇게 사진 사진
|
|
이런 것들이 여러 개로 연결된
|
|
이미지들을 하나로 뭉쳤을 때 동영상이
|
|
되는 겁니다.이 중간중간 이미지가
|
|
많으면 많을수록 훨씬 더 부드러운
|
|
영상이 돼요. 근데이 기존의이
|
|
AI는요 프레임마다 픽셀을 다시
|
|
계산해서 생성을 했었는데이 옴리는
|
|
맥락 자체 컨텍스트를 이해를 하고서
|
|
생성을 하기 때문에이 전체적인 맥락이
|
|
그렇게 무너지지 않는다라고 합니다.
|
|
뭐 우리가 직접 해 봐야겠죠. 연구랑
|
|
실제로 다르니깐요. 그리고 제가 아까
|
|
말씀드렸던이 월드 모델에 대해서 조금
|
|
더 말씀드리면 원래는 지금 우리가
|
|
알고 있는 인공지능 모델들은 어
|
|
학습을 할 때 확률적으로 생성을
|
|
합니다. 나는 널이란 단어가 들어가게
|
|
되면은 사랑해가 나올 확률이 높다.
|
|
싫어해는 조금 더 그보다 적다.
|
|
그러면 우리는 확률이 높은 사랑해를
|
|
넣어야지라는 식으로 꽤 많이 나오는
|
|
말들이 아 랄지 랭귀지 모델 언어
|
|
모델은 한개가 너무나도 명확하다.
|
|
어, 세상은 이미지로 구성되어 있다.
|
|
인공지능 모델은 단어뿐만 아니라
|
|
언어뿐만 아니라 세상을 이해를 하고
|
|
그리고 그것을 이미지로 생성을 해야
|
|
된다는 그런 연구들이 많이 나오고
|
|
있고이 월드 모델이란 건
|
|
2018년도에 데이빗 타가 연구한
|
|
인공지는 연구인데요. 인공지는 모델은
|
|
그냥 단순히 그림이나 이미지 생성을
|
|
하는게 아니라 그 안에다 가상 세계를
|
|
만들고 또 꿈을 끄고 그러한 것들로
|
|
생성을 하면서 환경을 만들고 그
|
|
안에서 물리 법칙이나 아니면 다른
|
|
역학 법칙들이 적용하게 되는 걸
|
|
생성을 한다는 겁니다. 제가 이걸
|
|
어떻게 설명할까 좀 생각을 많이
|
|
봤었는데 어 내가 생각을 하는게
|
|
그림으로 표현을 하는 것보다 머리로
|
|
무언가를 상상하면 훨씬 더 디테일하게
|
|
상상을 할 수가 있잖아요. 그니까
|
|
예를 들어 여러분 눈 감고서 한번
|
|
이거 상상해 보세요. 바다인데
|
|
살랑살랑 바람이 불고 그리고 파도
|
|
소리가 납니다. 근데 그 파도가
|
|
파란색이 아니라 분홍색이에요. 아주
|
|
예쁜 핑크색입니다.
|
|
구름색은 흰색이 아니고 아주 예쁜
|
|
반짝이는 노란색이에요. 아주 향기로운
|
|
아카시아 냄새가 납니다. 여러분 다
|
|
상상되지 않나요? 향과 소리와 그리고
|
|
그 느낌 그 모든 것을 한번의
|
|
머릿속에서 생성을 했단 말이에요.
|
|
그러니까 그냥 단순히 그림을 그린
|
|
것보다 뭔가 상상하고 꿈을 꾸는게
|
|
훨씬 더 고차원적인 그런 생성이
|
|
아닐까라는 생각을 해 봤어요. 그
|
|
아이디어가 월드 모델이란 걸로이
|
|
세상에서 불리고 있는게 아닐까라는
|
|
그런 재밌는 생각을 해봤습니다.
|
|
결국은이 구글 옴니뿐만 아니라 점점
|
|
점점 우리가 나아가야 할 방향이 월드
|
|
모델로서 나아갈 거다라는 아주 강한
|
|
확신을 가지고 있습니다. 그럼 우리가
|
|
이걸로 뭘 할 수 있는지를 한번 몇
|
|
가지 테스트를 해 보도록 하겠습니다.
|
|
어떤 사진을 넣고 그거를 사이버 펑크
|
|
스타일로 바꾼 다음에 애니메이션
|
|
캐릭터로 바꿔 볼 겁니다. 그리고요
|
|
카메라를 위에서 내려다 보는 벌드
|
|
아이 뷰로 변경을 하고 점 주민해
|
|
주는 아주 멋있는 애니메이션을 만들어
|
|
볼 수 있을까 그런 생각이 들었어요.
|
|
한번 해 볼까요? 재미나에 들어가셔서
|
|
플러스 버튼 누른 다음에 이렇게
|
|
동영상 만들기를 보면은 옴니 모델로
|
|
만듭니다라는 화면이 있습니다.
|
|
여기다가이 밑에 보면은 사진을 넣는
|
|
부분이 있거든요. 그리고 가로 새로운
|
|
모드를 선택할 수 있는 부분이
|
|
있습니다. 여기다가 어 제 사진을
|
|
하나 넣어 볼게요. 제가 뭐
|
|
촬영하면서 찍은 캡처한 사진을 하나
|
|
넣어 보겠습니다.이 이미지의 메인
|
|
피사체를 사이버 펑크 스타일
|
|
애니메이션 캐릭터로 변경해서 영상
|
|
생성해 줘. 카메라 앵글을 위에서
|
|
아래로 내려다보는 조감도 변경하고
|
|
캐릭터의 표정을 서서히 주문인해 줘.
|
|
제출 눌러 보겠습니다. 영상이
|
|
나왔습니다. 궁금하네요.
|
|
>> 연결된 세상 속에서
|
|
>> 진실은 언제나 가려져 있죠.
|
|
>> 오.
|
|
>> 하지만 이제 곧 모든 것이 드러날
|
|
것입니다.
|
|
>> 대박이다. 우와. 하지만 이제 곧
|
|
모든 것이 드러날 것입니다.
|
|
>> 목소리도이 캐릭터에 되게 맞고
|
|
한국말도 잘하고 와 장난 아닌데 지금
|
|
제가 좀 놀랐었던게 지금 소리까지
|
|
굉장히 자연스럽구나라는 걸 제가 알게
|
|
됐거든요.요 엄니의 특징은 물리적인
|
|
상호 작용하고 오디오가 동기화 된다는
|
|
거예요.이 재즈라는 음악이 굉장히
|
|
어려운데 이것도 잘 할 수 있을까?
|
|
드러머가 소리로 땅땅땅 치면은이 무대
|
|
조명도 막 바뀌고 반응하고 아까 전에
|
|
그 네이티브 멀티모델이 한 번에 작용
|
|
하게 될지 그게 궁금한 거예요.
|
|
이번에는 이미지 없이 그냥 텍스트만
|
|
한번 넣어 보겠습니다. 드러머가
|
|
연주하는 제즈 클럽 영상을 만들어
|
|
단, 드러머의 리듬에 맞춰 조명이
|
|
정확히 반응해야 해. 샌드 자 영상
|
|
나왔는데 한번 보이시죠. 어
|
|
처음부터이
|
|
뒤에 어떻게해? 와, 처음부터 장난
|
|
아닌 거 같은데. 보자.
|
|
[음악]
|
|
와.
|
|
우와.
|
|
여러분, 여기 봤어요? 조명 지금
|
|
소름 끼쳤어.
|
|
어우. [음악]
|
|
와. 여기띵
|
|
여기 부분.
|
|
장난 아니다. 와, 10초짜리 영상
|
|
이렇게 된다고. 두 가지를 더 실험해
|
|
볼 건데 영상을 만들 때 한글이 잘
|
|
안 됐었잖아요. 그러니까이 한글
|
|
생성을 잘하기 위해서 나노바나 프로로
|
|
이미지를 만들고 그리고 그 이미지를
|
|
첫 번째 프레임으로 넣어서 영상을
|
|
생성을 하는 것. 그런 식으로
|
|
했었는데 제가 궁금한게이 영어 말고
|
|
한글 영상 생성을 바로 잘할 수
|
|
있을까? 이게 저는 되게
|
|
궁금하거든요. 화면에 구글, 아이,
|
|
오 이거 되게 어렵게 한글이랑 영어랑
|
|
그리고 이런 기호랑 같이 넣어
|
|
봤어요. 제일 어려운 걸로라는 글자가
|
|
들어간 열 가지의 버전에 짧은 영상을
|
|
생성. 각각 배경과 폰트 스타일이
|
|
달라야 해. 대사 없이 아주 빠르게
|
|
전환. 이런 식으로 정말 어렵게 한번
|
|
만들어 봤습니다. 나왔는데? 어. 벌
|
|
궁금해요. 해보자.
|
|
우와.
|
|
여러분. 어, 대박이다. 진짜 장난
|
|
아닌게 뭐냐면 여러분 일단 첫 번째
|
|
텍스트 완벽하게 했죠? 그리고 열 개
|
|
폰트 막 바꿨죠. 지금 이렇게 그
|
|
음악 배경 소리가 있고 그리고 그
|
|
배경 소리는이 영상 콘텐츠와 굉장히
|
|
잘 있고 그렇게 배경이 있는 상태에서
|
|
영상이 하나 바뀔 때마다 그 또 다른
|
|
레이어로이 영상에 알맞은 음악들이
|
|
나와요. 그러니까 여러 개의 음악들과
|
|
소리트까지 여러 개의 레이어로 하나의
|
|
영상이 생성이 되는 거예요.
|
|
[콧방귀]
|
|
바로 영상을 한번 촬영해 보겠습니다.
|
|
그리고 거기에다가이 옴니를 사용해서
|
|
편집을 한번 해 볼게요.
|
|
누구를 기다리고 있는데 안 오는
|
|
거예요. 누군가가 이렇게 달려와서
|
|
미안해 하면서 달려오면은 되게 재밌지
|
|
않을까라는 생각이 들어 가지고 고게
|
|
가능한지 한번 보겠습니다. 식초
|
|
이렇게 구간을 해서 자르라고
|
|
합니다.을 누른 다음에이 영상 왼쪽
|
|
화면 밖에서 헐레벌떡 늦어서
|
|
미안하다는 표정으로 귀엽게 뛰어오는
|
|
여자를 추가해 줘. 그리고 원래 있던
|
|
남자가 그 여자를 보고서 자연스럽게
|
|
웃으며 반응하는 상호 작용까지
|
|
만들어. 그리고 추가로 제가 하나 더
|
|
테스트를 해 볼게요. 이런 기존에
|
|
있는 실제와 같은 영상과이 헐레벌터
|
|
기원 표정으로 띄워는 만화 캐릭터
|
|
강아지를 어 한번에 같이 섞었을 때
|
|
어떻게 하면은 좋을까 그게 궁금해서
|
|
한번 해 보도록 하겠습니다. 썸 여러
|
|
가지를 연구를 해 봐야죠. 맨 처음
|
|
이거 나왔습니다. 여자가 여기서
|
|
달려올 수 있을지 한번 볼게요. 자
|
|
기다리고 있어요. 남자 배우가
|
|
어
|
|
뭐야?
|
|
>> [웃음]
|
|
>> 깜짝이야. 와, 대박인데. 이거
|
|
뭐지? 내가 이걸 찍었나라는 생각 들
|
|
정도로 진짜 이거 영화를 만들어도 될
|
|
거 같아요. 이걸로 뭔가 컨텐츠를
|
|
만들어도 될 거 같고 영화를 만들어도
|
|
될 거 같고 할게 너무 무구진 많은
|
|
무궁무진한데 진짜 시작해 볼까?
|
|
어떡해? 장난 아니다 진짜. 와,
|
|
이거 두 번째 됐습니다. 이게
|
|
궁금하네요.
|
|
[웃음]
|
|
이건 제가 프롬포트를 잘 못 쓴 거
|
|
같아요. 근데 진짜 잘하긴 하네.
|
|
스누피처럼 이렇게 만들어도 될 거
|
|
같고. 여러분, 어때요? 구글이
|
|
옴니라는 걸 만들었고이 옴니는 세상의
|
|
물리법칙을 이해하고 그것을 기반으로
|
|
영상 생성을 합니다. 월드 모델의
|
|
컨셉을 하나하나씩 이렇게 구현해
|
|
나가는 과정인 거 같아요. 무언가
|
|
사람이 상상하고 꿈꾸는 것을 그 바로
|
|
생성할 수 있는 그런 모델이
|
|
아닌가라는 생각을 합니다. 해 볼 수
|
|
있는 거 정말 많을 것 같고
|
|
여러분들이 이거 영상 콘텐츠로 활용을
|
|
하시면서 제가 항상 말하는 그 상상을
|
|
현실로 만드는 과정을 한번 해 보시면
|
|
좋을 것 같습니다. 퀄리티가 훨씬
|
|
높아졌으니까 유튜브 채널 운영해야
|
|
되고 뭐 인스타그램이나 아니면 다른
|
|
플랫폼들 운영해도 괜찮고 여러 가지
|
|
여러분들이 상상하는 걸 한번 시도해
|
|
보시길 바랍니다. 아직 구글 아이오
|
|
시작도 안 했습니다. 내일 모래
|
|
앞으로 정말 많은 재밌는 일도 있을
|
|
건데 저 AI 멘토제와 함께 구글
|
|
AI 여행 같이 한번 해 보시면서
|
|
우리가이 시대에 생존하는 방법을 같이
|
|
한번 연구하고 찾아보겠습니다.
|
|
어려운게 있으면이 댓글 달아 주시고
|
|
그리고 힘들더라도 제가 여러분들 옆에
|
|
있으니까 용기 잃지 마시고 희망을
|
|
갖고 우리 한번 재밌게 멋있게 한번이
|
|
AI 시대 살아봅시다. 자 힘냅시다.
|
|
파이팅입니다. |