2nd/00_Raw/_youtube/상상을 현실로 만드는 AI 구글 OMNI 완벽 가이드 l EP.3 구글 IO 실리콘밸리[AI왕기초]__tsFVedfl3Mg.txt

제목: 상상을 현실로 만드는 AI 구글 OMNI 완벽 가이드 l EP.3 구글 I/O 실리콘밸리[AI왕기초]
영상: https://www.youtube.com/watch?v=tsFVedfl3Mg
비디오 ID: tsFVedfl3Mg
언어 우선순위: ko, en
세그먼트: 314개
------------------------------------------------------------

구글이 옴니를 발표하면서 또다시 영상
생성에서 패러다임을 바꿨습니다.
이제는 텍스트나 이미지뿐만 아니라
영상을 넣고서 또 다른 영상을 만들
수가 있어요. 그러니까이 편집을 할
수가 있게 된 거죠. 그것뿐만
아니라이 세상에 있는 물리 법칙을
이해하면서 훨씬 더 진짜 같이 영상을
만들 수 있게 되었어요. 저는 지금
미국 샌프란시스코 입구글 아이오에
참여하고 있습니다. 그래서 전
세계에서이 구글 옴니를 가장 빨리
알려 주는 사람일 거예요. 오늘이
영상에서 구글 옴니의 이론뿐만 아니라
실습까지 아주 쉽고 자세하게 알려
드릴게요.
안녕하세요. 커넥트 AR 여러분의 A
멘토제입니다. 자, 여러분, 제가이
구글 아이어 온다면서 중요한 것들
중에서 월드 모델에 대해서 알려
드렸는데 지금 그 월드 모델이 새로운
영상 생성에 적용이 돼서 옴니가
나왔다는 걸 저도 이제 막 알았어요.
아직까지는이 옴니가 제대로 발표가 안
되는데 내일이 구글 아이오가
시작하면서 바로 발표가 될 겁니다.
그리고 제가 지금 밤에 저녁
11시인데 이걸 빠르게 만들고
편집까지 해서 어 예약을 걸어두고
자려고요.이 이 구글 아이오에 있는
동안은 잠을 자기는 틀린 거
같습니다. 자, 그래도 여러분들이
조금이라도 더 많이 알았으면 좋겠어서
진짜 최선을 다해서 한번 만들어 볼
건데이 옴니의 특징은 영상 생성뿐만
아니라 뭔가 편집이라고 할 수가 있는
거 같아요. 편집이란게 뭐 자르고
붙이고 뭐 그런게 아니라이 영상
안에서 누군가가 새로 들어오는 거죠.
제가 걸어가는 영상을 촬영했다고
할게요. 근데 옆에 여자 배우가
필요한 거예요. 그럼 이걸 영상을
다시 찍고 다시 편집하는게 아니라 그
옆에다가 그냥 여자만 넣을 수 있지
않을까? 여성 캐릭터만 넣을 수 있지
않을까? 그러면 거기에서 발생되는
비용이 엄청나게 줄어들잖아요. 하나만
템플릿으로 찍어 놓고 여러 개를 복사
붙여 넣기 해서 다른 방식으로 사용할
수 있다. 이게 엄청나게 영상을 좀
효율적으로 사용할 수 있는 방법이지
않을까 생각을 합니다. 어오브에서
프리미어에서 편집을 하는게 아니라
뭔가 내가 상상한 것들을 그 영상
안에다 넣는 그리고 재생성하는
재편집하는 그러한 인공지능 모델이라고
생각할 수 있을 것 같습니다. 거기서
용어가이 네이티브 멀티모델리라고
하는데이 멀티모델이라고 하면은 여러
보고 듣고 말하고 어 그리고 사람이
하는 것처럼 한 번에 하는 인공지는
모델을 멀티모델이라고 합니다. 근데이
멀티 모달이 여러 가지 종류가 있는데
인공지능은 여러 개를 이렇게 연결하는
방법도 있고 또는 인공지는 모델 하나
자체가이 모든 것을 다 하는 그런
방법도 있는데이 옴니는 네이티브
멀티모델 태생적인 통합 모델이라고 해
가지고 텍스트 비디오 오디오 이미지를
전체 다 학습한 인공지능 모델이라고
합니다. 그리고 우리가 동영상을
생성을 할 때 어떤 식으로 생성을
하냐면 이미지 프레임이라고 있어요.
이렇게 주먹을 뻗는다라고 했었을 때
이게 동영상이잖아요. 그러면이
동영상은 이렇게 사진 사진
이런 것들이 여러 개로 연결된
이미지들을 하나로 뭉쳤을 때 동영상이
되는 겁니다.이 중간중간 이미지가
많으면 많을수록 훨씬 더 부드러운
영상이 돼요. 근데이 기존의이
AI는요 프레임마다 픽셀을 다시
계산해서 생성을 했었는데이 옴리는
맥락 자체 컨텍스트를 이해를 하고서
생성을 하기 때문에이 전체적인 맥락이
그렇게 무너지지 않는다라고 합니다.
뭐 우리가 직접 해 봐야겠죠. 연구랑
실제로 다르니깐요. 그리고 제가 아까
말씀드렸던이 월드 모델에 대해서 조금
더 말씀드리면 원래는 지금 우리가
알고 있는 인공지능 모델들은 어
학습을 할 때 확률적으로 생성을
합니다. 나는 널이란 단어가 들어가게
되면은 사랑해가 나올 확률이 높다.
싫어해는 조금 더 그보다 적다.
그러면 우리는 확률이 높은 사랑해를
넣어야지라는 식으로 꽤 많이 나오는
말들이 아 랄지 랭귀지 모델 언어
모델은 한개가 너무나도 명확하다.
어, 세상은 이미지로 구성되어 있다.
인공지능 모델은 단어뿐만 아니라
언어뿐만 아니라 세상을 이해를 하고
그리고 그것을 이미지로 생성을 해야
된다는 그런 연구들이 많이 나오고
있고이 월드 모델이란 건
2018년도에 데이빗 타가 연구한
인공지는 연구인데요. 인공지는 모델은
그냥 단순히 그림이나 이미지 생성을
하는게 아니라 그 안에다 가상 세계를
만들고 또 꿈을 끄고 그러한 것들로
생성을 하면서 환경을 만들고 그
안에서 물리 법칙이나 아니면 다른
역학 법칙들이 적용하게 되는 걸
생성을 한다는 겁니다. 제가 이걸
어떻게 설명할까 좀 생각을 많이
봤었는데 어 내가 생각을 하는게
그림으로 표현을 하는 것보다 머리로
무언가를 상상하면 훨씬 더 디테일하게
상상을 할 수가 있잖아요. 그니까
예를 들어 여러분 눈 감고서 한번
이거 상상해 보세요. 바다인데
살랑살랑 바람이 불고 그리고 파도
소리가 납니다. 근데 그 파도가
파란색이 아니라 분홍색이에요. 아주
예쁜 핑크색입니다.
구름색은 흰색이 아니고 아주 예쁜
반짝이는 노란색이에요. 아주 향기로운
아카시아 냄새가 납니다. 여러분 다
상상되지 않나요? 향과 소리와 그리고
그 느낌 그 모든 것을 한번의
머릿속에서 생성을 했단 말이에요.
그러니까 그냥 단순히 그림을 그린
것보다 뭔가 상상하고 꿈을 꾸는게
훨씬 더 고차원적인 그런 생성이
아닐까라는 생각을 해 봤어요. 그
아이디어가 월드 모델이란 걸로이
세상에서 불리고 있는게 아닐까라는
그런 재밌는 생각을 해봤습니다.
결국은이 구글 옴니뿐만 아니라 점점
점점 우리가 나아가야 할 방향이 월드
모델로서 나아갈 거다라는 아주 강한
확신을 가지고 있습니다. 그럼 우리가
이걸로 뭘 할 수 있는지를 한번 몇
가지 테스트를 해 보도록 하겠습니다.
어떤 사진을 넣고 그거를 사이버 펑크
스타일로 바꾼 다음에 애니메이션
캐릭터로 바꿔 볼 겁니다. 그리고요
카메라를 위에서 내려다 보는 벌드
아이 뷰로 변경을 하고 점 주민해
주는 아주 멋있는 애니메이션을 만들어
볼 수 있을까 그런 생각이 들었어요.
한번 해 볼까요? 재미나에 들어가셔서
플러스 버튼 누른 다음에 이렇게
동영상 만들기를 보면은 옴니 모델로
만듭니다라는 화면이 있습니다.
여기다가이 밑에 보면은 사진을 넣는
부분이 있거든요. 그리고 가로 새로운
모드를 선택할 수 있는 부분이
있습니다. 여기다가 어 제 사진을
하나 넣어 볼게요. 제가 뭐
촬영하면서 찍은 캡처한 사진을 하나
넣어 보겠습니다.이 이미지의 메인
피사체를 사이버 펑크 스타일
애니메이션 캐릭터로 변경해서 영상
생성해 줘. 카메라 앵글을 위에서
아래로 내려다보는 조감도 변경하고
캐릭터의 표정을 서서히 주문인해 줘.
제출 눌러 보겠습니다. 영상이
나왔습니다. 궁금하네요.
>> 연결된 세상 속에서
>> 진실은 언제나 가려져 있죠.
>> 오.
>> 하지만 이제 곧 모든 것이 드러날
것입니다.
>> 대박이다. 우와. 하지만 이제 곧
모든 것이 드러날 것입니다.
>> 목소리도이 캐릭터에 되게 맞고
한국말도 잘하고 와 장난 아닌데 지금
제가 좀 놀랐었던게 지금 소리까지
굉장히 자연스럽구나라는 걸 제가 알게
됐거든요.요 엄니의 특징은 물리적인
상호 작용하고 오디오가 동기화 된다는
거예요.이 재즈라는 음악이 굉장히
어려운데 이것도 잘 할 수 있을까?
드러머가 소리로 땅땅땅 치면은이 무대
조명도 막 바뀌고 반응하고 아까 전에
그 네이티브 멀티모델이 한 번에 작용
하게 될지 그게 궁금한 거예요.
이번에는 이미지 없이 그냥 텍스트만
한번 넣어 보겠습니다. 드러머가
연주하는 제즈 클럽 영상을 만들어
단, 드러머의 리듬에 맞춰 조명이
정확히 반응해야 해. 샌드 자 영상
나왔는데 한번 보이시죠. 어
처음부터이
뒤에 어떻게해? 와, 처음부터 장난
아닌 거 같은데. 보자.
[음악]
와.
우와.
여러분, 여기 봤어요? 조명 지금
소름 끼쳤어.
어우. [음악]
와. 여기띵
여기 부분.
장난 아니다. 와, 10초짜리 영상
이렇게 된다고. 두 가지를 더 실험해
볼 건데 영상을 만들 때 한글이 잘
안 됐었잖아요. 그러니까이 한글
생성을 잘하기 위해서 나노바나 프로로
이미지를 만들고 그리고 그 이미지를
첫 번째 프레임으로 넣어서 영상을
생성을 하는 것. 그런 식으로
했었는데 제가 궁금한게이 영어 말고
한글 영상 생성을 바로 잘할 수
있을까? 이게 저는 되게
궁금하거든요. 화면에 구글, 아이,
오 이거 되게 어렵게 한글이랑 영어랑
그리고 이런 기호랑 같이 넣어
봤어요. 제일 어려운 걸로라는 글자가
들어간 열 가지의 버전에 짧은 영상을
생성. 각각 배경과 폰트 스타일이
달라야 해. 대사 없이 아주 빠르게
전환. 이런 식으로 정말 어렵게 한번
만들어 봤습니다. 나왔는데? 어. 벌
궁금해요. 해보자.
우와.
여러분. 어, 대박이다. 진짜 장난
아닌게 뭐냐면 여러분 일단 첫 번째
텍스트 완벽하게 했죠? 그리고 열 개
폰트 막 바꿨죠. 지금 이렇게 그
음악 배경 소리가 있고 그리고 그
배경 소리는이 영상 콘텐츠와 굉장히
잘 있고 그렇게 배경이 있는 상태에서
영상이 하나 바뀔 때마다 그 또 다른
레이어로이 영상에 알맞은 음악들이
나와요. 그러니까 여러 개의 음악들과
소리트까지 여러 개의 레이어로 하나의
영상이 생성이 되는 거예요.
[콧방귀]
바로 영상을 한번 촬영해 보겠습니다.
그리고 거기에다가이 옴니를 사용해서
편집을 한번 해 볼게요.
누구를 기다리고 있는데 안 오는
거예요. 누군가가 이렇게 달려와서
미안해 하면서 달려오면은 되게 재밌지
않을까라는 생각이 들어 가지고 고게
가능한지 한번 보겠습니다. 식초
이렇게 구간을 해서 자르라고
합니다.을 누른 다음에이 영상 왼쪽
화면 밖에서 헐레벌떡 늦어서
미안하다는 표정으로 귀엽게 뛰어오는
여자를 추가해 줘. 그리고 원래 있던
남자가 그 여자를 보고서 자연스럽게
웃으며 반응하는 상호 작용까지
만들어. 그리고 추가로 제가 하나 더
테스트를 해 볼게요. 이런 기존에
있는 실제와 같은 영상과이 헐레벌터
기원 표정으로 띄워는 만화 캐릭터
강아지를 어 한번에 같이 섞었을 때
어떻게 하면은 좋을까 그게 궁금해서
한번 해 보도록 하겠습니다. 썸 여러
가지를 연구를 해 봐야죠. 맨 처음
이거 나왔습니다. 여자가 여기서
달려올 수 있을지 한번 볼게요. 자
기다리고 있어요. 남자 배우가
어
뭐야?
>> [웃음]
>> 깜짝이야. 와, 대박인데. 이거
뭐지? 내가 이걸 찍었나라는 생각 들
정도로 진짜 이거 영화를 만들어도 될
거 같아요. 이걸로 뭔가 컨텐츠를
만들어도 될 거 같고 영화를 만들어도
될 거 같고 할게 너무 무구진 많은
무궁무진한데 진짜 시작해 볼까?
어떡해? 장난 아니다 진짜. 와,
이거 두 번째 됐습니다. 이게
궁금하네요.
[웃음]
이건 제가 프롬포트를 잘 못 쓴 거
같아요. 근데 진짜 잘하긴 하네.
스누피처럼 이렇게 만들어도 될 거
같고. 여러분, 어때요? 구글이
옴니라는 걸 만들었고이 옴니는 세상의
물리법칙을 이해하고 그것을 기반으로
영상 생성을 합니다. 월드 모델의
컨셉을 하나하나씩 이렇게 구현해
나가는 과정인 거 같아요. 무언가
사람이 상상하고 꿈꾸는 것을 그 바로
생성할 수 있는 그런 모델이
아닌가라는 생각을 합니다. 해 볼 수
있는 거 정말 많을 것 같고
여러분들이 이거 영상 콘텐츠로 활용을
하시면서 제가 항상 말하는 그 상상을
현실로 만드는 과정을 한번 해 보시면
좋을 것 같습니다. 퀄리티가 훨씬
높아졌으니까 유튜브 채널 운영해야
되고 뭐 인스타그램이나 아니면 다른
플랫폼들 운영해도 괜찮고 여러 가지
여러분들이 상상하는 걸 한번 시도해
보시길 바랍니다. 아직 구글 아이오
시작도 안 했습니다. 내일 모래
앞으로 정말 많은 재밌는 일도 있을
건데 저 AI 멘토제와 함께 구글
AI 여행 같이 한번 해 보시면서
우리가이 시대에 생존하는 방법을 같이
한번 연구하고 찾아보겠습니다.
어려운게 있으면이 댓글 달아 주시고
그리고 힘들더라도 제가 여러분들 옆에
있으니까 용기 잃지 마시고 희망을
갖고 우리 한번 재밌게 멋있게 한번이
AI 시대 살아봅시다. 자 힘냅시다.
파이팅입니다.