자동
비밀번호 찾기 회원가입

[AI]  (AI VALL-E) 당신의 목소리를 3초만 들려주면

그랬군요
4
  1879
Updated at 2026-02-04 07:21:05

똑같은 목소리로 오디오북처럼 읽어줄 수 있지.

 

흠좀무.

 

마소가 어제 발표한 또 다른 AI인데요.

이름이 VAll-E입니다. 익숙하지 않으신가요?

그림 그리는 OPENAI의 AI가 DALL-E 이고 D가 그리기면

마소의 VALL-E는 목소리의 V이지 않을까요?

 

OPENAI와 마소는 엄연히 다른 조직인데 AI 이름은 일관성이 있네요.

어제 CNBC 뉴스 보니까 10빌리언 달러 투자는 사실 상의 M&A라고 말하더라구요.

 

아래 깃헙 링크로 들어가시면 샘플 목소리를 흉내낸 TTS를 들어보실 수 있습니다. 

https://valle-demo.github.io/

 

들어가서 플레이해서 비교해보세요. 이제 난 그런 말 한 적 없는데? 하고 말해봤자. 내가 하지 않은 말을 들을 수 있게 된 세상입니다. 스마트 스피커가 녹음한 내 목소리 데이터가 이런 곳에 이용되지 말란 법이 없죠.

잘못된 권력이 나쁜 생각을 하고 이용한다면 착하게 살아도........

 

깃헙페이지 하단의 윤리 선언문입니다. 

Ethics Statement 

Since VALL-E could synthesize speech that maintains speaker identity, it may carry potential risks in misuse of the model, such as spoofing voice identification or impersonating a specific speaker. We conducted the experiments under the assumption that the user agree to be the target speaker in speech synthesis. When the model is generalized to unseen speakers in the real world, it should include a protocol to ensure that the speaker approves the use of their voice and a synthesized speech detection model.

 

윤리 선언문(구글 번역)

VALL-E는 화자 신원을 유지하는 음성을 합성할 수 있으므로 음성 식별을 스푸핑하거나 특정 화자를 사칭하는 등 모델을 오용할 경우 잠재적인 위험을 수반할 수 있습니다. 우리는 음성 합성에서 사용자가 목표 화자가 되는 것에 동의한다는 가정 하에 실험을 진행했습니다. 모델이 현실 세계에서 보이지 않는 화자로 일반화될 때 화자가 자신의 음성 사용을 승인하도록 하는 프로토콜과 합성된 음성 감지 모델을 포함해야 합니다.

 

Microsoft's new VALL-E AI can capture your voice in 3 seconds

https://newatlas.com/technology/microsoft-vall-e-speech-synthesis/

https://www.engadget.com/the-morning-after-microsofts-vall-e-ai-can-replicate-a-voice-from-a-three-second-sample-121605576.html

 

 

만일 1.

 CHATGPT로 작성된 연설문을 내 목소리를 입힌 Vall-E로 읽게 하고 DALL-E의 비디오버전이 내 모습을  TTS에 맞춰 시뮬레이팅 시켜 테드톡 같은 곳에서 동영상으로 참가한다면,

 

나를 내가 아닌 훨씬 지적이고 똑똑한 '슈퍼 미'(정부미 아임니다^^)로 세상에 행세할 수 있지 않을까요?

그런 AI 통합 서비스는 꽤 비싸겠지만 말입니다. 결국 돈이 권력인 세상, 테크노크라시는 이런 식으로 접근하는 것이 아닐까합니다. 트럼프 같은 사람을 오바마로 바꾸는 마술이 가능할테니 말입니다.

 

만일 2.

제가 위에서 말한 슈퍼미 서비스가 대중화되거나 직원능력향상시스템 같은 것으로 이용된다면, 대졸 스펙 이런 것은 필요없게 되지 않을까요? 인간이 개입할 요소에 적당히 개입할 정도의 지성을 갖춘 사람을 레벨별로 나누고 적당한 AI패키지를 나눠주면,  지적노동은 AI가 하고 사람은 단순노동직으로 전환되는 시점을 앞당기겠습니다. 이미 이런 수준에서 지적노동 파트의 AI가 단순노동파트의 협업하는 인간을 프로토콜에 따라 육체노동을 실질적으로 통제하는 모습일테니 말이죠.

지금도 현금인출기나 각종 키오스크가 해당 목적 트랜잭션의 지배통제를 하고 있다면 과장이지만요.

그랬군요 님의 서명
Love words,
agonize over sentences. And
pay attention to the world. - Susan Sontag
4
댓글
버섯군
1
2023-01-11 21:34:22

이제 음성에도 본인 확인 시스템을 갖춰야 할 듯. 개인이 이 앱을 쓸 일은 별로 없고 유명인의 목소리 같은 건 듣고 싶어하지 않을까요? 저작권은 그럼 누구에게 있나요...

WR
그랬군요
2023-01-11 21:44:18

"화자가 자신의 음성 사용을 승인하도록 하는 프로토콜과 합성된 음성 감지 모델을 포함해야 합니다." 애초에 소스 제공자가 승인하도록 코드를 쓰라고 말하지만 아직 '법'은 아니죠.

지공
2
2023-01-11 23:28:15

법으로 시작해도 벌금보다 수익이 더 크다면 밀어붙이는게 기업인데... 무서운 세상이군요.

(처음에는 유튜브 녹음 대신 시킬까...하고 좋아했습니다) 

WR
그랬군요
2023-01-11 23:30:01

깃헙 들어가보셨어요. 소름끼치게 원본 목소리와 똑같이 제시된 문장을 읽습니다. CHATGPT한테 원고 작성시키고 발리한테 읽으라 하면 되죠.

댓글 남기기
로그인 후 댓글을 남기실 수 있습니다.
 
13:10
4
745
까치의 꿈
12:26
 
502
유진♥서진 아빠
글쓰기