[AI] (AI VALL-E) 당신의 목소리를 3초만 들려주면
똑같은 목소리로 오디오북처럼 읽어줄 수 있지.
흠좀무.
마소가 어제 발표한 또 다른 AI인데요.
이름이 VAll-E입니다. 익숙하지 않으신가요?
그림 그리는 OPENAI의 AI가 DALL-E 이고 D가 그리기면
마소의 VALL-E는 목소리의 V이지 않을까요?
OPENAI와 마소는 엄연히 다른 조직인데 AI 이름은 일관성이 있네요.
어제 CNBC 뉴스 보니까 10빌리언 달러 투자는 사실 상의 M&A라고 말하더라구요.
아래 깃헙 링크로 들어가시면 샘플 목소리를 흉내낸 TTS를 들어보실 수 있습니다.
https://valle-demo.github.io/
들어가서 플레이해서 비교해보세요. 이제 난 그런 말 한 적 없는데? 하고 말해봤자. 내가 하지 않은 말을 들을 수 있게 된 세상입니다. 스마트 스피커가 녹음한 내 목소리 데이터가 이런 곳에 이용되지 말란 법이 없죠.
잘못된 권력이 나쁜 생각을 하고 이용한다면 착하게 살아도........
깃헙페이지 하단의 윤리 선언문입니다.
Ethics Statement
Since VALL-E could synthesize speech that maintains speaker identity, it may carry potential risks in misuse of the model, such as spoofing voice identification or impersonating a specific speaker. We conducted the experiments under the assumption that the user agree to be the target speaker in speech synthesis. When the model is generalized to unseen speakers in the real world, it should include a protocol to ensure that the speaker approves the use of their voice and a synthesized speech detection model.
윤리 선언문(구글 번역)
VALL-E는 화자 신원을 유지하는 음성을 합성할 수 있으므로 음성 식별을 스푸핑하거나 특정 화자를 사칭하는 등 모델을 오용할 경우 잠재적인 위험을 수반할 수 있습니다. 우리는 음성 합성에서 사용자가 목표 화자가 되는 것에 동의한다는 가정 하에 실험을 진행했습니다. 모델이 현실 세계에서 보이지 않는 화자로 일반화될 때 화자가 자신의 음성 사용을 승인하도록 하는 프로토콜과 합성된 음성 감지 모델을 포함해야 합니다.
Microsoft's new VALL-E AI can capture your voice in 3 seconds
https://newatlas.com/technology/microsoft-vall-e-speech-synthesis/
https://www.engadget.com/the-morning-after-microsofts-vall-e-ai-can-replicate-a-voice-from-a-three-second-sample-121605576.html
만일 1.
CHATGPT로 작성된 연설문을 내 목소리를 입힌 Vall-E로 읽게 하고 DALL-E의 비디오버전이 내 모습을 TTS에 맞춰 시뮬레이팅 시켜 테드톡 같은 곳에서 동영상으로 참가한다면,
나를 내가 아닌 훨씬 지적이고 똑똑한 '슈퍼 미'(정부미 아임니다^^)로 세상에 행세할 수 있지 않을까요?
그런 AI 통합 서비스는 꽤 비싸겠지만 말입니다. 결국 돈이 권력인 세상, 테크노크라시는 이런 식으로 접근하는 것이 아닐까합니다. 트럼프 같은 사람을 오바마로 바꾸는 마술이 가능할테니 말입니다.
만일 2.
제가 위에서 말한 슈퍼미 서비스가 대중화되거나 직원능력향상시스템 같은 것으로 이용된다면, 대졸 스펙 이런 것은 필요없게 되지 않을까요? 인간이 개입할 요소에 적당히 개입할 정도의 지성을 갖춘 사람을 레벨별로 나누고 적당한 AI패키지를 나눠주면, 지적노동은 AI가 하고 사람은 단순노동직으로 전환되는 시점을 앞당기겠습니다. 이미 이런 수준에서 지적노동 파트의 AI가 단순노동파트의 협업하는 인간을 프로토콜에 따라 육체노동을 실질적으로 통제하는 모습일테니 말이죠.
지금도 현금인출기나 각종 키오스크가 해당 목적 트랜잭션의 지배통제를 하고 있다면 과장이지만요.
agonize over sentences. And
pay attention to the world. - Susan Sontag
| 글쓰기 |





이제 음성에도 본인 확인 시스템을 갖춰야 할 듯. 개인이 이 앱을 쓸 일은 별로 없고 유명인의 목소리 같은 건 듣고 싶어하지 않을까요? 저작권은 그럼 누구에게 있나요...