Obsah
Nevěřte svým uším: neuronové sítě pro klonování hlasu někoho jiného
Od ledna 2024 jsou zprávy o podvodných hovorech pomocí hlasového spoofingu stále častější. Přestože je hlas člověka jedinečný, stejně jako otisky prstů, v éře umělé inteligence byste neměli věřit ani vlastním uším.
Řekneme vám, které neuronové sítě jsou schopny generovat hlasy jiných lidí a jak obtížné je vytvořit vlastní hluboký falešný zvuk.
Top 5 neuronových sítí pro generování hlasu
K vytváření zvukových deepfakes se používá technologie převodu hlasu. Pokud nezacházíte do technických detailů, vypadá to docela jednoduše – hlas jednoho člověka se převádí na hlas druhého při zachování témbru, intonace a emocionálního zabarvení. Níže je pět neuronových sítí, které lze použít k vytvoření hlubokého zvuku.
AI Voice Changer
AI Voice Changer je bezplatná služba pro změnu vašeho hlasu v reálném čase. Umožňuje uživatelům vytvářet zvukové nahrávky a upravovat je podle svých představ nebo používat hlasy vytvořené jinými uživateli. Program je kompatibilní s aplikacemi Zoom, Discord, Minecraft, GTA5, Fortnite, Valorant, League of Legends, Among Us, Skype, Whatsapp, Teamspeak a další.
Služba má placené předplatné Pro a Plus pro přístup k pokročilým funkcím a dalším efektům. Zvukový záznam se změněným hlasem můžete pořídit pouze u placených tarifů.
VoiceMy je bezplatná neuronová síť s rozsáhlou funkčností. S jeho pomocí můžete upravovat zvukové soubory, vytvářet hudbu, hlasové texty a klonovat hlas libovolné osoby nebo trénovat vlastní hlasový model. K dispozici je placené předplatné s pokročilými funkcemi.
Měnič hlasu ElevenLabs
AI Voice Changer od ElevenLabs je pohodlná služba pro úpravu zvuku a práci se zvukovými formáty. Je možné klonovat a přizpůsobit svůj hlas. Ideální pro zachování emocí a kvality hlasu. K dispozici je bezplatná verze s omezenou funkčností a placené plány s pokročilými funkcemi.
Fluxon je software pro umělou inteligenci. Dokáže převádět text na zvuk, klonovat hlas, vytvářet dialogy a syntetizovat hlasy, překládat zvuk do jiného jazyka. Je zajištěna bezproblémová integrace s ostatními aplikacemi.
Resemble AI je online hlasový generátor, který podporuje funkci klonování. Neuronová síť dokáže upravit tón a výšku hlasu a přidat emoce. Chcete-li naklonovat hlas, musíte nahrát 3minutový zvukový soubor se zdrojem. Resemble AI je placený produkt, ale na vyžádání je k dispozici bezplatné demo.
Jak sami vytvořit zvukový deepfake
Existuje mnoho neuronových sítí schopných klonovat hlasy jiných lidí. Jsou ale skutečně schopni vytvořit digitální repliku podobnou životu? Rozhodli jsme se udělat audio deepfake sami pomocí jedné z popsaných neuronových sítí. Nejpozitivnější recenze online byly o AI Voice Changer od ElevenLabs, což je to, co jsme vybrali pro experiment. Pozvěme neuronovou síť, aby nahrála krátký projev o našich médiích hlasy tří známých osobností – Jevgenije Ivanova, Denise Denisenka a Morgensterna.
Chcete-li začít pracovat s programem, musíte se zaregistrovat. Uživatelé mají k dispozici dvě možnosti:
- Přihlaste se pomocí platného účtu Google.
- Zadejte svůj e-mail, toto bude vaše přihlašovací jméno a vymyslete heslo pro přihlášení.
Dále vás neuron požádá, abyste uvedli své jméno a řekli nám, kde jste se o službě dozvěděli.
A ještě trochu úvodu – řekněte nám, co děláte a pro jaké účely plánujete používat AI Voice Changer.
AI Voice Changer má pět tarifních plánů. K dispozici je také jeden bezplatný, ale v něm můžete k vytvoření nahrávky použít pouze hlasy z interní knihovny služby. Abychom vytvořili audio deepfake, zaplatili jsme za tarif Starter – 1 $ měsíčně. Za tyto peníze služba poskytuje 30 minut zvukového záznamu klonovaných hlasů a 10 míst v knihovně pro přidání vlastních zdrojů řeči.
Ruské bankovní karty nepřijímají platby. Používejte proto plasty vydané zahraniční bankou, nebo využijte pomocných služeb, jako jsme to udělali my.
Nahrání hlasu do knihovny
K vytvoření deepfakeu budete potřebovat zdroj – zvukovou nahrávku osoby, jejímž hlasem chcete projev nahrát. Pokud se jedná o mediálního člověka, není těžké získat příklad. Jako poslední možnost si zapněte jakýkoli rozhovor nebo video na YouTube a nahrajte si zvuk do telefonu.
Chcete-li přidat hlas do knihovny AI Voice Changer, potřebujete:
- V hlavní nabídce vlevo přejděte do sekce „Hlasy“.
- Kliknutím na znaménko plus přidáte zdroj pro klonování.
- V zobrazené nabídce „Typy hlasů k vytvoření“ vyberte „Okamžité klonování hlasu“.
- Přidat hlas – nahrajte zvukový soubor se zdrojem, přiřaďte název a případně přidejte popis. Nezapomeňte zaškrtnutím políčka souhlasit se zásadami ochrany osobních údajů a smluvními podmínkami. Klikněte na tlačítko „Přidat hlas“.
Vytvoření hlubokého falešného zvuku
Aby neuronová síť zaznamenala nějaký druh zprávy hlasem celebrity, musíte si předem připravit textový nebo zvukový soubor s vhodnou nahrávkou. Napsali jsme následující text:
„CPA Monstro je mediální publikace o digitálu obecně a konkrétně o affiliate marketingu. Odborníci z různých oblastí znalostí vytvářejí užitečné materiály o oboru a odhalují tajemství vydělávání peněz na internetu. Pokračujte, přihlaste se a čtěte! DPA Monstro je nejlepší médium v affiliate marketingu!“
Chcete-li naklonovat hlas, potřebujete:
- Přejděte do sekce „Řeč“.
- Vyberte formát převodu – text na řeč nebo zvuk na řeč.
- Vyberte požadovaný zdroj z knihovny hlasů.
- Klikněte na tlačítko „Generování řeči“.
Aby se „klon“ více podobal zdroji a zbavil se robotického zvuku, můžete si pohrát s nastavením hlasu. U všech tří zdrojů jsme ale ponechali výchozí nastavení. To je to, co jsme dostali. Výsledky si můžete poslechnout v původním článku.
Úkol byl splněn – byly provedeny audio deepfakes s hlasy Jevgenije Ivanova, Denise Denisenoka a Morgensterna. Jejich promluvy vytvořené neuronovou sítí znějí dobře a místy jsou velmi podobné originálu. I když jsou problémy s intonací a robotickým zvukem některých slov. Ale vývojáři AI Voice Changer slibují, že vytvoří nejrealističtější digitální kopii hlasu s kvalitou zvuku 192 kbps v dražších tarifech.
Nastala „temná“ digitální budoucnost, kdy neuronové sítě mluví cizími hlasy. Ale nepropadejte panice a odmítejte komunikovat přes instant messenger nebo po telefonu. Neuronové sítě stále neznějí zcela přirozeně a ve větách nesprávně intonace. Proto stále není těžké odlišit umělou inteligenci od lidí. Uvidíme, co bude dál.