Hlasy AI jsou nyní nerozeznatelné od skutečných lidských hlasů

Většina z nás pravděpodobně zažila Umělá inteligence (Ai) Hlasy prostřednictvím osobních asistentů, jako je Siri nebo Alexa, s jejich plochým intonací a mechanickým dodávkou nám dávají dojem, že bychom mohli snadno rozlišovat mezi hlasem generovaným AI a skutečným člověkem. Vědci však nyní říkají, že průměrný posluchač již nemůže rozeznat rozdíl mezi skutečnými lidmi a hlasy „Deepfake“.
V nové studii zveřejněné 24. září v časopise PLOS ONEVědci ukázali, že když lidé poslouchají lidské hlasy-spolu s verzemi stejných hlasů generovaných AI-nemohou přesně identifikovat, které jsou skutečné a které jsou falešné.
„Hlasy generované AI jsou nyní všude kolem nás. Všichni jsme mluvili s Alexou nebo Siri, nebo jsme nechali volání automatizované systémy zákaznických služeb,“ řekl hlavní autor studie Nadine LavanVedoucí přednášející v psychologii na Londýnské univerzitě v Queen Mary. „Tyto věci nezní jako skutečné lidské hlasy, ale bylo jen otázkou času, dokud technologie AI začala produkovat naturalistickou, lidskou znějící řeč.“
Studie naznačovala, že zatímco generické hlasy vytvořené od nuly nebyly považovány za realistické, bylo zjištěno, že hlasové klony vyškolené na hlasy skutečných lidí-hluboký zvuk-jsou stejně uvěřitelné jako jejich protějšky v reálném životě.
Vědci dali účastníkům studie vzorky 80 různých hlasů (40 hlasů generovaných AI a 40 skutečných lidských hlasů) a požádali je, aby označili, které považovali za skutečné a generované umělé inteligence. V průměru bylo v průměru pouze 41% hlasů AI ze škrábance nesprávně klasifikováno jako lidské, což naznačuje, že je ve většině případů stále možné je vyprávět od skutečných lidí.
Pro hlasy AI však klonované z lidí však většina (58%) byla nesprávně klasifikována jako lidská. Pouze o něco více (62%) lidských hlasů bylo správně klasifikováno jako lidské, což vedlo vědce k závěru, že neexistoval žádný statistický rozdíl v naší schopnosti vyprávět hlasy skutečných lidí kromě jejich klonů hlubokých.
Výsledky mají potenciálně Hluboké důsledky pro etiku, autorská práva a bezpečnostŘekl Lavan. Pokud by zločinci používali AI k klonování hlasu, stává se mnohem snazší obejít protokoly o autentizaci hlasové v bance nebo přimět své blízké k převodu peněz.
Už jsme viděli, jak se odehrává několik incidentů. Například 9. července Sharon Brightwell byl podveden z 15 000 $. Brightwell poslouchal to, co si myslela, že její dcera plačí po telefonu, a řekla jí, že byla při nehodě a že potřebovala peníze na právní zastoupení, aby ji zabránila vězení. „Není nikdo, kdo by mě mohl přesvědčit, že to nebyla ona,“ řekl Brightwell v té době o realistické výrobě AI.
Životní hlasy AI lze také použít k výrobě prohlášení a rozhovorů s politiky nebo celebritami. Falešný zvuk by mohl být použit k diskreditaci jednotlivců nebo k podněcování nepokojů, setí sociální divize a konfliktu. Con Artists nedávno postavili klon AI hlasu Queensland Premier Steven MilesNapříklad pomocí svého profilu se pokusí přimět lidi, aby investovali do podvodů s bitcoiny.
Vědci zdůraznili, že hlasové klony, které ve studii použili, nebyly ani zvlášť sofistikované. Vyrobili je s komerčně dostupným softwarem a trénovali je s pouhými čtyřmi minutami lidských řečových nahrávek.
„Proces vyžadoval minimální odborné znalosti, jen několik minut hlasových nahrávek a téměř žádné peníze,“ uvedl Navan ve svém prohlášení. „Ukazuje to jen to, jak se stala přístupná a sofistikovaná hlasová technologie AI.“
Zatímco Deepfakes představují mnoho příležitostí pro maligní herce, nejsou to všechno špatné zprávy; Mohou existovat více pozitivních příležitostí, které přicházejí s mocí generovat hlasy AI v měřítku. „Mohou existovat aplikace pro zlepšení dostupnosti, vzdělávání a komunikace, kde na míru mohou na míru vysoce kvalitní syntetické hlasy zvýšit uživatelské zkušenosti,“ řekl Navan.



