27.11.2024 JPM Redakcja

„Czy ludzki głos jest tak naprawdę wyjątkowy?”

Syntetyzatory mowy oparte na sztucznej inteligencji potrafią teraz prowadzić niesamowicie realistyczne rozmowy, naśladując akcenty, szeptać, a nawet klonować głosy innych osób. Jak więc rozpoznać, kiedy mamy do czynienia z głosem ludzkim, a kiedy z syntetycznym?

Zdjęcie: Estudio Santa Rita

W dzisiejszych czasach całkiem łatwo jest rozpocząć rozmowę z AI. Można zadać pytanie chatbotom, a one udzielą angażującej odpowiedzi werbalnie. Możesz porozumiewać się z nimi wieloma językami i poprosić o odpowiedź w określonym dialekcie lub akcencie. Obecnie nawet możliwe jest używanie narzędzi do klonowania głosu opartego na sztucznej inteligencji, które potrafią odtworzyć głosy prawdziwych ludzi. Jedno z takich narzędzi zostało ostatnio użyte do skopiowania głosu zmarłego brytyjskiego dziennikarza Sir Michaela Parkinsona, aby stworzyć ośmioczęściowy podcast, podczas gdy brytyjski nadawca David Attenborough „był głęboko zdenerwowany”, słysząc, że jego głos został sklonowany przez AI i użyty do wypowiadania słów, których nigdy nie powiedział. W niektórych przypadkach ta technologia jest używana w wyrafinowanych oszustwach, aby oszukać ludzi i skłonić ich do przekazania pieniędzy przestępcom.

Nie wszystkie głosy generowane przez AI są używane w złych celach. Są one również wykorzystywane w chatbotach opartych na wszelkich modelach językowych, dzięki czemu mogą odpowiadać i prowadzić rozmowy w sposób bardziej naturalny i przekonujący. Funkcja chatu GPT, na przykład może teraz odpowiadać na wiadomości zmieniając ton głosu i akcentując niektóre słowa w sposób bardzo zbliżony do tego, jak robi to człowiek, aby wyrazić empatię i emocje. Potrafi także wychwytywać niewerbalne sygnały, takie jak wzdychanie i szlochanie, mówić w 50 językach oraz dostosowywać akcenty na bieżąco. Może nawet wykonywać telefony w imieniu użytkowników, aby pomóc z różnymi zadaniami. Podczas jednej z demonstracji OpenAI system zamówił truskawki u sprzedawcy. Te możliwości rodzą interesujące pytanie: czy jest coś unikalnego w ludzkim głosie, co pomoże nam odróżnić go od głosu generowanego przez AI? Jonathan Harrington, profesor fonetyki i cyfrowego przetwarzania mowy na Uniwersytecie Monachijskim w Niemczech, spędził dekady badając zawiłość ludzkiej mowy i produkcji dźwięków, słów i akcentów.

Nawet on jest pod wrażeniem możliwości syntetyzatorów głosu opartych na sztucznej inteligencji. „W ciągu ostatnich 50 lat, a zwłaszcza ostatnio, systemy generowania mowy/ syntezatory stały się tak dobre, że często trudno jest odróżnić głos generowany przez AI od prawdziwego głosu” – mówi. Jednakże uważa on, że wciąż istnieją pewne ważne wskazówki, które pomogą nam określić czy rozmawiamy z człowiekiem czy AI. Zanim do tego przejdziemy, postanowiliśmy przeprowadzić małe wyzwanie, żeby zobaczyć jak przekonywujący może być głos wygenerowany przez AI w porównaniu do ludzkiego. Aby to wykonać, Poprosiliśmy Conora Grennana, głównego architekta AI w Nowojorskiej Szkole Biznesu Stern, aby stworzył pary nagrań audio. Jeden był fragmentem Lewis’a Carroll’a Alice in Wonderland, czytany przez Grennana, a drugi identyczny fragment był generowany za pomocą narzędzia do klonowania głosu AI firmy ElevenLabs. Możesz wysłuchać poniżej obu nagrań, aby zobaczyć czy będziesz umiał je odróżnić.

Zaskakująco, około połowa osób, którym odtworzyliśmy te nagrania, nie była w stanie rozpoznać, który głos jest ludzki, a który pochodzi z AI, jedynie słuchając. Warto podkreślić, że nasz eksperyment nie był naukowy, a nagrania nie były odtwarzane na wysokiej jakości sprzęcie audio- jedynie na zwykłym laptopie i słuchawkach od telefonu. Steve Grobman, który pełni funkcję głównego technologa w firmie zajmującej się cyberbezpieczeństwem McAfee, miał trudności z rozróżnieniem, który głos był ludzki, a który AI słuchając tylko uchem. „Na pewno były rzeczy poza samą mową, jak wdech, co skłoniłoby mnie ku człowiekowi, ale rytm, balans, tonacja skłaniałyby mnie ku AI” – mówi. Dla niewyszkolonego ludzkiego ucha wiele z tych rzeczy może być trudnych do uchwycenia.

„Ludzie są w tym tragiczni”, mówi Grobman wyjaśniając, że oprogramowanie do wykrywania deepfake'ów pomaga wychwytywać rzeczy, które nie może uchwycić ludzkie ucho. Jednak staje się to szczególnie trudne, gdy złoczyńcy manipulują prawdziwym dźwiękiem, łącząc go z fragmentami fałszywego audio, mówi wskazując na wideo, w którym współzałożyciel Microsoftu, Bill Gates, promuje narzędzie do handlu akcjami na bazie kwantowego AI. Dla ludzkiego ucha, nagranie brzmiało dokładnie tak samo jak głos miliardera technologicznego, ale po przetworzeniu przez klasyfikator oszustw zostało oznaczone jako deepfake. McAfee niedawno podkreśliło, jak sfałszowana reklama wykorzystywała mieszankę deepfake'owego i prawdziwego audio piosenkarki Taylor Swift. Wskazówka Grobmana: „Zawsze wsłuchuj się w kontekst wypowiedzi, rzeczy, które brzmią podejrzanie, prawdopodobnie nimi są”.

Inny ekspert ds. cyberbezpieczeństwa, Pete Nicoletti, globalny dyrektor ds. bezpieczeństwa informacji w Check Point Software, platformie analizy zagrożeń również miał trudności z naszym wyzwaniem Alice in Wonderland. Mówi, że zazwyczaj nasłuchuje nienaturalnych wzorców mowy, takich jak nieregularne pauzy i dziwaczne frazowanie, gdy odsłuchuje nagrania. Dziwne artefakty, takie jak zniekształcenia i niepasujące tło dźwiękowe, mogą również stanowić wskazówkę. Nasłuchuje także ograniczonej zmienności głośności, rytmu i tonu, ponieważ głosy sklonowane z zaledwie kilku sekund audio mogą nie mieć pełnej gamy ludzkiego głosu.

„Żyjemy w społeczeństwie po-realnym, gdzie klony głosów generowane przez AI mogą oszukiwać nawet systemy weryfikacji głosu w firmach obsługujących karty kredytowe”, mówi Nicoletti. „Turing przewróciłby się w grobie”, nawiązując do Alana Turinga, brytyjskiego łamacza kodów z czasów II wojny światowej, który zaprojektował „Test Turinga” jako sposób identyfikacji AI przez rozmowę. Dane Sherrets, architekt innowacji technologii w firmie HackerOne, społeczności łowców bugów pracujących nad ujawnianiem luk bezpieczeństwa w największych firmach świata, był jednym z tych, którzy poprawnie rozpoznali ludzki głos. Naturalna intonacja i oddech w nagraniach były dla niego wskazówką.

Słuchanie akcentowania, czyli podkreślania niektórych słów w zdaniu, może być dobrym sposobem na rozpoznanie mowy generowanej przez komputer, zgadza się Harrington. Wynika to z faktu, że ludzie używają akcentowania, po to by nadać zdaniu większe znaczenie w kontekście rozmowy. „Na przykład zdanie takie jak: Marianna zrobiła marmoladę zazwyczaj kładzie największy nacisk na pierwsze i ostatnie słowo jeśli czytanie jest jako oddzielne zdanie, pozbawione kontekstu”, mówi. Jednakże jeśli ktoś by zapytał czy Marianna kupiła marmoladę, akcent mógłby zamiast tego spaść na słowo „zrobiła” w odpowiedzi.

Intonacja- zmiana tonacji głosu w zdaniu- może również zmienić te same słowa z twierdzenia („Marianna zrobiła marmoladę”) w pytanie („Marianna zrobiła marmoladę?”). Prafrazowanie jest również ważnym czynnikiem. W sposób w jaki zdanie jest podzielone, może zmienić jego znaczenie. Zdanie „Gdy niebezpieczeństwo zagraża, dzieci dzwonią na policję”, posiada inne znaczenie, gdy brzmi „Gdy niebezpieczeństwo zagraża dzieciom, zadzwoń na policję”, wyjaśnia Harrington. Razem te trzy elementy mowy są określane jako prosodia na poziomie zdania. „Jest to jeden z powodów, dla których mowa generowana komputerowo była do tej pory dość słaba i mało ludzka” – mówi Harrington.

Jednakże z rozwojem technologii, sztuczna inteligencja staje się coraz lepsza w naśladowaniu tych aspektów mowy. „Jeśli o tym pomyślisz, to jest to najgorsza wersja technologii, jaka kiedykolwiek będzie” – mówi Sherrets. „Nawet coś, co jest tylko w 60% tak dobre, wciąż jest dość potężne. Będzie tylko tańsze, szybsze i lepsze od tego momentu”. On i wielu innych ludzi, z którymi rozmawialiśmy są bardzo zaniepokojeni klonowaniem głosu. Jest to poważnym zagrożeniem dla firm. Assaf Rappaport, dyrektor generalny Wiz, wiodącej firmy zajmującej się cyberbezpieczeństwem, powiedział publiczności na konferencji technologicznej w październiku, że ktoś stworzył klon jego głosu na podstawie jednego z jego ostatnich wystąpień. Następnie wykorzystano go do wysłania wiadomości głosowej deepfake do dziesiątek pracowników w próbie kradzieży danych dostępowych.

Nie udało się to oszustom, jednakże incydent był sygnałem ostrzegawczym. Na podstawie innego przykładu, dyrektor szkoły otrzymał groźby śmierci po tym, jak pojawił się fałszywy klip audio, który rzekomo pokazywał go wygłaszającego głęboko obraźliwe uwagi. Inne przypadki pokazują jak członkowie rodziny zostali oszukani na pieniądze przez rozmowy telefoniczne używające klonów głosów ich bliskich. Sherrets radzi opracowanie innych sposobów weryfikacji, że naprawdę rozmawiamy z osobą, którą myślimy, że rozmawiamy. „W domu oznacza to ustalenie haseł rodzinnych” – mówi. „W pracy oznacza to nie robienie przelewu tylko dlatego, że dostałeś wiadomość głosową od dyrektora generalnego swojej firmy”. Możesz również zadawać osobiste pytania, takie jak nazwa ulubionej piosenki.

Jednakże, najlepszym rozwiązaniem jeśli podejrzewasz, że AI imituje kogoś, kogo znasz, jest powiedzenie, że oddzwonisz. Zadzwoń pod numer, który masz do tej osoby, i nie panikuj. Michael McNerney, wiceprezes ds. bezpieczeństwa w firmie ubezpieczeniowej zajmującej się ryzykiem cybernetycznym, Resilience, która pokrywa ataki takie jak „spear phishing”, gdzie pracownicy są oszukiwani na przelew pieniędzy za pomocą audio deepfake, również poprawnie odgadł, który głos pochodzi z AI, a który od człowieka w naszym wyzwaniu „Alicji w Krainie Czarów”. Słuchając próbek, zastanawiał się: „Czy to prawdziwy oddech, czy sztuczny? Czy pojawiły się jakieś błędy? Czy jest to zbyt poprawne, zbyt idealne?” Potykanie się o słowa i robienie przerw w oddychaniu są bardzo ludzkie, więc jeśli rzeczy są zbyt idealne, może być to właściwie znak, że AI udaje człowieka. Jednak McNerney twierdzi, że nawet tutaj technologia staje się coraz bardziej ludzka. „To jest bardzo trudne do rozróżnienia” – mówi.

„AI kontra umysł”

Ten artykuł jest częścią serii „AI kontra umysł”, której celem jest zgłębienie granic nowoczesnej sztucznej inteligencji i jednoczesne poznawanie, jak działają nasze własne mózgi. Każdy artykuł stawia ludzkiego eksperta naprzeciw narzędzia AI, aby zbadać różne aspekty zdolności poznawczych. Czy maszyna może napisać lepszy żart niż profesjonalny komik, lub rozwiązać moralny dylemat w bardziej elegancki sposób niż filozof? Mamy nadzieję, że się tego dowiemy. Słuchając naszych dwóch par nagrań, Harrington i jego koledzy z Instytutu Fonetyki Uniwersytetu Monachijskiego również mieli trudności z rozróżnieniem głosów AI od ludzkich, słuchając ich uchem. Wskazali wiele charakterystycznych cech, które powinny im pomóc w zidentyfikowaniu ludzkiej mowy. Zmienność w szybkości mówienia często jest widoczna jako znak rozpoznawczy ludzkiego głosu, ale w rzeczywistości głos AI w naszych próbkach wydawał się generować tę zmienność częściej niż ludzki głos.

Przyjmowanie oddechu również powinno być kolejnym wskaźnikiem. Niektórzy zidentyfikowali coś dziwnego w oddechu w obu zestawach nagrań. Harrington i jego koledzy również powiedzieli, że ich zdaniem oddech w jednym z nagrań „Alicji w Krainie Czarów” wydawał się zbyt regularny. Okazało się, że to był ludzki przykład. Fakt, że wielu ekspertów, z którymi rozmawialiśmy, miało trudności z odróżnieniem głosów AI i ludzkich, nie powinno być traktowane jako porażka ich zdolności. Raczej jest to znak jak dobry stał się obecnie AI w naśladowaniu ludzkich głosów. Jest to coś, co może mieć niepokojące konsekwencje, mówi Harrington.

„Jestem zdumiony jak głosy wygenerowane przez AI wiedzą gdzie umiejscowić fałszywe statystyki i wahania, zakładając, że nie zostały one wpisane przez kogoś przy klawiaturze” – wspomina. „Zdolność AI do komunikowania się, w mowie, pomysłów danej osoby, które mogą być całkowicie sprzeczne z jej prawdziwymi poglądami, jest teraz pełna” – dodaje. „To jest ta część, która mnie przeraża”. Istnieje jednak inny sposób rozróżnienia ludzkiego głosu od głosu AI, mówi Harrington. Sugeruje on użycie czegoś, co nazywa się deakcentowaniem prosodycznym. Przykład poniżej:

Pytanie: Czy John przeczytał już Hard Times?

Odpowiedź: John nie lubi Dickensa.

Akcent na czasowniku w odpowiedzi określa, że osoba która odpowiada wie, że Dickens jest autorem noweli Hard Times. „Syntetyzowanie takich dialogów z naturalną prosodią może być wciąż dość trudne dla wielu systemów AI, ponieważ wymaga to znajomości świata, która wykracza daleko poza słowa zapisane na stronie” – mówi Harrington. Jednak nawet ten rodzaj testu może wkrótce zostać pokonany przez wszelakie modele językowe, które korzystają z ogromnych zbiorów danych z internetu, ucząc się mówić w sposób bardziej ludzki.

„Interesujące byłoby dowiedzieć się, czy AI również to poprawnie zrozumie w przyszłości”, dodaje Harrington. Usługi głównego nurtu, takie jak funkcja głosowa ChatGPT, już potrafią się śmiać, szeptać, zostać przerywane, a potem kontynuować to, co mówiły. Potrafią również zapamiętać co kiedykolwiek zostało im powiedziane. Kiedy zapytano OpenAI – twórców ChatGPT – o środki ostrożności, które zapewniają, że AI ujawnia, iż jest sztuczną inteligencją podczas rozmowy z ludźmi, firma odpowiedziała, że takich środków nie ma. Zaznaczyła również, że nie planuje „wodnego znaku” na AI, aby je zidentyfikować, ze względu na możliwość wystąpienia uprzedzeń wobec użytkowników. Mogłoby to obejmować grupy osób z upośledzeniami mowy korzystające z ChatGPT do komunikacji lub studentów wykorzystujących ChatGPT do pomocy w odrabianiu prac domowych.

Jednakże, OpenAI twierdzi, że aktywnie stara się zablokować klonowanie głosu, ponieważ wdrażane są zaawansowane funkcje ChatGPT. „Pracujemy nad tym, aby zapobiec kopiowaniu głosów prawdziwych ludzi przez nasze syntetyczne głosy”, mówi Jackie Shannon, liderka produktu multimodalnego „ChatGPT”, w rozmowie z BBC. „W przypadku zaawansowanego głosu dopuszczamy tylko presetowe głosy.” Należą do nich dwa brytyjskie i siedem amerykańskich głosów, podzielonych na płeć. Istnieje również kilka innych sztuczek, które możesz wypróbować, jeśli masz wątpliwości, czy głos, z którym rozmawiasz, może nie być ludzki.

Możesz na przykład poprosić go, by krzyczał. Wiele systemów głosowych AI ma trudności z mówieniem poza normalnym zakresem głosu, chyba że zostały specjalnie do tego przeszkolone, mówi Nicoletti. Poprosiłem ChatGpt, żeby krzyczał i powiedział mi, że nie może. Innym wskaźnikiem mogą być wady w ludzkiej mowie, które mogą zdradzić AI, mówi Grennan. Poprawianie się i powracanie do swoich myśli to bardzo ludzka cecha. Mało prawdopodobne, byś kiedykolwiek usłyszał ChatGPT mówiącego: „Eee, nie ważne!” lub „Wiesz co!?” Trwają również prace nad udostępnieniem oprogramowania do wykrywania deepfake'ów szerokiemu kręgowi konsumentów. McAfee, na przykład, nawiązało współpracę z Dell, HP, Lenovo, Samsung, Acer i Asus, aby zainstalować swoje rozwiązanie na komputerach z AI.

Firma spodziewa się również wdrożenia swojego oprogramowania na urządzenia mobilne w najbliższej przyszłości, zgodnie z informacjami podanymi przez Grobmana. ElevenLabs- twórca narzędzia używanego do tworzenia klonów głosów AI w naszym wyzwaniu „Alicji w Krainie Czarów” – oferuje także bezpłatne narzędzie do wykrywania AI, które pomaga ludziom zidentyfikować, czy ich oprogramowanie zostało użyte do stworzenia danego nagrania audio. Jednak w nieuniknionym wyścigu zbrojeń między generowaniem AI a wykrywaniem AI, możemy odkryć nową wartość w czymś, co zatraciliśmy w naszym coraz bardziej wirtualnie połączonym świecie – interakcji fizycznej. Być może odpowiedź na pytanie, czy rozmawiasz z człowiekiem, jest prosta – spędzaj więcej czasu spotykając się twarzą w twarz. Dla tych, którzy nadal zastanawiają się, które z naszych nagrań było prawdziwe, możemy ujawnić, że pierwsze nagranie pochodziło od AI, a drugie od człowieka. Udało Ci się zgadnąć poprawnie?

Aby otrzymywać więcej wiadomości i informacji technologicznych, zapisz się na nasz newsletter Tech Decoded, a The Essential List dostarczy starannie wyselekcjonowane artykuły i informacje prosto na Twoją skrzynkę pocztową dwa razy w tygodniu.

Aby poznać więcej historii z zakresu nauki, technologii i zdrowia od BBC, śledź nas na Facebooku i X.

Dział: Technologia

Autor:
Martine Paris | Tłumaczenie: Natalia Smolira - praktykantka fundacji: https://fundacjaglosmlodych.org/praktyki

Źródło:
https://www.bbc.com/future/article/20241122-ai-deepfakes-is-there-something-special-about-the-human-voice