Штучны інтэлект можа імітаваць голас чалавека. Гэтым ужо карыстаюцца махляры.
cybulinkaМахляры ўсё часьцей бяруць на ўзбраеньне штучны інтэлект, здольны імітаваць голас любога чалавека, каб выманіць з ахвяры грошы. Звычайна ў такіх мэтах выкарыстоўваюць генэратыўныя мадэлі, прыдатныя для стварэньня любога мэдыякантэнту на запыт карыстальніка. Такой тэхналёгіяй можа скарыстацца кожны ахвочы, і гэта пужае.
Першапачаткова мэдыйную папулярнасьць набылі нэўрасеткі, якія былі арыентаваныя на стварэньне відэа з заменай твару (deepfake). І адмыслоўцы ўжо тады папярэджвалі, што разьвіцьцём падобных тэхналёгій могуць скарыстацца махляры. Аднак зрабіць пераканаўчае фэйкавае відэа аказалася не так проста: трэба шмат часу, магутны кампутар і веды. У адваротным выпадку працу нэўрасеткі будзе бачна. Дастаткова ўзгадаць відэа 2022 году, дзе Ўладзімер Зяленскі "заклікае скласьці зброю" (сынтэзаваны голас пакіну без камэнтароў), альбо неадназначную рэкляму з Эмай Ўотсан, якая разьляцелася па сацсетках. З іншага боку ў TikTok ёсьць праект DeepTomCruise, дзе па відэа цяжка здагадацца, што глядзіш на працу штучнага інтэлекту.
Але варта адзначыць, што мужчына, які прыкідваецца знакамітым акторам, і без нэўрасетак мае шмат агульных рысаў з Томам Крузам.
А вось імітаваць толькі голас чалавека аказалася куды прасьцей. Напэўна вы ўжо чулі знакаміты хіт канцу 90-х Barbie Girl у выкананьні амэрыканскага кантры-сьпевака Джоні Кэшу, альбо кавэр ад Лэдзі Гагі на мэлянхалічную песьню Эймі Ўайнхаўс Back to Black. Пагадзіцеся, гучыць даволі спраўна. На YouTube і ў TikTok шмат падобных відэа рознай якасьці.
Насамрэч, такія «кавэры» можа зрабіць кожны ахвочы з дапамогай, напрыклад, SO-VITS-SVC. Спатрэбіцца толькі шмат часу, каб разабрацца з усталяваньнем і навучаньнем мадэлі. Істотна скароціць час чаканьня вынікаў выкарыстаньне ўжо гатовых мадэляў галасоў вядомых выканаўцаў.
Але калі пачынаць з нуля, то спатрэбіцца шмат кароткіх узораў арыгінальнага голасу з інтэрвію альбо з песень, на якіх і будзе вучыцца штучны інтэлект. Тут галоўнае, каб узоры былі разнастайнымі і найбольш шырока паказвалі дыяпазон гукаў. У такім выпадку 30-50 гадзін будзе дастаткова для атрыманьня пераканаўчай мадэлі, якая не толькі сьпяе, але і скажа ўсё, што папросяць.
Тут можна падумаць, што ў зоне рызыкі махлярскіх атак знаходзяцца толькі медыйыя людзі, бо не кожны ж чалавек раздае інтэрвію, альбо запісвае песьні. Так, але калі паглядзець на кантэнт сацыяльных сетак, то можна знайсьці шмат кароткіх відэа, у тым жа тыктоку, якія проста ідэальна пасуюць для навучаньня нэўрасетак.
Спачатку вы распавядаеце нешта ў сваім блёгу, а потым ужо нехта прымушае «вас», альбо вашага знаёмага чалавека гаварыць што заўгодна. Нешта падобнае адбылося з Джэніфэр ДэСтэфана, якой патэлефанавала «дачка» і паведаміла, што яе скралі, а за вяртаньне трэба заплаціць.
Аднак як бы добра махляры не навучалі нэўрасеткі імітаваць чыйсьці голас, падман можна лёгка выкрыць проста перазваніўшы чалавеку, з якім вы толькі што размаўлялі. Гэта пакуль самы надзейны спосаб выявіць падман.