Штучны інтэлект можа імітаваць голас чалавека. Гэтым ужо карыстаюцца махляры.

Штучны інтэлект можа імітаваць голас чалавека. Гэтым ужо карыстаюцца махляры.

cybulinka

Махляры ўсё часьцей бяруць на ўзбраеньне штучны інтэлект, здольны імітаваць голас любога чалавека, каб выманіць з ахвяры грошы. Звычайна ў такіх мэтах выкарыстоўваюць генэратыўныя мадэлі, прыдатныя для стварэньня любога мэдыякантэнту на запыт карыстальніка. Такой тэхналёгіяй можа скарыстацца кожны ахвочы, і гэта пужае.

Першапачаткова мэдыйную папулярнасьць набылі нэўрасеткі, якія былі арыентаваныя на стварэньне відэа з заменай твару (deepfake). І адмыслоўцы ўжо тады папярэджвалі, што разьвіцьцём падобных тэхналёгій могуць скарыстацца махляры. Аднак зрабіць пераканаўчае фэйкавае відэа аказалася не так проста: трэба шмат часу, магутны кампутар і веды. У адваротным выпадку працу нэўрасеткі будзе бачна. Дастаткова ўзгадаць відэа 2022 году, дзе Ўладзімер Зяленскі "заклікае скласьці зброю" (сынтэзаваны голас пакіну без камэнтароў), альбо неадназначную рэкляму з Эмай Ўотсан, якая разьляцелася па сацсетках. З іншага боку ў TikTok ёсьць праект DeepTomCruise, дзе па відэа цяжка здагадацца, што глядзіш на працу штучнага інтэлекту.

Але варта адзначыць, што мужчына, які прыкідваецца знакамітым акторам, і без нэўрасетак мае шмат агульных рысаў з Томам Крузам.

А вось імітаваць толькі голас чалавека аказалася куды прасьцей. Напэўна вы ўжо чулі знакаміты хіт канцу 90-х Barbie Girl у выкананьні амэрыканскага кантры-сьпевака Джоні Кэшу, альбо кавэр ад Лэдзі Гагі на мэлянхалічную песьню Эймі Ўайнхаўс Back to Black. Пагадзіцеся, гучыць даволі спраўна. На YouTube і ў TikTok шмат падобных відэа рознай якасьці.

Насамрэч, такія «кавэры» можа зрабіць кожны ахвочы з дапамогай, напрыклад, SO-VITS-SVC. Спатрэбіцца толькі шмат часу, каб разабрацца з усталяваньнем і навучаньнем мадэлі. Істотна скароціць час чаканьня вынікаў выкарыстаньне ўжо гатовых мадэляў галасоў вядомых выканаўцаў.

Але калі пачынаць з нуля, то спатрэбіцца шмат кароткіх узораў арыгінальнага голасу з інтэрвію альбо з песень, на якіх і будзе вучыцца штучны інтэлект. Тут галоўнае, каб узоры былі разнастайнымі і найбольш шырока паказвалі дыяпазон гукаў. У такім выпадку 30-50 гадзін будзе дастаткова для атрыманьня пераканаўчай мадэлі, якая не толькі сьпяе, але і скажа ўсё, што папросяць.

Адзін са шмаптлікіх дапаможнікаў па ўсталяваньню мадэлі so-vits-svc

Тут можна падумаць, што ў зоне рызыкі махлярскіх атак знаходзяцца толькі медыйыя людзі, бо не кожны ж чалавек раздае інтэрвію, альбо запісвае песьні. Так, але калі паглядзець на кантэнт сацыяльных сетак, то можна знайсьці шмат кароткіх відэа, у тым жа тыктоку, якія проста ідэальна пасуюць для навучаньня нэўрасетак.

Спачатку вы распавядаеце нешта ў сваім блёгу, а потым ужо нехта прымушае «вас», альбо вашага знаёмага чалавека гаварыць што заўгодна. Нешта падобнае адбылося з Джэніфэр ДэСтэфана, якой патэлефанавала «дачка» і паведаміла, што яе скралі, а за вяртаньне трэба заплаціць.

Аднак як бы добра махляры не навучалі нэўрасеткі імітаваць чыйсьці голас, падман можна лёгка выкрыць проста перазваніўшы чалавеку, з якім вы толькі што размаўлялі. Гэта пакуль самы надзейны спосаб выявіць падман.

Report Page