OpenAI представила новый инструмент ИИ для чтения текста и воспроизведения голоса

OpenAI представила новый инструмент ИИ для чтения текста и воспроизведения голоса

Bloomberg

Стартап решил не распространять эту функцию из соображений безопасности.

OpenAI делится ранними результатами тестирования функции, которая может читать тексты вслух уверенным человеческим голосом, что открывает новые горизонты в развитии искусственного интеллекта, но при этом повышает риск распространения фейковых данных.

Компания поделилась первыми результатами тестирования модели преобразования текста в речь под названием Voice Engine, которая была предоставлена примерно 10 разработчикам, по словам представителя компании. OpenAI решила отказаться от более широкого распространения этой функции, о которой она сообщила журналистам в начале этого месяца.

Представитель OpenAI сообщил, что компания решила сократить выпуск после получения отзывов от заинтересованных сторон, в том числе политиков, отраслевых экспертов, преподавателей и творческих работников. Изначально компания планировала выпустить инструмент для 100 разработчиков через процесс подачи заявок, как сообщалось ранее на пресс-конференции.

"Мы понимаем, что генерация речи, похожей на голоса людей, сопряжена с серьезными рисками, которые особенно актуальны в год выборов", - написала компания в блоге в пятницу. "Мы взаимодействуем с американскими и международными партнерами из правительственных структур, СМИ, индустрии развлечений, образования, гражданского общества и других сфер, чтобы обеспечить учет их мнений в процессе разработки".

Другие технологии ИИ уже использовались для подделки голосов в некоторых контекстах. В январе фальшивый, но реалистично звучащий телефонный звонок якобы от президента Джо Байдена призывал жителей Нью-Гэмпшира не голосовать на праймериз - событие, которое вызвало опасения по поводу ИИ в преддверии важнейших выборов по всему миру.

В отличие от предыдущих попыток OpenAI по созданию аудиоконтента, Voice Engine может создавать речь, которая звучит подобно отдельным людям, с их специфическим ритмом и интонациями. Чтобы воссоздать голос человека, программе достаточно 15 секунд аудиозаписи речи.

Во время демонстрации инструмента сотрудники Bloomberg прослушали ролик, в котором исполнительный директор OpenAI Сэм Альтман кратко объяснял принцип работы технологии голосом, который был неотличим от его настоящей речи, но был полностью сгенерирован ИИ.

"При правильной настройке звука это практически человеческий голос", - говорит Джефф Харрис, руководитель отдела продуктов OpenAI. "Это довольно впечатляющее техническое качество". Однако, по словам Харриса, "очевидно, что способность очень точно имитировать человеческую речь сопряжена с большими рисками".

Сэм Альтман
Фотограф: Крис Рэтклифф/Bloomberg

Институт Нейронаук Нормана Принса (NPNI), один из партнеров OpenAI по разработке инструмента, использует технологию для помощи пациентам в восстановлении голоса. Например, инструмент был использован для восстановления голоса молодой пациентки, потерявшей способность четко говорить из-за опухоли мозга, путем воспроизведения ее речи из более ранней записи для школьного проекта, говорится в блоге компании.

Пользовательская модель воспроизведения речи OpenAI также может переводить генерируемый звук на разные языки. Это делает ее полезной для компаний, работающих в сфере аудио, таких как Spotify Technology SA. Spotify уже использовала эту технологию в своей собственной пилотной программе для перевода подкастов популярных ведущих, таких как Лекс Фридман. OpenAI также рассказала о других полезных областях применения технологии, например, о создании более широкого диапазона голосов для образовательного контента для детей.

В рамках программы тестирования OpenAI требует от своих партнеров согласия с политикой использования, получения согласия от оригинального диктора перед использованием его голоса, а также информирования слушателей о том, что голоса, которые они слышат, сгенерированы ИИ. Компания также устанавливает неслышимый водяной знак на аудио, чтобы можно было отличить, был ли тот или иной звук создан ее инструментом.

Прежде чем принять решение о более широком распространении этой функции, OpenAI заявила, что обратится к сторонним экспертам за отзывами. "Важно, чтобы люди во всем мире понимали, куда движется эта технология, независимо от того, будем ли мы в итоге сами широко ее внедрять или нет", - говорится в сообщении компании в блоге.

OpenAI также написала, что надеется, что предварительная версия ее программного обеспечения "мотивирует необходимость повышения устойчивости общества" к вызовам, создаваемым более продвинутыми технологиями ИИ. Например, компания призвала банки постепенно отказаться от голосовой аутентификации как меры безопасности для доступа к банковским счетам и конфиденциальной информации. Кроме того, компания стремится к просвещению общественности относительно ложного контента, создаваемого ИИ, а также к разработке методов определения того, является ли аудиоконтент реальным или сгенерированным ИИ.

Report Page