AI

1) Мы уже научились делать умных чат-ботов, которых хуй отличишь от человека (Тест Тьюринга был пройден в 2015 году)

2) Мы также научились преобразовывать текст в звук с максимальной реалистичностью (2017)

Сотрудники DeepMind (компания, известная своим ботом для игры в го, ныне принадлежащая Google) рассказали в своей статье про генерирование аудио.

Если коротко, то исследователи сделали авторегрессионную полносверточную модель WaveNet на основе предыдущих подходов к генерированию изображений (PixelRNN и PixelCNN).

Сеть обучалась end-to-end: на вход текст, на выход аудио. Результат превосходный, разница с человеком сократилась на 50 %.

Основной недостаток сети — низкая производительность, потому что из-за авторегрессии звуки генерируются последовательно, на создание одной секунды аудио уходит около 1—2 минут.

Английский: пример

Если убрать зависимость сети от входного текста и оставить только зависимость от предыдущей сгенерированной фонемы, то сеть будет генерировать подобные человеческому языку фонемы, но бессмысленные.

Генерирование голоса: пример

Эту же модель можно применить не только к речи, но и, например, к созданию музыки. Пример аудио, сгенерированного моделью, которую обучили на датасете игры на пианино (опять же без всякой зависимости от входных данных).

Пример пианино

Подробности — в статье.

3) Мы научились анимировать губы и лицо говорящего человека

Синтезируя Обаму: синхронизация движения губ с аудио (2017)

Университет Вашингтона проделал серьезную работу по генерированию движения губ бывшего президента США Обамы. Выбор пал на него в том числе из-за огромного количества записей его выступления в сети (17 часов HD-видео).

Одной сетью обойтись не удалось, получалось слишком много артефактов. Поэтому авторы статьи сделали несколько костылей (или трюков, если угодно) по улучшению текстуры и таймингам.

4) Мы научились создавать обьёмные модели по фотографиям (а с ручной доработкой художниками эти модели можно довести до совершенства)

5) В зрении самый большой прорыв: Machine learning уже видит ГОРАЗДО лучше человека

Быстрее реагирует на появление визуальной информации, лучше читает и распознаёт образы; может в том числе видеть в инфракрасном и ультрафиолетовом (и даже рентгеновском) диапазонах, если позволяют датчики. Уже сейчас такие системы - используются "вместо глаз" в астрофизике и военном деле

6) ... И слышит тоже неплохо (хотя пока кривовато и с задержками, как мы можем наблюдать во всяких Сири и Алисах)

7) ML прекрасно понимает эмоции и настроение

И это вообще было чуть ли не самое первое, что мы научились. Я ещё в универе писал лабораторную по эмоциональному анализу текста. По задаче, нужно было находить в твиттере агрессивные посты, чтобы детектить потенциальных экстремистов

8) Уже очень давно японцы сделали "вокалоидов" - программы, которые сочиняют музыку и тексты, озвучивают их, а потом ещё и визуализируют хореографию ГОЛОГРАММОЙ:

Вокалоид Мику Хацунэ вообще собирает огромные концертные залы)

AI

AI