AI
1) Мы уже научились делать умных чат-ботов, которых хуй отличишь от человека (Тест Тьюринга был пройден в 2015 году)
2) Мы также научились преобразовывать текст в звук с максимальной реалистичностью (2017)
Сотрудники DeepMind (компания, известная своим ботом для игры в го, ныне принадлежащая Google) рассказали в своей статье про генерирование аудио.
Если коротко, то исследователи сделали авторегрессионную полносверточную модель WaveNet на основе предыдущих подходов к генерированию изображений (PixelRNN и PixelCNN).
Сеть обучалась end-to-end: на вход текст, на выход аудио. Результат превосходный, разница с человеком сократилась на 50 %.
Основной недостаток сети — низкая производительность, потому что из-за авторегрессии звуки генерируются последовательно, на создание одной секунды аудио уходит около 1—2 минут.
Английский: пример
Если убрать зависимость сети от входного текста и оставить только зависимость от предыдущей сгенерированной фонемы, то сеть будет генерировать подобные человеческому языку фонемы, но бессмысленные.
Генерирование голоса: пример
Эту же модель можно применить не только к речи, но и, например, к созданию музыки. Пример аудио, сгенерированного моделью, которую обучили на датасете игры на пианино (опять же без всякой зависимости от входных данных).
Подробности — в статье.
3) Мы научились анимировать губы и лицо говорящего человека
Синтезируя Обаму: синхронизация движения губ с аудио (2017)
Университет Вашингтона проделал серьезную работу по генерированию движения губ бывшего президента США Обамы. Выбор пал на него в том числе из-за огромного количества записей его выступления в сети (17 часов HD-видео).
Одной сетью обойтись не удалось, получалось слишком много артефактов. Поэтому авторы статьи сделали несколько костылей (или трюков, если угодно) по улучшению текстуры и таймингам.
4) Мы научились создавать обьёмные модели по фотографиям (а с ручной доработкой художниками эти модели можно довести до совершенства)
5) В зрении самый большой прорыв: Machine learning уже видит ГОРАЗДО лучше человека
Быстрее реагирует на появление визуальной информации, лучше читает и распознаёт образы; может в том числе видеть в инфракрасном и ультрафиолетовом (и даже рентгеновском) диапазонах, если позволяют датчики. Уже сейчас такие системы - используются "вместо глаз" в астрофизике и военном деле
6) ... И слышит тоже неплохо (хотя пока кривовато и с задержками, как мы можем наблюдать во всяких Сири и Алисах)
7) ML прекрасно понимает эмоции и настроение
И это вообще было чуть ли не самое первое, что мы научились. Я ещё в универе писал лабораторную по эмоциональному анализу текста. По задаче, нужно было находить в твиттере агрессивные посты, чтобы детектить потенциальных экстремистов
8) Уже очень давно японцы сделали "вокалоидов" - программы, которые сочиняют музыку и тексты, озвучивают их, а потом ещё и визуализируют хореографию ГОЛОГРАММОЙ:
Вокалоид Мику Хацунэ вообще собирает огромные концертные залы)