Experience Grounds Language, Bisk et al.

Experience Grounds Language, Bisk et al.

Summary by Vladislav Lialin

arxiv.org/abs/2004.10151

автоматическое саммари


Философская работа на тему NLP. И довольно интересная. Мы сейчас все свыклись с парадигмой pre-train/fune-tune да и вообще с самой идеей тренировки моделей для решения задач NLP. Но так было не всегда. Авторы предлагают разделить решение задачи NLP на несколько шагов (World Scopes) и одновременно спекулируют о будущем области.


Шаги следующие:


WS1. Corpus (our past)

Поиск методов нумерикализации смыслов слов, методы матричного разложения, локальный контекст (word2vec) vs глобальный (LDA)


WS2: Internet (our present)

Быстрый рост размера датасетов (через майнинг интернета) и моделей, transferable representations, мультиязычные модели

https://t.me/weirdreparametrizationtrick


WS3. Perception

Подключение аудио и видео модальностей, граундинг языка. От себя добавлю, что эта область пока что развивается не очень быстро но , вполне вероятно что это будет трендом следующих 2-3 лет.


WS4. Embodiment

Граундинг языка через взаимодействие с миром, то есть модельки начинают не только пассивно наблюдать, но и принимать действия. Такой RL, но работающий.


WS5. Social

Language that Does Something. Такая (возможно) AI-complete задача в которой модели начинают обретает theory of mind (я думаю, что ты думаешь), что позволяет не только взаимодействовать с миром, но и планировать в нём. В общем роботы будут предсказывать ваши действия лучше, чем вы и манипулировать всеми 😅

In order to talk about concepts, we must understand the importance of mental models... we set up a model of the world which serves as a framework in which to organize our thoughts. We abstract the presence of particular objects, having properties, and entering into events and relationships. (Terry Winograd - 1971)


Мне в общем такое разделение кажется и ± аккуратным и ± реалистичнным (насколько возможно). Такие этапы развития AI от SVD до мирового превосохдства, разложенные в текущих представлениях о том, какие методы у нас есть и что они потенциально могут сделать. Они вовсе не означают, что в начале мы объединим CV и NLP, потом заработает RL, а потом у нас будет WestWorld. Но градация сложности адекванта. Ну и если вы сейчас только в первом году свего PhD (как я), то посмотрите в сторону multimodal моделей.


Report Page