Конспект статьи «‎Talking About Large Language Models»

Конспект статьи «‎Talking About Large Language Models»


@c0mmit

Talking About Large Language Models

  1. Introduction. Тут автор рассказывает про то, почему успехи языковых моделей “unreasonable” (удивляют, поражают). Причины три:

• Scaling Law. Результаты моделей на бенчмарках (разные тесты, на которых измеряют эффективность сети, например GLUE) растут с увеличением датасета и размера модели.

• Qualitative leaps. Результаты растут не линейно, а скачками.

• Next token prediction. Многие задачи, для решения которых вроде бы нужен разум человека, можно свести к задаче предсказания следующего токена (слова).

2. What LLMs Really Do. На примерах разбирается основной принцип генеративных языковых моделей типа GPT. Генерация статистически вероятных продолжений последовательностей слов.

3. LLMs and the Intentional Stance. Люди часто прибегают к антропормфизации (очеловечиванию) разных объектов. Dennet назвал это Intentional Stance. Не знаю как правильно перевести термин, может кто подскажет. Суть в том, что это такая стратегия интерпретации поведения субъекта (человека, животного, артефакта, чего угодно), рассматривая его как рационального агента, который управляет своим "выбором" "действиями" на основе своих "убеждений" и "желаний". И это помогает в жизни, потому что используется для упрощения сложных процессов, когда нам безразлично как работают системы внутри. Например, мы говорим, “мой телефон думает, что мы в другом месте.” Но мы не подразумеваем, что телефон действительно думает и размышляет о том, где мы находимся. Однако в случае с LLM возникает соблазн думать иначе.

4. Humans and LLMs Compared. Разбирается и сравнивается одна и та же пара вопрос-ответ с человеком и с ботом. Вопрос – Какая страна находится к югу от Руанды. Ответ – Это Бурунди. Ответы одинаковые, но отличие в том, что человек обладает набором знаний, убеждений, контекстом ситуации. Сам вопрос может их изменить. И у человека, задающего вопрос communicative intent (коммуникативное намерение). 

5. Do LLMs Really Know Anything? Здесь автор раскрывает свой аргумент. LLM не обладают именно “знанием” в привычном понимании, так как они просто предсказывают наиболее вероятные слова при условии предыдущих. А знать, что после Twinkle, twinkle обычно идет слово little (это из английской детской песни twinkle, twinkle little start), не то же самое, что знать что twinkle, twinkle маленькая. Если говорить про убеждения, то LLM даже не знают говорят они правду или нет. И их знания статичны и завязаны на момент их обучения.

6. What About Emergence? Последние LLM, могут успешно отвечать на вопросы, которых не было в обучающей выборку. То есть получается, можно сказать, что они выучивают паттерны и отвечают на вопросы на основе своих внутренних знаний? Тут несколько пунктов. Сама по себе LLM, задача которой в продолжении последовательности, по определению не может иметь коммуникационного намерения. А в контексте знаний, LLM – это скорее энциклопедия. К тому же, у нее нет по сути доступа к миру, о котором она отвечает. 

7. External Information Sources. А что если дать модели доступ в мир, например через WikiPedia или другой инструмент? Тогда она сможет обновлять свои знания и оценивать достоверность своих ответов. Тут мы уже говорим не о самой модели, а о целой системе. Но даже в таком случае, между системой и человеком целая пропасть. Изменения знаний и убеждений, происходящие в человеке – это отражение их природы как животного, использующего язык, живущего в общем мире с сообществом других пользователей языка.

8. Vision-Language Models. Даже в рамках полноценной диалоговой системы LLM все еще не имеет communicative intent (коммуникационное намерение) или the capacity to form beliefs (способность формировать убеждения). А что если встроить LLM в более сложную архитектуру? Например, в Vision-Language Model, чтобы модель учитывала не только текстовую информацию.

VLM, такие как VilBERT (Lu et al., 2019) и Flamingo (Alayrac et al., 2022), сочетают в себе языковую модель с энкодером изображения и обучаются на корпусе мультимодальных пар текст-изображение. Это позволяет им предсказывать, как будет продолжаться данная последовательность слов в контексте данного изображения. VLM могут использоваться для визуального вопросно-ответного общения или для диалога о предоставленном пользователем изображении.

А что если в такой модели LLM будет строить гипотезы, затем их анализировать на основе изображения, чтобы оценить верность гипотезы и файнтюнить себя? Ответ: В контексте VLM текстовый ответ на основе изображения, это скорее просто корреляция, чем причинно-следственная связь.

То, настолько эти аргументы применимы к моделям зависит от того, как устроены системы на основе LLM. Однако, если механизм их работы отличается от мышления людей, использующих язык, то не очень корректно использовать глаголы "знает" и "верит" по отношению к моделям.

9. What About Embodiment?

Люди изменяют свои убеждения и знания, на основе взаимодействия с реальным миром. Что если дать доступ модели в реальный мир с помощью манипуляторов, роборук или полноценных роботов аватаров?

Например, как в статье SayCan, где LLM предсказывала последовательность действий манипулятором для выполнения задачи.

Аргумент в том, что модель все равно учиться просто на текстах, а все многообразие опыта, который может переживать человек в процессе взаимодействия с миром не может быть передано исключительно в таком виде.

10. Can Language Models Reason?

Может ли модель размышлять? Можно привести в пример базовую логику и дедукцию. Кажется, что в такой постановке модель может размышлять. Но если пойти глубже, то это все равно предсказание следующих токенов, а не размышление.

11. Conclusion: Why This Matters.

Проблема не в том, что люди используют термины "знает", "верит" и тп. А в том, что иногда другие люди могут начать ложно ожидать большего поведения, чем такие модели имеют. Возможно, через какое-то время значение слов изменится, либо появятся новые слова для обозначения этих явлений. 

P.S.

Пересказ сделан автором канала commit history



Report Page