Детальный транскрипт: Эндрю Нг о состоянии ИИ-агентов | LangChain Interrupt
Дмитрий Жечков (https://t.me/llm_notes)Ссылка на интервью: https://www.youtube.com/watch?v=4pYzYmSdSH4
Введение
Ведущий: Я очень взволнован этой следующей секцией. Мы проведем беседу у камина с Эндрю Нгом. Эндрю, вероятно, не нуждается в представлении для большинства людей здесь. Я думаю, многие из вас проходили его курсы на Coursera или по глубокому обучению. Но Эндрю также был важной частью истории LangChain. Я встретил Эндрю чуть более двух лет назад на конференции, когда мы начали говорить о LangChain, и он любезно пригласил нас создать курс по LangChain с Deep Learning.AI. Думаю, это был второй или третий курс, который они когда-либо делали, и я знаю, что многие люди здесь, вероятно, смотрели этот курс или начали изучать LangChain благодаря этому курсу. Итак, Эндрю был огромной частью путешествия LangChain, и я очень рад приветствовать его на сцене для беседы у камина.
Эндрю Нг: Кстати, Харрисон был действительно добр. Я думаю, Харрисон и его команда преподали уже шесть коротких курсов на Deep Learning.AI, и по нашим метрикам Net Promoter Score курсы Харрисона входят в число наших самых высоко оцененных. Так что идите и проходите все курсы Харрисона. Я думаю, недавний курс по LangGraph содержал самое ясное объяснение множества концепций агентов, которое я видел. Они определенно помогли сделать наши курсы и объяснения лучше. Спасибо вам за это.
О концепции "агентности" (Agentic)
Харрисон: Вы, очевидно, затрагивали и думали о многих вещах в этой индустрии, но одна из ваших точек зрения, которую я часто цитирую, - это ваш взгляд на обсуждение "агентности" приложения, а не того, является ли что-то агентом. Поскольку мы сейчас находимся на конференции агентов, возможно, нам следует переименовать ее в "агентную" конференцию. Не могли бы вы прояснить это?
Эндрю Нг: Я помню, что Харрисон и я выступали на конференции более года назад, и в то время мы оба пытались убедить других людей, что агенты - это реальная вещь, и мы должны обращать на это внимание. Это было до того, как, думаю, в середине лета прошлого года, куча маркетологов завладела термином "агентный" и начала клеить эту наклейку везде.
Отвечая на вопрос Харрисона, я думаю, около полутора лет назад я видел, что многие люди спорят: "Это агент или нет?", разные аргументы. "Действительно ли это автономно или не агент?" И я чувствовал, что хорошо иметь такой спор, но мы добьемся большего успеха как сообщество, если просто скажем, что есть степени того, насколько что-то является агентным.
Если вы хотите построить агентную систему с небольшой автономией или большой автономией - все в порядке. Нет необходимости тратить время на споры о том, является ли это действительно агентом. Давайте просто назовем все эти вещи агентными системами с разными степенями автономии. И я думаю, это действительно сработало.
Текущее состояние разработки агентов
Харрисон: Где на этом спектре от небольшой автономии до большой автономии вы видите людей, строящих сегодня?
Эндрю Нг: Моя команда регулярно использует LangGraph для наших самых сложных проблем со сложными потоками и так далее. Я также вижу множество бизнес-возможностей, которые, честно говоря, представляют собой довольно линейные рабочие процессы или линейные с лишь случайными боковыми ветвями.
Во многих бизнесах есть возможности, где прямо сейчас у нас есть люди, которые смотрят на форму на веб-сайте, делают веб-поиск, проверяют базу данных, чтобы увидеть, есть ли проблема соответствия или если есть кто-то, кому мы не должны продавать определенные вещи. И это своего рода копирование-вставка, может быть, еще один веб-поиск, вставка в другую форму.
В бизнес-процессах на самом деле много довольно линейных рабочих процессов или линейных с очень маленькими циклами и случайными ветвлениями, обычно обозначающими сбой, потому что они отклоняют этот рабочий процесс.
Одна проблема, которую я вижу у бизнесов, заключается в том, что все еще довольно сложно посмотреть на то, что делается в вашем бизнесе, и выяснить, как превратить это в агентный рабочий процесс. Какова должна быть детализация, с которой вы должны разбить это на микрозадачи? И после того, как вы построите свой первоначальный прототип, если он работает недостаточно хорошо, над какими из этих шагов вы работаете для улучшения производительности?
Весь этот набор навыков о том, как посмотреть на кучу вещей, которые делают люди, разбить их на последовательные шаги с небольшим количеством ветвлений, как внедрить оценки - все эти навыки все еще слишком редки.
Ключевые навыки для разработчиков агентов
Харрисон: Какие навыки, по вашему мнению, должны освоить разработчики агентов?
Эндрю Нг: Это хороший вопрос, и я хотел бы знать хороший ответ на него. Я много думал об этом в последнее время. Думаю, большая часть проблемы в том, что если у вас есть бизнес-процесс, рабочий процесс, у вас часто есть люди в отделах соответствия, юридическом, HR, выполняющие эти шаги. Как вы внедряете инфраструктуру либо через интеграцию типа LangGraph, либо посмотрим, поможет ли MCP с некоторыми из этих вещей, чтобы принимать данные, а затем как вы подсказываете или обрабатываете и выполняете множественные шаги для построения этой сквозной системы?
Одна вещь, которую я вижу часто, - это внедрение правильной структуры оценки не только для понимания производительности общей системы, но и для отслеживания отдельных шагов, чтобы вы могли сосредоточиться на том, какой один шаг сломан, какая одна подсказка сломана для работы.
Я обнаружил, что многие команды, вероятно, ждут дольше, чем следует, просто используя человеческие оценки, где каждый раз, когда вы что-то меняете, вы сидите и смотрите на кучу выходных данных. Я вижу, что большинство команд, вероятно, медленнее внедряют систематические оценки.
Но я обнаружил, что наличие правильных инстинктов для того, что делать дальше в проекте, все еще действительно сложно. Опытные команды, команды, которые все еще изучают эти навыки, часто идут по слепым переулкам, где вы тратите несколько месяцев, пытаясь улучшить один компонент. Более опытная команда скажет: "Знаете что, я не думаю, что это когда-либо можно заставить работать. Просто найдите другой способ обойти эту проблему."
Инструменты как "кубики Lego"
Эндрю Нг: За последние пару лет компании AI-инструментов создали удивительный набор AI-инструментов, включая такие инструменты, как LangGraph, но также идеи о том, как думать о RAG, как думать о построении чат-ботов, множество различных способов подхода к памяти, как строить оценки, как строить ограждения.
Одна картина, которую я часто имею в голове, - это если у вас есть только фиолетовые кубики Lego, вы не можете построить много интересных вещей. Но я думаю об этих инструментах как о кубиках Lego. И чем больше у вас инструментов, тем больше у вас не только фиолетовых кубиков Lego, но и красных, черных, желтых, зеленых. И по мере того, как вы получаете больше кубиков Lego разных цветов и форм, вы можете очень быстро собирать их в действительно крутые вещи.
Многие из этих инструментов - как разные типы кубиков Lego, и когда вы пытаетесь что-то построить, иногда вам нужен тот правильный извилистый кубик странной формы, и некоторые люди знают его и могут подключить его и просто выполнить работу.
Недооцененные инструменты и технологии
Харрисон: Какие кубики Lego недооценены прямо сейчас?
Эндрю Нг: Хотя люди говорят об оценках, по какой-то причине люди их не делают. Я думаю, это потому, что люди часто думают о написании оценок как об этой огромной вещи, которую вы должны сделать. Я думаю об оценках как о чем-то, что я собираюсь быстро собрать за 20 минут, и это не так хорошо, но это начинает дополнять мои человеческие глазные оценки.
Часто происходит то, что я построю систему, и есть одна проблема, где я продолжаю получать регрессию. Я думал, что заставил это работать, потом оно ломается. Тогда я кодирую очень простую оценку, может быть, с пятью входными примерами и каким-то очень простым LLM-судьей, чтобы просто проверить эту одну регрессию.
Голосовые приложения
Одна вещь, о которой люди много говорили, но которая, я думаю, так недооценена, - это голосовой стек. Это одна из вещей, которой я действительно очень взволнован - голосовые приложения. Многие мои друзья очень взволнованы голосовыми приложениями. Я вижу кучу крупных предприятий, действительно взволнованных голосовыми приложениями.
По какой-то причине, хотя есть некоторые разработчики в этом сообществе, занимающиеся голосом, количество внимания разработчиков к приложениям голосового стека намного меньше, чем важность крупных предприятий, которую я вижу.
Оказывается, что текстовая подсказка на входе довольно пугающая для многих приложений. Мы можем пойти к пользователю и сказать: "Скажите мне, что вы думаете. Вот блок текстовой подсказки. Напишите мне кучу текста." Это на самом деле очень пугающе для пользователей. Люди могут использовать backspace, поэтому люди просто медленнее отвечают через текст, тогда как для голоса время идет вперед, вы просто должны продолжать говорить.
MCP (Model Context Protocol)
Харрисон: Как вы видите, что MCP трансформирует то, как люди строят приложения?
Эндрю Нг: Я думаю, это действительно захватывающе. Этим утром мы выпустили с Anthropic короткий курс по MCP. Я видел много материала в интернете по MCP, который я считал довольно запутанным. Поэтому, когда мы собрались с Anthropic, мы сказали: "Давайте создадим действительно хороший короткий курс по MCP, который объясняет это ясно."
Я думаю, MCP фантастичен. Я думаю, это был очень ясный пробел на рынке, и то, что OpenAI также принял его, говорит о важности этого.
MCP делает намного проще для агентов, но, честно говоря, я думаю, и для других типов программного обеспечения подключаться к различным типам данных. Когда я использую LLM сам или когда я строю приложения, честно говоря, для многих из нас мы тратим так много времени на инфраструктуру, на интеграции данных, чтобы получить контекст для LLM, чтобы заставить его делать что-то.
AI, особенно модели рассуждения, довольно чертовски умны. Они могут делать много вещей, когда им дан правильный контекст. Но я обнаружил, что я и моя команда тратим много времени на работу с инфраструктурой, на интеграции данных, чтобы получить контекст для LLM, чтобы заставить его делать что-то, что часто довольно разумно, когда у него есть правильный входной контекст.
Поэтому MCP, я думаю, является фантастическим способом попытаться стандартизировать интерфейс ко многим инструментам или API-вызовам, а также к источникам данных. Это немного похоже на дикий запад. Многие MCP-серверы, которые вы найдете в интернете, не работают, и системы аутентификации довольно неуклюжие. Даже для очень крупных компаний с MCP-серверами немного неуклюже. Не ясно, работает ли токен аутентификации полностью и истекает ли срок его действия.
Я думаю, сам протокол MCP также находится на раннем этапе. MCP дает длинный список доступных ресурсов. В конечном итоге, я думаю, нам понадобится какой-то более иерархический механизм обнаружения. Представьте, что вы хотите построить что-то - я не знаю, будет ли когда-либо MCP-интерфейс к LangGraph, но у LangGraph так много API-вызовов, что вы просто не можете иметь длинный список всего под солнцем для агента, чтобы разобраться.
Поэтому я думаю, что MCP - это действительно фантастический первый шаг. Определенно рекомендую вам изучить его. Это, вероятно, облегчит вашу жизнь, если вы найдете хорошие реализации MCP-серверов, чтобы помочь с некоторыми интеграциями данных. И я думаю, это будет важно - эта идея о том, что когда у вас есть n моделей или n агентов и m источников данных, это не должно быть n*m усилий для выполнения всей интеграции, это должно быть n+m. И я думаю, MCP - это фантастический первый шаг к такому типу интеграции данных.
Мультиагентные системы
Харрисон: Как вы видите развитие мультиагентных или агент-к-агент систем?
Эндрю Нг: Я думаю, агентный ИИ все еще настолько ранний, что большинство из нас, включая меня, с трудом заставляют даже наш код работать. Поэтому заставить моего агента работать с чужим агентом кажется требованием двух чудес.
Я вижу, что когда одна команда строит мультиагентную систему, это часто работает, потому что мы строим кучу агентов, они работают сами с собой, мы понимаем протоколы - это работает. Но прямо сейчас, по крайней мере в этот момент времени, и, возможно, я ошибаюсь, количество примеров, которые я вижу, когда агент одной команды или коллекция агентов успешно взаимодействует с совершенно другой командой агентов или коллекцией агентов... Я думаю, мы немного рано для этого. Я уверен, что мы доберемся туда, но я лично не вижу реальных историй успеха этого пока.
Vibe Coding (Программирование по интуиции)
Харрисон: Как вы думаете о vibe coding? Это другой навык, чем раньше?
Эндрю Нг: Я думаю, многие из нас кодят, едва глядя на код, и я думаю, это фантастическая вещь. Я думаю, это неудачно, что это называется vibe coding, потому что это вводит в заблуждение многих людей, заставляя думать: "Просто следуй интуиции, принимай это, отклоняй то." И, честно говоря, когда я кодирую целый день с помощью vibe coding или с помощью ИИ-ассистента кодирования, я, честно говоря, истощен к концу дня. Это глубоко интеллектуальное упражнение.
Поэтому я думаю, название неудачное, но феномен реален, и он набирает обороты, и это здорово.
За последний год несколько человек советовали другим не изучать программирование на основании того, что ИИ автоматизирует кодирование. Я думаю, мы оглянемся на это как на один из худших карьерных советов, когда-либо данных, потому что за последние многие десятилетия, по мере того как кодирование становилось проще, больше людей начинали кодить.
Оказывается, когда мы перешли от перфокарт к клавиатурам и терминалам, или когда программирование перешло от языка ассемблера к COBOL, были люди, которые спорили тогда: "У нас есть COBOL, это так легко, нам больше не нужны программисты." И, очевидно, когда это стало проще, больше людей научились кодить.
С ИИ-ассистентами кодирования намного больше людей должны кодить. Одним из самых важных навыков будущего для разработчиков и не-разработчиков является способность точно сказать компьютеру, что вы хотите, чтобы он сделал это для вас.
Понимание на некотором уровне того, как работает компьютер, позволяет вам подсказывать или инструктировать компьютер гораздо более точно, поэтому я все еще пытаюсь советовать всем изучить один язык программирования, изучить Python или что-то еще.
Лично я намного более сильный Python-разработчик, чем, скажем, JavaScript. Но с ИИ-ассистированным кодированием я теперь пишу намного больше JavaScript и TypeScript кода, чем когда-либо раньше. Но даже при отладке JavaScript кода, который что-то другое написало для меня, который я не писал своими пальцами, действительно понимание того, каковы случаи ошибок, что это означает, было действительно важно для меня, чтобы писать и отлаживать мой JavaScript код.
Советы для стартапов
Харрисон: Для людей в аудитории, которые, возможно, думают о создании стартапа, какой совет вы бы им дали?
Эндрю Нг: AI Fund - это венчурная студия. Мы строим компании и исключительно инвестируем в компании, которые мы со-основываем. Оглядываясь назад на AI Fund, извлеченные уроки, номер один, я бы сказал, номер один предиктор успеха стартапа - это скорость.
Я знаю, мы в Силиконовой долине, но я вижу много людей, которые никогда еще не видели скорость, с которой опытная команда может выполнять. И если вы никогда не видели этого раньше, это просто намного быстрее, чем что-либо, что более медленные бизнесы знают, как делать.
Номер два предиктор, также очень важный, - это техническое знание. Оказывается, если мы посмотрим на навыки, необходимые для построения стартапа, есть некоторые вещи, такие как маркетинг, продажи, ценообразование - все это важно, но это знание существует уже давно. Поэтому оно немного более распространено.
Но знание, которое действительно редко, - это то, как технология на самом деле работает, потому что технология развивается так быстро. У меня глубокое уважение к людям, занимающимся выходом на рынок. Ценообразование сложно, маркетинг сложен, позиционирование сложно, но это знание более распространено, а самый редкий ресурс - это кто-то, кто действительно понимает, как работает технология.
Поэтому AI Fund, мы действительно любим работать с глубоко техническими людьми, которые имеют хорошие инстинкты или понимают: "Делай это, не делай то. Это позволяет тебе идти в два раза быстрее." А затем многие бизнес-вещи - это знание очень важно, но его обычно легче выяснить.
Заключение
Харрисон: Отлично, это отличный совет для создания чего-то. Мы собираемся завершить это. Сейчас у нас будет перерыв, но прежде чем мы это сделаем, пожалуйста, присоединяйтесь ко мне в том, чтобы поаплодировать Эндрю и поблагодарить его.
Этот транскрипт представляет собой беседу между Харрисоном (основателем LangChain) и Эндрю Нгом (известным исследователем ИИ и основателем AI Fund) на конференции LangChain, посвященной текущему состоянию ИИ-агентов и практическим аспектам их разработки.