Ричард С. Саттон

Ричард С. Саттон

Сергей Шишкин

https://telegra.ph/МЕТАМОДЕЛИРОВАНИЕ-04-18

Четырнадцать декларативных принципов интеллекта, ориентированного на опыт

  1. Все цели и задачи можно хорошо представить себе, как максимизацию установленного значения кумулятивной суммы внешнего полученного одного числа (вознаграждения). «Гипотеза вознаграждения», таким образом, жизнь — это последующая проблема принятия решений, а также как быстрый марковский процесс принятия решений. «обучение — это чувствительное независимое управление»
  2. Главное, что ум делает, — это оценивает состояние и процесс его обновления в каждый момент времени. входом в процесс обновления является обнаружение, действие и состояние (представление). «государство строится»
  3. Все действие реализуется в кратчайший возможный промежуток времени с помощью реактивной, момент за моментом функции политики, отображающей от состояния к действию. все, что выше или в более длительных временных масштабах, предназначено для размышлений о действии, а не для его совершения. «всякое поведение является реактивным»)
  4. Все методы решения задачи решаются в качестве промежуточного результата для каждого состояния конечного кумулятивного вознаграждения, которое за состоянием (функцией следует ценности). Подцели — это высокоценные состояния. «Ценность вознаграждения»
  5. Главное, что делает разум, — это изучает прогностическую модель динамики мира в различных временных масштабах. Эта модель используется для того, чтобы предвидеть результаты (последствия) различных способов поведения, а затем учиться на них, как если бы они произошли на самом деле (планирование)
  6. lОбучение и планирование — это принципиально один и тот же процесс, оперирующий в одном случае реальным опытом, а в другом — смоделированным опытом предсказательной модели мира. «мысль учится на воображаемом опыте»
  7. Все знания о мире можно рассматривать как предсказания опыта. В частности, «знание есть предсказание», все знания можно рассматривать как предсказания результатов расширенных во времени способов поведения, то есть политик с условиями завершения, также известными как «варианты». эти результаты могут быть абстрактными представлениями состояния, если они, в свою очередь, являются предсказаниями опыта
  8. Представления о состоянии, как и всякое знание, должны быть максимально привязаны к опыту. таким образом, байесовская и POMDP-концепции оценки состояния ошибочны
  9. Обучение с разницей во времени нужно не только для вознаграждения, но и для изучения всего, для всего знания о мире. любой момент за моментом сигнал (например, ощущение или переменная состояния) может заменить награду ошибкой временной разницы. «Обучение TD нужно не только для вознаграждения»
  10. Обучение непрерывно, с одними и теми же процессами, происходящими в каждый момент, с изменением только содержания в разное время и на разных уровнях абстракции. «Единый алгоритм обучения»
  11. Данные складываются и вычитаются, чтобы получить общий прогноз или тенденцию к действию. таким образом, функции политики и прогнозирования могут быть в основном линейными в представлении состояния, а обучение ограничено линейными параметрами. это возможно, потому что представление состояния содержит много переменных состояния, отличных от прогнозов, и которые линейно независимы друг от друга. к ним относятся непосредственные нелинейные функции других переменных состояния, а также переменные со своей собственной динамикой (например, для создания внутренних «микростимулов»).
  12. Главное, что делает разум, — это лепка и управление репрезентацией своего состояния. он обнаруживает: а) опции и модели опций, которые вызывают полезные абстрактные переменные состояния и прогнозирующие модели мира, и б) полезные нелинейные, непрогнозирующие переменные состояния. он постоянно оценивает все переменные состояния на предмет полезности, релевантности и степени их обобщения. исследование процесса открытия затруднено вне контекста законченного агента
  13. Обучение само по себе полезно. компромисс между исследованием и эксплуатацией всегда сводится к тому, что «учиться приятно»
  14. Опции не являются структурами данных и не выполняются. они могут существовать только как абстракции. некоторые из этих принципов изложены в радикальных, абсолютистских и редукционистских терминах. Это так и должно быть. в некоторых случаях все же интересны более мягкие варианты принципов (например, удаление слова «все»). кроме того, слова «есть» и «являются» в принципах являются стенографией и упрощением. их следует интерпретировать в смысле марровских «уровней объяснения сложной системы обработки информации». то есть «есть» может быть прочитано как «хорошо мыслится как» или «понимание может быть достигнуто, думая об этом как»)

Полноценного агента можно получить всего за два процесса:

• процесс пошагового обновления состояния и

• политика выбора пошагового действия.

Все остальное имеет эффект только при изменении этих двух. многое можно сделать исключительно с помощью процессов обучения (действующих единообразно, как в принципе 10), прежде чем внедрять планирование. это можно сделать на следующих этапах:

(а) политика и функция ценности могут быть изучены с помощью обычного обучения с подкреплением без использования моделей с использованием переменных текущего состояния

(б) переменные состояния с прогностической интерпретацией могут научиться становиться более точными предикторами

(в) процессы обнаружения могут работать, чтобы найти более полезные прогностические и непрогностические переменные состояния

(г) прогнозирование результатов вместе с быстрым обучением может привести к простой форме предвидения и поведения, контролируемого ожидаемыми последствиями, большая часть обучения, описанного выше, представляет собой изучение прогнозной модели мира, но это еще не планирование. Планирование требует изучения ожидаемого опыта в состояниях, отличных от текущего. Агент должен отмежеваться от текущего состояния и вообразить отсутствующими другие.

Experience-Oriented Artificial Intelligence Richard S. Sutton University of Alberta February 20, 2007

Abstract

Невозможно построить большие амбициозные системы из-за отсутствия средств управления сложностью. Сейчас люди управляют сложностью, но большой ИИ должен делать это сам. ИИ должен уметь сам определять, когда он прав, а когда нет. Опыт - это путь к этому. Опыт должен быть в центре ИИ. Это то, что касается ИИ. Это данные ИИ, но они были отодвинуты на второй план. Опыт играет центральную роль в проблеме искусственного интеллекта. Если интеллект — это вычисление, то временной поток ощущений — его вход, а временной поток действий — его выход. Эти два перемешанных временных ряда являются одновременно и основой для разумного принятия решений, и основой для их оценки. Опыт не ждет ни человека, ни машины. Его события происходят в неизменном порядке и темпе. Сенсорные сигналы могут потребовать быстрых действий или более обдуманной реакции. Предпринятое действие нельзя отменить. Временная структура опыта — единственная наиболее важная вычислительная особенность проблемы искусственного интеллекта. Тем не менее, опыт сыграл менее заметную роль в области искусственного интеллекта. Искусственный интеллект часто имел дело с такими предметами, как вывод, диагностика и решение проблем, таким образом, чтобы свести к минимуму влияние ощущений и действий в реальном времени. Трудно выделить какую-либо значимую роль опыта в классических системах ИИ с ответами на вопросы. Эти системы могут помочь людям прогнозировать и контролировать свой опыт, но сами системы не имеют ничего общего. Робототехника всегда была важным исключением, но даже здесь опыт и время играют меньшую роль, чем можно было бы ожидать). В моторном контроле преобладают методы планирования, которые делают упор на траектории и кинематику, а не на динамику. Исследования компьютерного зрения в основном связаны со статическими изображениями или потоками изображений без обратной связи с небольшой ролью для действия). В машинном обучении преобладают методы, которые предполагают независимые, одинаково распределенные данные — данные, порядок которых не имеет значения и в которых нет действия. Недавние тенденции в области искусственного интеллекта отчасти можно рассматривать как изменение ориентации на опыт. «Агентно-ориентированный» взгляд на ИИ можно рассматривать в этом свете. Вероятностные модели, такие как марковские процессы принятия решений, динамические байесовские сети и обучение с подкреплением, также являются частью современной тенденции к признанию основной роли временных данных и действий. Естественным местом для начала изучения роли опыта в искусственном интеллекте является представление знаний. Знания имеют решающее значение для работы успешных систем ИИ, от базы знаний диагностической системы до функции оценки программы для игры в шахматы до карты и сенсорной модели навигационного робота. Сам интеллект можно определить как способность поддерживать очень большой объем знаний и эффективно и гибко применять их для решения новых задач. Хотя большие объемы знаний — это большая сила систем ИИ, это также и большая слабость. Проблема в том, что по мере роста баз знаний они становятся более хрупкими и сложными в обслуживании. Возникают несоответствия в терминологии, используемой разными людьми или в разное время. Чем разнообразнее знания, тем больше возможностей для путаницы. Ошибки неизбежно присутствуют хотя бы из-за опечаток при вводе данных. Когда ошибка становится очевидной, решить проблему может только человек, хорошо разбирающийся в структуре и терминологии базы знаний. В этом основная трудность: точность знания в конечном счете может быть проверена и безопасно поддержана только человеком, близко знакомым с большей частью знания и его представлением. Это устанавливает верхнюю границу размера базы знаний. Пока люди являются конечными гарантами — нет, определяющими — истины, машина не может стать намного умнее, чем люди, управляющие ею. Верификация знаний на соответствие человеческим знаниям, в конечном счете, неизбежно ведет в тупик. Как мы можем выйти за рамки человеческой проверки? Может быть несколько способов наделить машину большей ответственностью и способностью проверять свои знания. Один из них заключается в том, чтобы сосредоточиться на непротиворечивости знаний. Некоторые убеждения можно исключить как логически или математически несовместимые. Однако для подавляющего большинства повседневных знаний о мире маловероятно, что только логика может установить истинностные значения. Еще один путь проверки, рассмотренный в этой статье, — это согласованность с опытом. Если знание выражается как утверждение об опыте, то во многих случаях его можно проверить путем сравнения с опытными данными. Такой подход может существенно решить проблему автономной проверки знаний. Самая большая проблема для этого подхода, по крайней мере по сравнению с верификацией человека, заключается в том, что ощущения и действия, как правило, являются репрезентациями низкого уровня, тогда как знание, к которому люди легче всего относятся, находится на гораздо более высоком уровне. Это несоответствие мешает людям передавать свои знания в экспериментальной форме, понимать процесс принятия решений ИИ и доверять его выбору. Но еще большая проблема для нашего воображения. Как даже несколько абстрактные понятия, такие как книга или стул, могут быть представлены в эмпирических терминах? Как они могут быть представлены настолько полно, чтобы все, что касается этой концепции, было зафиксировано и могло быть независимо проверено? Эта статья о попытке ответить на этот вопрос. Сначала я устанавливаю проблему эмпирического представления абстрактных понятий более формально и полно. Сделав это, приводится аргумент, что все знания о мире хорошо понимаются как предсказания будущего опыта. Хотя разрыв между низкоуровневым опытом и абстрактными понятиями может показаться огромным, теоретически он должен быть преодолен. Основная часть этой статьи представляет собой аргумент в пользу того, что эта соединяемость, которая в теории должна быть верной, также правдоподобна. Современные методы представления состояний и действий вместе с аппроксимацией функций могут позволить нам сделать важные шаги в направлении абстрактных концепций, полностью основанных на опыте.

Agent World actions observations Figure 1: Experience is the signals crossing the line separating agent from world.

1. Experience

Отличить агента от его мира — значит провести черту. С одной стороны находится агент, принимающий сенсорные сигналы и производящий действия. С другой стороны, мир воспринимает действия и генерирует сенсорные сигналы. Let us denote the action taken at time t as at ∈ A, and the sensation, or observation, generated at time t as ot ∈ O. Time is taken to be discrete, t = 1, 2, 3, .... The time step could be arbitrary in duration, but we think of it as some fast time scale, perhaps one hundredth or one thousandth of a second. Experience is the intermingled sequence of actions and observations o1, a1, o2, a2, o3, a3, . . . each element of which depends only on those preceding it. See Figure 1. Define E = {O × A}∗ as the set of all possible experiences. Let us call the experience sequence up through some action a history. Formally, any world can be completely specified by a probability distribution over next observations conditional on history, that is, by the probability P(o|h) that the next observation is o given history h, for all o ∈ O and h ∈ E. To know P exactly and completely is to know everything there is to know about the agent’s world.1 Short of that, we may have an approximate model of the world.

2. Predictive knowledge

Развиваемая здесь точка зрения состоит в том, что мир — это формальный математический объект, функция, отображающая истории в распределения вероятностей по наблюдениям. В этом смысле бессмысленно говорить о том, что «на самом деле» происходит в мире. Единственное, что можно сказать о мире, — это предсказывать распределения вероятностей по наблюдениям. Это должно быть абсолютным утверждением. Учитывая определение мира «вход-выход», не может быть никакого знания о нем, которое не было бы основано на опыте: 1. Suppose we have a model of the world, an approximation Pˆ to P. How can we define the quality of the model? First, we need only look at the future; we can take the history so far as given and just consider further histories after that. Thus, Pˆ and P can be taken to give distributions for future histories. I offer a policy-dependent measure of the loss of a model, that is, of how much is does not predict the data: Lπ(P||Pˆ) = lim n→∞ 1 n Xn l=0 1 |Ht| X h∈Hl X o P(o|h) log 1 Pˆ(o|h) . Все, что мы знаем, что является специфическим для этого мира (в отличие от универсально истинного в любом мире), является предсказанием опыта. Все знания о мире должны быть переведены в утверждения о будущем опыте. Our focus is appropriately on the predictive aspect. Memories can be simple recordings of the full experience stream to date. Summaries and abstract representations of the history are significant only in so far as they affect predictions of future experience. Without loss of generality we can consider all world knowledge to be predictive. One possible objection could be that logical and mathematical knowledge is not predictive. We know that 1 + 1 = 2, that the area of a circle is πr2 , or that ¬(p∨q) ⇔ ¬p∧¬q, and we know these absolutely. Comparing them to experience cannot prove them wrong, only that they do not apply in this situation. Mathematical truths are true for any world. However, for this very reason they cannot be considered knowledge of any particular world. Knowing them may be helpful to us as part of making predictions, but only the predictions themselves can be considered world knowledge. These distinctions are well known in philosophy, particularly the philosophy of science. Knowledge is conventionally divided into the analytic (mathematical) and the synthetic (empirical). The logical positivists were among the earliest and clearest exponents of this point of view and, though it remains unsettled in philosophy, it is unchallenged in science and mathematics. In retrospect, mathematical and empirical truth—logical implication and accurate prediction—are very different things. It is unfortunate that the same term, “truth,” has been used for both. Let us consider some examples. Clearly, much everyday knowledge is predictive. To know that Joe is in the coffee room is to predict that you will see him if you go there, or that you will hear him if you telephone there. To know what’s in a box is to predict what you will see if you open it, or hear if you shake it, feel if you lift it, and so on. To know about gravity is to make predictions about how objects behave when dropped. To know the three-dimensional shape of an object in your hand, say a teacup, is to predict how its silhouette would change if you were to rotate it along various axes. A teacup is not a single prediction but a pattern of interaction, a coherent set of relationships between action and observation. Other examples: Dallas Cowboys move to Miami. My name is Richard. Very cold on pluto. Brutus killed Caesar. Dinosaurs once ruled the earth. Canberra is the capital of Australia. Santa Claus wears a red coat. A unicorn has one horn. John loves Mary. Although the semantics of “Joe is in the coffee room” may be predictive in an informal sense, it stills seems far removed from an explicit statement about experience, about the hundred-times-asecond stream of inter-mingled observations and actions. What does it mean to “go to the coffee room” and “see him there”. The gap between everyday concepts and low-level experience is immense. And yet there must be a way to bridge it. The only thing to say about the world is to make predictions about its behavior. In a formal sense, anything we know or could know about the world must be translatable into statements about low-level future experience. Bridging the gap is a tremendous challenge, and in this paper I attempt to take the first few steps toward it. This is what I call the grand challenge of grounding knowledge in experience: Представление знаний о мире на человеческом уровне исключительно с точки зрения опыта, то есть с точки зрения наблюдений, действий и временных шагов, без ссылки на какие-либо другие концепции или объекты, если только они сами не представлены с точки зрения опыта. The grand challenge is to represent all world knowledge with an extreme, minimalist ontology of only three elements. You are not allowed to presume the existence of self, of objects, of space, of situations, even of “things”. Grounding knowledge in experience is extremely challenging, but brings an equally extreme benefit. Representing knowledge in terms of experience enables it to be compared with experience. Received knowledge can be verified or disproved by this comparison. Existing knowledge can be tuned and new knowledge can be created (learned). The overall effect is that the AI agent may be able to take much more responsibility for maintaining and organizing its knowledge. This is a substantial benefit; the lack of such an ability is obstructing much AI research, as discussed earlier. A related advantage is that grounded knowledge may be more useful. The primary use for knowledge is to aid planning or reasoning processes. Predictive knowledge is suited to planning processes based on repeated projection, such as state-space search, dynamic programming, and model-based reinforcement learning (Dyna, pri-sweep, LSTD). If A predicts B, and B predicts C, then it follows that A predicts C. If the final goal is to obtain some identified observation or observations, such as rewards, then predictive reasoning processes are generally suitable.

3. Questions and Answers

Современная философия науки говорит нам, что любая научная теория должна быть эмпирически верифицируемой. Он должен делать прогнозы относительно экспериментов, которые можно сравнить с измеримыми результатами. Мы разрабатываем аналогичный взгляд на знание — что содержание знания — это предсказание измеримого результата определенного способа поведения. Предсказание можно разделить на две части: одна определяет задаваемый вопрос, а другая — ответ, предлагаемый предсказанием. Вопрос заключается в следующем: «Какой будет измеряемая величина, если я буду вести себя так и измерять так?» Ответ — это конкретное прогнозируемое значение для измерения, которое будет сравниваться с тем, что происходит на самом деле, чтобы оценить точность прогноза. For example, a question roughly corresponding to “How much will it rain tomorrow” would be a procedure for waiting, identifying when tomorrow has begun, measuring the cumulative precipitation in centimeters, and ending when the end-of-day has been identified. The result based on this actual future will be a number such as 1.2 which can be compared to the answer offered by the prediction, say 1.1. In this example, the future produces a result, the number 1.2, whose structure is similar to that of the answer, and one may be tempted to refer to the result as the “correct answer.” In general, however, there will be no identifiable correct answer that can be identified as arising from the question applied to the future. The idea of a correct answer is also misleading because it suggests an answer coming from the future, whereas we will consider answers always to be generated by histories. There may be one or more senses of best answers that could be generated, but always from a history, not a future. Figure 3 shows how information flows between experience and the question and answer making up a prediction made at a particular time. Based on the history, the answer is formed and passed 5 Answer Question Prediction loss h i s t o r y f u t u r e now . . . . . . . . . . . . Figure 2: Information flow relationships between questions and answers, histories and futures. on to the question, which compares it with the future. Eventually, a measure of mismatch between answer and future is computed, called the loss. This process is repeated at each moment in time and for each prediction made at that time. Note that the question in this example is substantially more complex and substantial than its answer; this is typically the case. Note also that the question alone is not world knowledge. It does not say anything about the future unless matched with an answer. For knowledge to be clear, the experiment and the measurement corresponding to the question must be specified unambiguously and in detail. We state this viewpoint as the explicit prediction manifesto: Every prediction is a question and an answer. Both the question and the answer must be explicit in the sense of being accessible to the AI agent, i.e., of being machine readable, interpretable, and usable. The explicit prediction manifesto is a way of expressing the grand challenge of empirical knowledge representation in terms of questions and answers. If knowledge is in predictive form, then the predictions must be explicit in terms of observations and actions in order to meet the challenge. It is useful to be more formal at this point. In general, a question is a loss function on futures with respect to a particular way of behaving. The way of behaving is formalized as a policy, a (possibly deterministic) mapping from E ×O to probabilities of taking each action in A. The policy and the world together determine a future or probability distribution over futures. For a given space of possible answers Y, a question’s loss function is a map q : E ×Y 7→ <+ from futures and answers to a non-negative number, the loss. A good answer is one with a small loss or small expected loss. For example, in the example given above for “How much will it rain tomorrow”, the answer space is the non-negative real numbers, Y = < +. Given a history h ∈ E, an answer y(h) might be produced by a learned answer function y : E 7→ Y. Given a future f ∈ E, the loss function would examine it in detail to determine the time steps at which tomorrow is said to begin and end. Suppose the precipitation on each time step “in centimeters” is one component of the observation on that step. This component is summed between the start and end times to produce a correct 6 answer z(f) ∈ E. Finally, y(h) and z(f) are compared to obtain, for example, a squared loss q(f, y(h)) = (z(f) − y(h))2 . The interpretation in terms of “centimeters” in this example is purely for our benefit; the meaning of the answer is with respect to the measurement made by the question, irrespective of whatever interpretation we might place on it. Our approach is unusual in this respect. Usually in statistics and machine learning the focus is on calibrated measurements that accurately mirror some quantity that is meaningful to people. Here we focus on the meaning of the answer that has been explicitly and operationally defined by the question’s loss function. By accepting the mechanical interpretation as primary we become able to verify and maintain the accuracy of answers autonomously without human intervention. A related way in which our approach is distinctive is that we will typically consider many questions and a great variety of questions. For example, to express the shape of an object alone requires many questions corresponding to all the ways the object can be turned and manipulated. In statistics and machine learning, on the other hand, it is common to consider only a single question. There may be a training set of inputs and outputs with no temporal structure, in which case the single question “what is the output for this input?” is so obvious that it needs little attention. Or there may be a time sequence but only a single question, such as “what will the next observation be?” In these cases, in which there is only one questions, it is common to use the word “prediction” to refer just to answers. In machine learning, for example, the output of the learner—the answer—is often referred to as a prediction. It is important to realize that that sense of prediction—without the question—is much smaller than that which we are using here. Omitting the question is omitting much; the question part of a prediction is usually much larger and more complex than the answer part. For example, consider the question, “If I flipped this coin, with what probability would it come up heads?” The answer is simple; it’s a number, say 0.5, and it is straightforward to represent it in a machine. But how is the machine to represent the concepts of flipping, coin, and heads? Each of these are high-level abstractions corresponding to complex patterns of behavior and experience. Flipping is a complex, closed-loop motor procedure for balancing the coin on a finger, striking it with your thumb, then catching, turning, and slapping it onto the back of your hand. The meaning of “heads” is also a part of the question and is also complex. Heads is not an observation—a coin showing heads can look very different at different angles, distances, lightings and positions. We will treat this issue of abstraction later in the paper, but for now note that it must all be handled within the question, not the answer. Questions are complex, subtle things. They are the most important part of a prediction and selecting which ones to answer is one of the most important skills for an intelligent agent. All that having been said, it is also important to note that predictive questions can also be simple. Perhaps the simplest question is “what will the next observation be,” (say with a cross-entropy loss measure). Or one might ask whether the third observation from now will be within some subset. If the observations are boolean we might ask whether the logical AND of the next two will be true. If they are numeric we might ask whether the square root of the sum of the next seven will be greater than 10, or whether the sum up to the next negative observation is greater than 100. Or one can ask simple questions about action dependencies. For example, we might ask what the next observation will be given that we take a particular next action, or a particular sequence of actions. In classical predictive state representations, the questions considered, called tests, ask for the probability that the next few observations will take particular values if the next few actions were to have particular values. Many of these questions (but not the last one) are meant as policy dependent. For example, if a question asks which of two observations will occur first, say death and taxes, then the answer may well depend on the policy for taking subsequent actions. These simple questions have in common that we can all see that they are well defined in terms of our minimal ontology—observations, actions, and time steps. We can also see how their complexity can be increased incrementally. The grand challenge asks how far this can be taken. Can a comparable clarity of grounding be attained for much larger, more abstract, and more complex concepts?

4. Abstract Concepts and Causal Variables

Вопросы и ответы обеспечивают формальный язык для решения великой проблемы обоснования знаний на опыте, но сами по себе не решают напрямую главную проблему, связанную с абстрагированием от особенностей низкоуровневого опыта к человеческому знанию. Рассмотрим подробно несколько шагов от низкоуровневого опыта к более абстрактным понятиям.

Первый шаг может состоять в том, чтобы сгруппировать вместе все ситуации, которые разделяют одно и то же наблюдение) Термин «ситуация» здесь должен быть дополнительно разобран, потому что это не одно из наших примитивных понятий (наблюдения, действия или временные шаги)). Это должно быть сведено к ним, чтобы быть четко определенным. Под «ситуациями» здесь подразумевается, по сути, временной шаг, как и во всех временных шагах, которые разделяют одно и то же наблюдение. С этим определением концепция всех таких временных шагов ясна и явна.

Еще одним шагом к абстракции является определение подмножеств наблюдений и группировка всех временных шагов с наблюдениями в одном и том же подмножестве. Это естественно, когда наблюдения имеют несколько компонентов, а подмножества — это наблюдения с одинаковым значением одного из компонентов. Продолжая в том же духе, мы можем обсуждать ситуации с одним и тем же действием, с одной и той же комбинацией действий и наблюдений, с одной и той же недавней историей наблюдений и действий или которые попадают в любое подмножество этих. Все это можно назвать концепциями, основанными на истории). Общий случай состоит в рассмотрении произвольных наборов историй. Мы определяем абстрактные концепции, основанные на истории, как множества, такие, что. Полезно обобщить идею концепций, основанных на истории, на идею причинных переменных — временных последовательностей, значения которых зависят только от предшествующих событий. Концепция, основанная на истории, соответствует бинарной причинной переменной Formally, the values of causal variable vt = v(ht) are given by a (possibly stochastic) function v : E 7→ Y. As with concepts, we consider a causal variable to be abstract if and only if its value corresponds to an infinite set of possible histories. Formally, we define a causal variable to be abstract if and only if the preimage of every subset of Y is infinite (∀C ⊆ Y, |{e : v(e) ∈ C}| = ∞). Одним из примеров причинной переменной является временная последовательность ответов, заданная функцией ответа прогноза. В этом смысле ответы являются причинно-следственными переменными. Абстрактные причинно-следственные переменные кажутся адекватными и удовлетворительными для охвата большей части того, что мы подразумеваем под абстракциями. Они отражают идею представления ситуаций различными способами, выявляя потенциально релевантные сходства между временными шагами. Они формально характеризуют пространство всех абстрактных понятий. Но недостаточно просто иметь абстракции; они должны быть хорошими абстракциями. Основная остающаяся проблема состоит в том, чтобы идентифицировать или найти абстрактные причинно-следственные переменные, которые могут оказаться полезными. В этой статье мы придерживаемся гипотезы о том, что неизбыточные ответы на прогностические вопросы могут быть полезными абстракциями. This hypothesis was first stated and tested by Rafols, Ring, Sutton, and Tanner (2005) in the context of predictive state representations. Они сформулировали это следующим образом: «Гипотеза предсказательных представлений утверждает, что особенно хорошее обобщение будет результатом представления состояния мира в терминах предсказаний возможного будущего опыта». Эта гипотеза правдоподобна, если мы примем конечной целью предсказательное представление знаний. Гипотеза не круговая, потому что есть несколько вопросов. Гипотеза состоит в том, что ответ на один вопрос может быть особенно хорошей абстракцией для ответа на второй вопрос. Полезность абстракции для одного набора вопросов, возможно, может действовать как форма перекрестной проверки ее вероятной полезности для других вопросов. Если репрезентация хорошо обобщается в одном контексте, то, возможно, так и будет в другом. Гипотеза о том, что ответы на прогностические вопросы, вероятно, будут хорошими абстракциями, ставит вопрос о том, откуда берутся прогностические вопросы. К счастью, руководство по возможным уместным вопросам доступно с нескольких направлений. Во-первых, прогнозы, как правило, делаются в отношении некоторой интересующей причинной переменной. Интересные причинные переменные включают в себя:

1. Сигналы внутреннего интереса, такие как вознаграждение, громкие звуки, яркий свет — сигналы, которые были явно обозначены эволюцией или дизайнером как значимые и, вероятно, важные для агента

2. Сигналы, которые, как было обнаружено, связаны или предсказывают сигналы, уже идентифицированные как представляющие интерес (например, сигналы внутренней значимости, упомянутые в #1)

3. Сигналы, которые можно предсказать, которые компенсируют попытки предсказать их с некоторым повышением точности предсказания, в отличие, скажем, от случайных сигналов

4. Сигналы, которые позволяют управлять другими сигналами, особенно теми, которые идентифицированы как представляющие интерес в соответствии с #1–#3

Существует пятое свойство, делающее причинную переменную интересной в качестве цели для предсказания, которое является более тонким и имеет прямое отношение к развитию в этой статье: причинная переменная сама по себе может быть ответом на предсказывающий вопрос. Другими словами, «какой будет ценность этой абстракции (причинной переменной) в будущем (при определенном способе поведения)?». Вопросы об абстракциях, о которых известно, что они полезны, будут считаться особенно привлекательными. В целом предложение состоит в том, что полезные абстракции для ответов на прогностические вопросы можно найти в качестве ответов на другие прогностические вопросы о полезных абстракциях. Это не круговое рассуждение, а скорее важная форма композиционности: способность строить новые абстракции из существующих. Это ключевое свойство, необходимое для мощного представления знаний о мире. Если вопросы должны касаться (будущих значений) абстракций, то какими должны быть эти вопросы? Напомним, что вопросы зависят от способа поведения — эксперимента или политики. Но какой эксперимент? Руководство исходит из того, как будут использоваться прогнозы, которые обычно являются частью процесса планирования (принятия оптимальных решений). Соответственно, нас особенно интересуют вопросы о причинных переменных, зависящих от способа поведения, оптимизирующего причинные переменные. Окончания экспериментов можно выбрать таким же образом.

http://www.incompleteideas.net

Report Page