16. Дьюи предлагает следующее определение оптимальности для агента, обучающегося ценностям:
Здесь P1 и P2 — две вероятностные функции. Вторая сумма располагает в определенном порядке некоторый подходящий класс функций полезности по всем возможным историям взаимодействия. В версии, представленной в тексте, мы явно выделили некоторые зависимости, а также упростили обозначение возможных миров.
17. Нужно заметить, что набор функций полезности U должен быть таким, чтобы полезность можно было сравнивать и усреднять. В принципе, это непросто, кроме того, не всегда очевидно, как представлять различные этические теории в терминах количественно выраженной функции полезности. См., например: [MacAskill 2010].
18. В более общем случае нужно обеспечить ИИ адекватным представлением условного распределения вероятностей P(v(U) | w), поскольку v не всегда может напрямую дать ответ, истинно ли утверждение v(U) в мире w для любой пары «возможный мир — функция полезности» (w, U).
19. Рассмотрим вначале Y — класс действий, возможных для агента. Одна из сложностей связана с тем, что именно следует считать действием: только базовую моторную команду (вроде «отправить электрический импульс по каналу вывода #00101100») или команду более высокого уровня (вроде «удерживать фокус камеры на лице»)? Поскольку мы скорее пытаемся дать определение оптимальности, а не разработать план практического применения метода, можно ограничить область только базовыми моторными командами (а поскольку набор таких команд может со временем меняться, нам следует проиндексировать Y по времени). Однако чтобы двигаться в сторону практической реализации, очевидно, будет необходимо создать некий процесс иерархического планирования, в рамках которого придется решить, как применять формулу к классу действий более высокого уровня. Еще одна сложность связана с тем, как анализировать внутренние действия системы (вроде записи данных в рабочую память). Поскольку внутренние действия могут иметь важные последствия, в идеале хотелось бы, чтобы в Y были включены и базовые внутренние действия, и моторные команды. Но есть определенные пределы, как далеко можно зайти в этом направлении — вычисление ожидаемой полезности любого действия из Y требует выполнения многочисленных вычислительных действий, и если каждое из них также считается действием из Y, которое должно быть оценено в соответствии с моделью ИИ-ОЦ, мы имеем дело с бесконечной регрессией, которая вообще не позволит тронуться с места. Чтобы исключить эту ситуацию, нужно сузить количество явных попыток оценить ожидаемую функцию полезности ограниченным количеством наиболее важных возможностей для совершения действий. После этого систему нужно наделить некоторым эвристическим процессом, который определит список наиболее важных возможностей совершения действий для дальнейшего рассмотрения. (В конечном счете система могла бы сама принимать решения относительно некоторых возможных действий и вносить изменения в этот эвристический процесс, чтобы постепенно приближаться к идеалу, описанному в модели ИИ-ОЦ.)
Теперь рассмотрим W — класс возможных миров. Одна из сложностей связана с описанием W так, чтобы он оказался достаточно представительным. Отсутствие каких-то важных w в W приведет к тому, что ИИ не сможет составить представление о некой реальной ситуации и примет неверное решение. Предположим, что для определения вида W мы используем какую-то онтологическую теорию. Например, включаем в W все возможные миры, составляющие некий пространственно-временной континуум, населенный элементарными частицами, описанными в стандартных физических моделях. Если эта стандартная модель окажется неполной или неправильной, эпистемологическая основа ИИ будет нарушена. Можно попробовать использовать более широкий класс W, чтобы покрыть больше возможностей, но даже будучи уверенными, что учтены все возможные физические вселенные, мы не можем исключать, что за скобками остались еще какие-то. Может быть, дуалистические возможные миры, в которых осознаваемые факты не вытекают из физических? Или дейктических фактов? А может быть, нормативных? Математических? Возможно, каких-то иных видов фактов, которые мы, смертные, просмотрели, но которые могут быть важными с точки зрения устройства мира? Есть люди, убежденные в правильности той или иной онтологической теории. (Те, кто создает будущее ИИ, часто принимают как должное веру в материалистическую онтологию, которая предполагает первичность физического и вторичность психического.) Хотя даже недолгое размышление об истории идей поможет понять, что есть высокая вероятность ложности нашей любимой онтологии. Если ученые XIX века попытались бы дать основанное на физических законах описание W, они, вероятно, не включили бы в него возможность неэвклидова пространства–времени, квантовой («многомировой») теории Эверетта, космологического мультиверса или иных подобных гипотез — то есть возможностей, вероятность которых сегодня представляется довольно высокой. Вполне может быть, что и в наши дни существуют возможности, о которых не подозревает нынешнее поколение людей. (В то же время, если W будет слишком большим, могут возникнуть технические трудности, связанные с операциями над трансфинитными множествами.) Идеальным решением мог бы стать подход, в границах которого ИИ наделяется какой-то открытой онтологией с возможностью ее самостоятельного расширения на базе тех же принципов, которыми пользуемся мы сами, принимая решение, признавать или нет новый тип метафизических возможностей.
Теперь рассмотрим P(w | Ey). Определение этой условной вероятности, строго говоря, не является частью проблемы загрузки ценностей. Чтобы считаться разумным, ИИ уже должен уметь каким-то образом оценивать вероятность возникающих в реальном мире возможностей. Неспособная на это система не будет представлять опасности, о которой мы говорим. Однако существует риск, что эпистемология ИИ окажется достаточно хорошей, чтобы сделать его инструментально эффективным, и при этом недостаточно хорошей, чтобы правильно оценивать возможности, имеющие важное нормативное значение. (В этом смысле проблема определения P(w | Ey) связана с проблемой определения W). Определение P(w | Ey) также требует преодоления и других трудностей, в частности: как представлять неопределенность, связанную с логически невозможными событиями.
Упомянутые выше вопросы — как определить класс возможных действий, класс возможных миров и распределение вероятности, связывающее событие с классами возможных миров, — имеют довольно общий характер, поскольку те же самые вопросы возникают в случае широкого диапазона формально определяемых агентов. Остается рассмотреть вопросы, более специфические для метода обучения ценностям, а именно как определить U, V(U) и P(V(U) | w).
U — это класс функций полезности. U и W связаны, поскольку каждая функция полезности U(w) в U должна в идеале присваивать полезность каждого возможного мира w из W. Но U тоже должна быть довольно широкой в том смысле, что должна содержать много разных функций полезности — это повысит нашу уверенность, что хотя бы одна из них справится с задачей адекватного представления требуемых ценностей.
Причина написания P(V(U) | w), а не просто P(U | w), в том, чтобы подчеркнуть факт присвоения вероятностей утверждениям. Сама функция полезности утверждением не является, но ее можно трансформировать в утверждение. Например, можно сказать о некоторой функции полезности U(.), что она описывает предпочтения некоторого субъекта, или представляет утверждения некоторой этической теории, или что эту функцию полезности хотел бы использовать в системе ИИ принципал, если бы долго и глубоко размышлял на эту тему. Тогда «критерий ценности» V(.) может выглядеть как функция, которая в качестве аргумента использует функцию полезности U, а в качестве значения выдает утверждение, что U удовлетворяет критерию V. Определив утверждение V(U), мы, скорее всего, получим условную вероятность P(V(U) | w) из того же источника, который используем для получения и других распределений вероятности нашего ИИ. (Если мы уверены, что все существенные с нормативной точки зрения факты приняты во внимание при задании возможных миров W, тогда в каждом из возможных миров P(V(U) | w) будет равняться нулю или единице.) Остается вопрос, как определить V, — это обсудим далее в основном тексте.