Цель системы-классификатора, подобно нейронной сети или методу опорных векторов, — предсказать, к какому классу относится данная выборка, то есть классифицировать ее. Поэтому системе-классификатору в целях обучения следует передать множество выборок известных классов. После обучения системы ей можно будет передавать для классификации новые выборки. Как и в описанных выше методах, начальное множество выборок известных классов обычно делится на два подмножества — обучающее и тестовое. Тестовое множество помогает проверить, не переобучена ли система.
При создании классификаторов применяются два подхода: мичиганский, предложенный исследователями из Мичиганского университета, и питтсбургский, появившийся, соответственно, в университете города Питтсбурга. В мичиганском подходе описывается эволюционный алгоритм, в котором в роли эволюционирующих особей выступают правила, каждое правило содержит множество условий и цель.
Класс выборки укажет правило, с набором условий которого совпадает выборка.
В питтсбургском подходе, напротив, каждая особь представляет собой множество правил, а приспособленность особи оценивается по средней ошибке для каждого из этих правил. Оба подхода, которые в немалой степени дополняют друг друга, имеют свои преимущества и недостатки. В последние 30 лет исследователи предлагают различные улучшения обоих подходов, чтобы компенсировать их неэффективность.
Еще одна важная область применения искусственного интеллекта в бизнесе — это работа с хранилищами данных, которые широко используются предприятиями с большой клиентской базой и, следовательно, с большой базой выборок. Путем анализа базы выборок можно определить тенденции, закономерности и шаблоны поведения. Хранилище данных — это место, куда стекаются данные со всего предприятия, будь то данные о продажах, производстве, результатах маркетинговых кампаний, внешних источниках финансирования и так далее. Сегодня хранилища данных используются в таких областях, как банковская сфера, здравоохранение, розничная торговля, нефтепереработка, государственная служба и другие.
Создание и структурирование хранилища данных — сложная задача, на решение которой инженерам потребуется несколько месяцев и даже лет. После того как хранилище данных выстроено, структурировано и обеспечена его корректность, содержащиеся в нем данные изучаются и анализируются с помощью так называемых OLAP-кубов, которые в действительности представляют собой гиперкубы. OLAP-куб (от англ. OnLine Analytical Processing — «аналитическая обработка в реальном времени») — это многомерная структура данных, позволяющая очень быстро выполнять перекрестные запросы к данным различной природы. О LAP-куб можно считать многомерным вариантом электронной таблицы. К примеру, электронная таблица, в которой представлены данные о продажах молочных продуктов нашей компании в разных странах в прошлом году (в тысячах штук), может выглядеть так.
Если мы хотим получить данные о продажах в отдельные месяцы, нужно добавить к таблице третье измерение, в котором для каждого региона и типа продукции представленные данные будут разбиты на 12 месяцев.
Сформировав куб, мы сможем выполнять различные виды сложного анализа данных с учетом предварительно выстроенной структуры куба. Заметим, что основные затраты вычислительных ресурсов при использовании хранилища данных связаны не с самим анализом данных, а с построением множества гиперкубов. Гиперкубы могут отражать данные организации с учетом множества возможных сочетаний. Поэтому OLAP-кубы, как правило, строятся по ночам, а используются и анализируются на следующий день.
С помощью OLAP-кубов аналитики компании, производящей молочные продукты, могут ввести в систему новое измерение — погодные условия в каждый день года в каждом регионе, где продаются продукты компании. Это новое измерение позволит изучить уровень потребления различных продуктов в зависимости от температуры.
Располагая этими знаниями и прогнозами погоды, аналитики могут предсказать, какой объем всех видов продукции следует произвести в каждом регионе, чтобы свести запасы молочной продукции к минимуму. Отметим, что соблюдение температурного режима хранения молочных продуктов требует немалых расходов.
Часто измерения OLAP-кубов дополнительно усложняются, и в пределах одного измерения вводятся иерархии. Так, в предыдущем примере измерение, описывающее погоду, можно дополнить новой иерархией, например привести данные о погоде за каждый день или в каждом квартале, так как уровень потребления молочных продуктов будет гарантированно отличаться летом и зимой, в начале и в конце месяца.
Можно сформировать иерархию регионов и ввести как более крупные (Центральная Европа, Южная Европа), так и более мелкие области (Ломбардия, Бретань, Андалусия).
Разумеется, после завершения построения с помощью OLAP-кубов можно решать различные задачи визуализации данных, помимо очевидного анализа, о котором мы уже рассказывали. К примеру, можно изображать двухмерные сечения куба или отдельные «кубики» (небольшие многомерные части куба), складывать или вычитать значения в рамках иерархий и даже вращать куб, чтобы взглянуть на данные с другой стороны.
* * *
MICROSOFT RESEARCH
Сегодня крупнейшим коммерческим исследовательским центром мира, где ведутся работы по изучению искусственного интеллекта, является Microsoft Research. В этом центре работают авторитетные ученые, которые занимаются изучением столь важных вопросов, как машинное обучение или новые способы взаимодействия человека и машины. Microsoft Research имеет представительства в самых разных странах, в частности в Германии, США, Великобритании, Китае, Индии и Египте.
Специалисты центра являются мировыми лидерами в области использования байесовских сетей и других вероятностных методов в таких областях, как обнаружение нежелательных писем (спама) или интеллектуальная адаптация интерфейса информационных систем к шаблонам поведения пользователей.
Глава 6. Искусственная жизнь
Дать определение понятиям «жизнь» и «интеллект» трудно как с точки зрения биологии, так и с точки зрения философии. Возможно, это так же сложно, как и дать формальное определение интеллекта. В первой главе мы уже говорили о философских и математических дискуссиях, целью которых было определение понятия «интеллект»: это тест Тьюринга, «китайская комната», споры о творчестве и так далее.
Один из самых активных и авторитетных специалистов в этой области, Джон Холланд (род. 1929), также занимавшийся эволюционными алгоритмами, глубоко изучил этот вопрос и пришел к выводам, которые помогут нам определить, что такое жизнь.
Искусственная жизнь тесно связана с другим важным понятием в рамках искусственного интеллекта — так называемыми мягкими вычислениями (soft computing).
Мягкие вычисления — это совокупность средств и методов, как правило, имеющих непосредственные аналогии в природе, которые позволяют решать задачи высокой сложности путем обработки неполной и неточной информации. К таким методам относятся эволюционные алгоритмы, нейронные сети, нечеткая логика и так далее.
Мягкие вычисления оформились в отдельный раздел информатики в 1990-е годы и сегодня используются при решении задач, для которых эксперты не смогли найти оптимального решения. В некоторых случаях оптимальное решение подобных задач требует нескольких лет расчетов или использования данных, которые невозможно получить. Мягкие вычисления позволяют быстро найти неоптимальное, но достаточно хорошее решение задач такого типа. Сегодня мягкие вычисления используются для решения задач во всех областях науки и техники, начиная от биологии и заканчивая политологией.