Коэффициент наклона изображенной на рисунке прямой равен 28. Это означает следующее: если плата за обучение зависела бы только от баллов SAT, которые задает прямая на графике, тогда на каждый балл SAT приходилось бы дополнительных 28 долларов платы за обучение. Если вам удалось бы поднять средний балл первокурсников на 50 пунктов, тогда вы могли бы назначить более высокую плату за обучение – на 1400 долларов. (Или, с точки зрения родителей, если ваш ребенок на 100 баллов улучшит свой результат отборочного теста, это обойдется вам в дополнительных 2800 долларов в год. Курс по подготовке к тесту оказался более дорогим, чем вы думали!)
Линейная регрессия представляет собой замечательный инструмент: гибкий, масштабируемый и легкий в применении (вы просто нажимаете соответствующую кнопку электронной таблицы). Этот инструмент можно применять к двум наборам данных с участием двух переменных, как в приведенном выше примере, но он работает не менее эффективно и в случае трех или даже тысячи переменных. Каждый раз, когда вам нужно понять, как одни переменные меняют другие переменные и в каком направлении, линейная регрессия – это первое, что следует использовать. Этот инструмент применим буквально к любому набору данных.
Однако в этом заключается не только сильная, но и слабая сторона линейной регрессии. Вы можете применить этот метод, не задумываясь, действительно ли феномен, который вы пытаетесь моделировать, близок к линейному. Но вы не должны так делать. Я сказал, что линейная регрессия подобна отвертке – что действительно так; однако в другом смысле она скорее напоминает циркулярную пилу. Если вы примените этот инструмент без тщательного анализа того, что вы делаете, результаты могут оказаться плачевными.
Возьмем в качестве примера ракету, которую мы с вами запустили в предыдущей главе. Возможно, вы не имеете никакого отношения к ее запуску. А может быть, напротив, представляете собой ту цель, на которую эта ракета направлена. В последнем случае вы особенно заинтересованы в как можно более точном анализе траектории движения ракеты.
Вы могли бы нанести на график положение ракеты по вертикали в пяти точках по времени. Такой график выглядит следующим образом.
Теперь вы в состоянии быстро выполнить линейную регрессию, получив замечательный результат: линию, которая проходит почти через все точки на графике.
(В этот момент ваша рука начинает приближаться к острому полотнищу циркулярной пилы.)
Построенная вами линия представляет собой весьма точную модель движения ракеты: за каждую минуту ракета поднимается вверх на определенное фиксированное расстояние, скажем на 400 метров. Через час ракета окажется в 24 километрах над поверхностью земли. Когда же она опустится на поверхность? Никогда! Направленная вверх наклонная прямая линия по-прежнему стремится вверх. Именно так ведут себя прямые.
(Кровь, травмы, вопли.)
Однако не каждая линия является прямой. А траектория полета ракеты несомненно представляет собой не прямую, а параболу. Подобно окружности Архимеда, вблизи она действительно похожа на прямую, поэтому линейная регрессия сослужит вам большую службу, позволив определить местоположение ракеты через пять секунд после запуска. Но через час? Даже не думайте об этом. Ваша модель говорит о том, что через час ракета находится в нижних слоях стратосферы, хотя на самом деле она, возможно, уже приближается к вашему дому.
Возможно, самое образное предостережение в отношении бездумной линейной экстраполяции сформулировал не статистик, а Марк Твен в романе Life on the Mississippi («Жизнь на Миссисипи»):
…Длина Миссисипи между Каиром и Новым Орлеаном сто семьдесят шесть лет тому назад была тысяча двести пятнадцать миль. После прорыва русла в 1722 году длина стала тысяча сто восемьдесят миль. Когда образовался рукав у Американской излучины, длина стала тысяча сорок миль. С тех пор этот участок реки укоротился еще на шестьдесят семь миль. Следовательно, сейчас ее длина между Каиром и Новым Орлеаном всего девятьсот семьдесят три мили.
…За сто семьдесят шесть лет Нижняя Миссисипи укоротилась на двести сорок две мили, то есть в среднем примерно на милю и одну треть в год. Отсюда всякий спокойно рассуждающий человек, если только он не слепой и не совсем идиот, сможет усмотреть, что в древнюю силурийскую эпоху, – а ей в ноябре будущего года минет ровно миллион лет – Нижняя Миссисипи имела свыше миллиона трехсот тысяч миль в длину и висела над Мексиканским заливом наподобие удочки. Исходя из тех же данных, каждый легко поймет, что через семьсот сорок два года Нижняя Миссисипи будет иметь только одну и три четверти мили в длину, а улицы Каира и Нового Орлеана сольются, и будут эти два города жить да поживать, управляемые одним мэром и выбирая общий городской совет. Все-таки в науке есть что-то захватывающее. Вложишь какое-то пустяковое количество фактов, а берешь колоссальный дивиденд в виде умозаключений. Да еще с процентами[56].
Ремарка в сторону: Как получить зачетные баллы на моем экзамене по математическому анализу
Методы математического анализа во многом похожи на линейную регрессию: они носят сугубо механический характер, с ними вполне может справиться ваш калькулятор, а невнимательное применение этих методов сопряжено с большими опасностями. На экзамене по матану вам могут предложить рассчитать вес воды, оставшейся в кувшине после того, как вы проделаете в нем отверстие и позволите воде вытекать определенным потоком на протяжении определенного промежутка времени, и тому подобное. Решая задачу такого рода в условиях нехватки времени, вполне можно сделать арифметические ошибки. Порой это приводит к тому, что тот или иной студент получает нелепый результат, например что вес воды в кувшине составляет −4 грамма.
Если студент получает результат «−4 грамма» и в отчаянии торопливо пишет «Я где-то напортачил, но не могу найти ошибку», я даю такому студенту половину зачетных баллов за экзамен.
Если же студент просто пишет «−4 грамма» в конце страницы и обводит этот результат кружком, он получает ноль зачетных баллов – даже если вся процедура вывода этого результата была правильной, за исключением того, что где-то посередине страницы единственная цифра оказалась не на своем месте.
Вычисление интеграла или выполнение линейной регрессии – это задачи, которые достаточно эффективно может решать компьютер. Понимание того, имеет ли полученный результат смысл (или принятие решения, стоит ли вообще применять соответствующий метод в данном случае), требует направляющей человеческой руки. Когда мы преподаем математику, предполагается, что нужно объяснить учащимся, как стать таким проводником. Курс математики, который не делает этого, по существу учит студента выполнять функции дефектной версии Microsoft Excel.
Будем откровенны: именно это и происходит на большинстве наших математических курсов. Сокращенная история споров (сама представляющая собой предмет споров) состоит в том, что преподавание математики детям вот уже несколько десятилетий является ареной так называемых математических войн. По одну сторону этого противостояния находятся учителя, которые предпочитают делать акцент на запоминании, беглости, традиционных алгоритмах и точных ответах, а по другую сторону – учителя, считающие, что в основе преподавания математики должно лежать выяснение смысла, развитие способов мышления, обучение методом направляемых открытий и аппроксимация. Первый подход называют порой традиционным, а второй – реформистским, хотя предположительно нетрадиционный подход к обучению посредством открытий используется в той или иной форме вот уже десятки лет, а действительно ли так называемые реформы можно считать реформами – это и есть предмет споров. Споров весьма ожесточенных. Во время званого математического ужина вполне прилично обсуждать политические или религиозные вопросы, но начните спорить о математической педагогике – и это грозит закончиться тем, что кто-то из сторонников либо традиционного, либо реформистского подхода обидится и хлопнет дверью.