Пере Грима
«Мир математики»
№ 13
«Абсолютная точность и другие иллюзии.
Секреты статистики»
Посвящается Алисии и Пау
Предисловие
Статистика — это наука, которая кажется знакомой. Мы привыкли слышать упоминания о статистике в средствах массовой информации: согласно исследованию (разумеется, статистическому), употребление алкоголя среди молодежи снизилось; результаты опроса показывают, что рейтинг доверия к одному политику выше, чем к другому; партия одержала победу на выборах с перевесом в столько-то пунктов. Даже футбольные комментаторы говорят, например, что, по статистике, одна из команд забивает больше голов во втором тайме. Ответы на вопросы вида «какую информацию можно извлечь из данных» и «какой будет степень достоверности этой информации» не всегда очевидны.
Статистику иногда считают несерьезной наукой. Статистические прогнозы не всегда сбываются, и команда, которая, по статистике, всегда забивает гол во втором тайме, в следующем матче может уйти с поля без забитого мяча. В этом заключается разница между статистикой и математикой, которая считается более серьезной наукой. Если футбольная команда «потеряла все математические шансы на победу в чемпионате», это означает, что ей ни при каких обстоятельствах уже не получится стать чемпионом. Статистические данные можно трактовать очень широко, чем активно пользуются политики. Это добавляет штрихи к довольно неприглядному образу статистики в глазах обывателей.
Однако статистика применяется намного шире. Она используется в медицинских исследованиях (действительно ли новое лекарство лучше старого), в биологии (сколько особей определенного вида обитает на определенной территории и грозит ли им вымирание), при прогнозировании (сколько электричества будет потрачено завтра), при анализе рынков (какая упаковка больше нравится клиентам), в социологии (что думает молодежь по конкретному вопросу), в экономике (на сколько выросли цены), при анализе технической надежности (с какой периодичностью нужно осматривать детали самолета) и при управлении качеством на предприятиях (на какой проблеме стоит сосредоточить усилия). Возможно, этот перечень слишком велик, но тем не менее он неполон: статистика используется и во многих других областях.
Статистика изучает сбор данных (каким должен быть объем данных и в какой форме следует их собирать) и способы их анализа, позволяющие получить ответы на интересующие нас вопросы. Цель статистики — получить знания объективным способом на основе наблюдений и анализа реальности. Именно в этом заключается суть научного метода.
В этой книге рассказывается о некоторых наиболее интересных аспектах статистики: как представить информацию с помощью графиков; как избежать пропущенных мячей (продолжим пример с футболом), располагая нужными статистическими данными; как провести сбор данных, чтобы ответить на поставленные вопросы. Мы расскажем о статистических исследованиях, предвыборных опросах и о том, какие рассуждения лежат в основе всех статистических тестов. Мы также совершим экскурс в теорию вероятностей — многим эта тема может показаться сложной и скучной, но в действительности она помогает достаточно просто получить ответы на множество занимательных вопросов.
Автор стремился сделать книгу интересной и познавательной. Если мне удалось хотя бы отчасти достигнуть этой цели, за это стоит благодарить моих сокурсников по Политехническому университету Каталонии и увлеченных преподавателей статистики Universidad del Valle в Кали (Колумбия), в частности Роберто Беара.
Наконец, я хотел бы выразить благодарность Педро Деликадо, Луису Марко, Лурдес Родеро и Хавьеру Торт-Марторелл за внимательное чтение первого издания этой книги и крайне уместные комментарии и предложения, которые позволили сделать ее намного лучше.
Глава 1
Описательная статистика: как извлечь важную информацию из множества данных
Что делать, если перед нами — множество данных, из которых нужно извлечь некую информацию? Вне всяких сомнений, сначала рекомендуется оценить их «на глаз», не просматривая числа одно за другим (наш мозг не способен качественно воспринимать информацию в таком виде), а представив их в виде графиков. Кроме того, можно вычислить некоторые показатели, которые могут быть проанализированы напрямую.
Сохо — один из самых живописных районов британской столицы. Неотразимая смесь современного и традиционного делает его обязательным местом посещения многочисленных туристов, которые уже много лет гуляют мимо удивительно красивых домов, дают отдых усталым ногам в очаровательных парках, разбитых тут и там среди узких переулков. Учитывая великое множество достопримечательностей и суету, присущую центру любого большого города, вы вряд ли обратите внимание на тщательно воссозданную копию питьевой колонки XIX века, расположенную на углу улицы Бродвик. Однако этот скромный памятник установлен в память о столь важном событии, что он по праву мог бы возвышаться на сотню метров, ярко освещая ночное лондонское небо.
Колонка с питьевой водой на улице Бродвик, установленная в 1992 году в честь британского эпидемиолога Джона Сноу, расположена всего в нескольких метрах от другой точно такой же колонки, которая в 1854 году снабжала местных жителей водой из Темзы. В августе того зловещего года в районе Сохо разразилась ужасная эпидемия холеры, от которой всего за три дня умерло больше ста человек, а за две недели — свыше пятисот. Более трех четвертей населения Сохо оставило свои дома, сбегая от болезнетворных паров, которые, как считалось, и были источниками ужасной болезни.
Джон Сноу, выдающийся врач, который годом ранее лично дал хлороформ королеве Виктории во время ее восьмых родов, считал иначе. В статье, написанной в 1849 году, он утверждал, что холера передается не через воздух, а через воду.
Медицинское сообщество не обратило внимания на его доводы отчасти потому, что в своих рассуждениях Сноу не опирался на какую-то конкретную теорию. Сноу применил целый арсенал разнообразных наблюдений, которые помогли ему установить явную связь между водой и распространением холеры. Он использовал исключительно статистические данные, позволившие обнаружить причинно-следственную связь, которую, как мы уже сказали, он не мог объяснить. Несмотря на это, его наблюдения были столь убедительны и он сумел представить результаты столь удачно, что его современникам не оставалось другого выхода, кроме как признать его правоту. Так началась радикальная перестройка систем водоснабжения больших городов.
В погоне за преступником
Холера — это страшное заболевание, основными симптомами которого являются внезапная сильнейшая тошнота и диарея, могущие привести к летальному исходу от обезвоживания. Эпидемию холеры, которая разразилась 31 августа 1834 года, очень быстро стали называть крупнейшей в истории страны. При одном взгляде на цифры волосы встают дыбом: за 72 часа число жертв возросло до 127, большую часть которых составляли дети. Спустя три дня Сноу посетил зону заражения вместе с местным священником Генри Уайтхедом и обнаружил, что большинство умерших жили в домах вблизи колонки с питьевой водой на пересечении улиц Броуд (так в то время называлась улица Бродвик. — Примеч. персе.) и Кембридж. Сноу отметил:
«Изучив район, я обнаружил, что почти все смертельные случаи были зафиксированы неподалеку от питьевой колонки на улице Броуд. Всего 10 умерших жили в домах, ближайший источник воды к которым был расположен в другом месте. В пяти из этих случаев жители сообщили, что предпочитали брать воду из колонки на улице Броуд, а не из ближайшей к ним; еще в трех случаях дети — жертвы заболевания проходили мимо этой колонки по дороге в школу».