Эти аргументы можно выдвинуть потому, что проведенные исследования не являются экспериментами в полном смысле этого слова, как было в случае с испытаниями вакцины против полиомиелита или при изучении действия аспирина по профилактике сердечных заболеваний. В этих случаях участники эксперимента случайным образом делились на две группы, экспериментальную и контрольную, так чтобы все возможные различия между ними являлись следствием изучаемого явления. Считалось, что причиной любых существенных различий между двумя группами является именно изучаемое явление. Однако исследования воздействия табака не были экспериментальными: две группы, курильщики и некурящие, уже были сформированы, и ученые лишь наблюдали за развитием событий. Нельзя было заставить курить некурящих или уговорить заядлых курильщиков бросить курить. С теоретической точки зрения в идеальном исследовании курить должны все, но половина испытуемых, выбранная случайным образом, должна курить обычный табак, а другая половина — некое совершенно безвредное вещество, по вкусу и остальным свойствам идентичное табаку.
Производители сигарет могли бы заявить, что только такое исследование является корректным, и были бы правы. Однако оно настолько же корректно, насколько и нереализуемо на практике. Все же доступные данные однозначно указывают, что табак — важный фактор возникновения рака легких и мочевого пузыря, сердечно-сосудистых и других заболеваний. Связь между раком легких и употреблением табака была отмечена во множестве исследований, выполненных в различных странах и условиях. Это устраняет возможную предрасположенность к этим заболеваниям определенной группы людей. Кроме того, известно, какие именно вещества, содержащиеся в табачном дыме, могут вызывать рак. Гипотеза о генетической предрасположенности не объясняет роста числа заболеваний среди женщин, которые начали курить, и среди некурящих, постоянно находящихся рядом с курильщиками. Эти факты не всегда были очевидны, и обнаружить их помогла именно статистика.
При разработке экспериментов для сравнения различных лекарств, катализаторов химической реакции и так далее наиболее важный момент — получить два множества данных, которые отличаются единственной переменной, изучаемой в эксперименте. При проведении подобных экспериментов в медицине могут сравниваться два лекарства или выясняться эффект от приема лекарства по сравнению с плацебо, как в случае с вакциной полиомиелита или при анализе действия аспирина по предотвращению инфарктов. Как вы уже видели, ключевой вопрос — как разделить участников исследования на две максимально похожие группы. Парадоксально, но наилучшие результаты достигаются при формировании групп случайным образом. В этом случае любые значимые различия между группами (то есть те, которые нельзя объяснить случайными событиями) объясняются различным воздействием изучаемого фактора на обе группы. Однако если помимо изучаемого фактора на группы действуют и другие факторы, то нельзя сказать, что именно является причиной различий в результатах групп.
Рассмотрим пример. Одной из классических книг по проведению экспериментов является Statistics for Experimenters Бокса, Хантера и Хантера, где объясняется, как нужно провести эксперимент, чтобы сравнить степень износа различных материалов, из которых изготавливается подошва молодежной обуви. Если в эксперименте участвует всего 10 молодых людей, их можно разделить случайным образом на две группы по 5 человек: члены одной группы получат обувь с подошвой из материала А, члены второй группы — обувь с подошвой из материала В. По прошествии определенного времени (например, полугода) нужно измерить износ подошв на всех парах обуви и провести соответствующий статистический анализ (в этом случае будет использоваться так называемый t-критерий Стьюдента для независимой выборки).
Естественно, что группы следует формировать случайным образом. Не стоит просить подростков выстроиться в шеренгу и выдавать первым пяти обувь с подошвой из материала А, последним пяти — обувь с подошвой из материала В: те, кто встал в шеренгу первыми, больше бегают и двигаются, поэтому быстрее износят обувь.
Однако этот способ сбора данных имеет один недостаток. Износ подошвы зависит не только от материала (именно это мы анализируем в ходе эксперимента), но и от самого подростка: некоторые из них больше бегают и будут даже играть в футбол в этой обуви, другие будут бегать меньше. Некоторые, возможно, почти не будут надевать выданную обувь, так как она им не понравится или они побоятся порвать ее, и подошвы не износятся.
Так как на износ подошвы влияет не только материал, из которого она изготовлена, но и другие факторы, то мы не сможем определить, какой именно фактор будет причиной возможных различий. Может случиться так, что по вине посторонних факторов различий наблюдаться не будет, но в действительности подошвы из анализируемых материалов будут изнашиваться по-разному.
Как справиться с этой проблемой? Нужно выдать каждому подростку один ботинок с подошвой из первого материала, другой — с подошвой из другого материала. В этом случае все возможные отличия в износе подошвы будут вызваны исключительно различными свойствами материалов и никаким другим фактором. В этом случае сравниваются не средние значения в обеих группах, а износ подошв обоих ботинок каждого подростка. Если одна подошва в среднем изнашивается больше другой (не имеет значения, насколько сильно они изнашиваются, важна лишь разница между ними), это вызвано различием в свойствах материалов.
Для сравнения средних значений выборок, сформированных таким образом, используется так называемый t-критерий Стьюдента для парных выборок.
Очевидно, что не следует изготавливать из материала А подошву только правых ботинок, а из материала В — подошву левых ботинок, так как, возможно, подошвы на одной ноге в среднем изнашиваются больше. Этого можно избежать, если чередовать материалы случайным образом (например, бросать монету для каждой пары обуви, и если выпадает решка, то из материала А изготавливается подошва правого ботинка).
Таким образом, ожидается, что если обувь на конкретной ноге изнашивается больше, при чередовании материалов случайным образом возможное влияние этого фактора будет устранено.
* * *
УИЛЬЯМ СИЛИ ГОССЕТ, ОН ЖЕ «СТЬЮДЕНТ»
Любой, кто хотя бы немного изучал статистику, непременно сталкивался с распределением Стьюдента, которое используется даже чаще, чем нормальное распределение, или с t-критерием Стьюдента для сравнения средних значений.
Стьюдент — это псевдоним, которым подписывал свои работы Уильям Сили Госсет (1876–1937), внесший огромный вклад в статистику. Всю свою жизнь он проработал на пивоваренном заводе Guinness в Дублине.
В начале XX века, когда Госсет окончил курсы математики и химии в Университете Оксфорда, компания Guinness перешла в руки юного наследника, который решил отойти от традиционных способов изготовления пива и воспользоваться помощью ученых в разработке новых, более совершенных способов пивоварения. Одним из тех, кто был принят на работу, был Стьюдент. Он быстро понял, как важно использовать методы статистики при сравнении различных рецептов приготовления пива. Было необходимо изучить влияние сырья, характеристики которого существенно варьировались и были подвержены воздействию факторов окружающей среды. Требовалось проводить эксперименты, но их число всегда было недостаточным, и нужно было делать выводы на основе небольшого объема доступных данных. До того времени считалось, что использованные выборки всегда были достаточно велики, чтобы по ним можно было точно оценить параметры генеральной совокупности. Однако при работе с малыми выборками оценки были неточными, и ими нельзя было руководствоваться. Госсет занялся поисками решения этой задачи и опубликовал свои выводы под псевдонимом Стьюдент, поскольку сотрудникам компании запрещалось публиковать статьи с результатами своих исследований.
Существует несколько версий того, как и почему Госсет выбрал себе такой псевдоним. По одной из версий, в компании Guinness стало известно об увлечении Госсета математикой уже после его смерти, однако другие источники указывают, что в компании знали о том, что он публикует статьи, а псевдоним Стьюдент предложил сам директор. По-видимому, целью Госсета было не сохранить в секрете разрабатываемые им теории, а скрыть от конкурентов, что Guinness использует статистические методы для улучшения качества продукции.