Воздух покидает легкие через трахею (воздушную трубку), которая ведет в гортань (центр голосообразования, который виден снаружи — это кадык, или адамово яблоко). Гортань — это клапан, состоящий из отверстия — голосовой щели — закрытой двумя лоскутами сократимой мышечной ткани, называемой голосовыми складками (они также называются «голосовыми связками» из-за ошибки в ранних анатомических исследованиях; они вовсе не являются связками)[76]. Голосовые связки могут плотно смыкать голосовую щель, «запечатывая» легкие. Это необходимо, когда мы хотим увеличить жесткость верхней части тела, являющейся мягким воздушным резервуаром. Поднимитесь со стула без помощи рук — вы почувствуете, как напрягается гортань. Гортань также перекрывается при осуществлении физиологических функций, таких как кашель или дефекация. Хрип штангиста или игрока в теннис — это напоминание о том, что мы используем один и тот же орган, чтобы запечатывать легкие и продуцировать звуки.

Голосовые связки могут также частично прикрывать голосовую щель, чтобы производить шум при прохождении через них воздуха. Так происходит потому, что проходящий под большим давлением воздух раздвигает голосовые связки до полного открытия, после чего они устремляются назад и смыкаются, перекрывая голосовую щель, пока их снова не раздвинет давление воздуха, начиная новый цикл. Дыхание, таким образом, разбивается на циклы изгнания воздуха, которые мы воспринимаем как шум под названием «звонкость». Этот шум можно услышать и почувствовать, если произнести звук sssssssssss, не обладающий звонкостью, и звук zzzzzzzzz, который ею обладает.

Частота открытия и закрытия голосовых связок обуславливает высоту голоса. Меняя степень напряжения и положение голосовых связок, можно контролировать эту частоту и, таким образом, высоту. Это можно ясно наблюдать во время пения или «мурлыкания» мелодии, но мы также можем постоянно изменять высоту голоса на протяжении предложения — этот процесс называется интонацией. Нормальная интонация — это то, благодаря чему естественная речь звучит отлично от речи роботов в старых научно-фантастических фильмах и от речи «конусоголовых» в «Сэтердей найт лайв». Интонации также уделяется особое внимание в сарказмах, при логическом ударении и тогда, когда тон голоса становится эмоциональным — во время гнева или ликования. В «тональных» языках, таких как китайский, поднимающиеся или падающие тоны являются смыслоразличительным признаком для гласных.

Хотя звонкость и создает звуковую волну с доминирующей частотой вибрации, это не то же самое, что камертон или позывные радиостанции «Имердженси Бродкастинг Систем» — чистый тон с единственной частотой. Звонкость — это интенсивный шум со множеством обертонов. Мужской голос — это волна с вибрациями не только при 100 Гц, но и при 200, 300, 400, 500, 600, 700 Гц и так далее вплоть до 4000 Гц и больше. Женский голос вибрирует при 200, 400, 600 Гц и так далее. Интенсивность источника звука имеет решающее значение — это то сырье, из которого остальная часть голосового тракта формирует гласные и согласные.

Если по каким-то причинам мы не можем издавать шум гортанью, подойдет любой интенсивный источник звука. Когда мы шепчем, мы раздвигаем голосовые связки, заставляя поток воздуха хаотически разбиваться об их выступы и создавая турбулентность или шум, который звучит как шипение или радио-помехи. Шипящий шум — это не с определенной периодичностью повторяющаяся волна, состоящая из последовательности обертонов, которую мы встречаем в обладающем периодичностью звуке человеческого голоса, но неровная зазубренная волна, состоящая из мешанины постоянно изменяющихся частот. Тем не менее этой мешанины достаточно остальному голосовому тракту для продуцирования внятного шепота. Некоторые пациенты, перенесшие ларинготомию, учатся чревовещанию, или управляемому рычанию, которое обеспечивает необходимый шум. Другие помещают на шею вибратор. В 1970 г. гитарист Питер Фрэмптон пропустил усиленный звук своей электрогитары через трубку себе в рот, что позволило ему во время выступления выправлять свою гнусавость. Благодаря этому эффекту он записал пару хитов, прежде чем погрузиться в рок-н-ролльное забвение.

Затем, прежде чем покинуть голову, интенсивно вибрирующий воздух проходит через анфиладу полостей: горло, или «фаринкс», находящееся позади языка, область рта между языком и нёбом, отверстие между губами и альтернативный путь во внешний мир через нос. Каждая полость имеет определенную длину и форму, которые влияют на проходящий звук посредством явления под названием «резонанс». У звуков разных частот разная длина волны (расстояние между соседними гребнями звуковой волны); у высоких звуков длина волны короче. Звуковая волна, идущая по трубе, отражается назад, достигнув отверстия на другом конце. Если длина трубы кратна длине звуковой волны, то каждая отраженная волна усиливает идущую за ней; если же она не кратна длине волны, то они гасят друг друга. (Это сходно с тем, как можно достичь наилучшего эффекта, раскачивая ребенка на качелях — нужно синхронизировать каждый толчок с самым высоким положением качелей.) Отсюда следует, что труба определенной длины «отфильтровывает» звуковые частоты, усиливая одни и гася другие. Этот эффект можно наблюдать во время наполнения жидкостью бутылки. Шум падающей воды изменяется воздушной прослойкой между входным отверстием и донышком: чем больше воды, тем меньше прослойка, тем выше резонансная частота этой прослойки, и тем более высокий, металлический звук у булькания.

То что мы слышим как различные гласные звуки — это различные комбинации усиления и гашения звука, идущего из гортани. Эти комбинации порождаются изменением положения пяти органов речи в ротовой полости, благодаря чему резонансные полости, по которым проходит звук, изменяют форму и длину. Например, звук, обозначаемый буквами ee [i:] определяют два резонанса, один — от 200 до 350 Гц, порождаемый в основном полостью рта, а другой — от 2100 до 3000 Гц, порождаемый в основном горловой полостью. Диапазон частот, которые отфильтровываются той или иной полостью, не зависит от определенной смеси частот, которые в эту полость попадают; поэтому мы слышим ee как ee вне зависимости от того, произносят ли этот звук достаточно громко, шепчут, пропевают на высокой ноте, пропевают на низкой ноте, произносят рыча или произносят гнусаво.

Язык (tongue) — это наиболее важный орган речи; благодаря ему язык (language) поистине является «даром языков» (tongues). На самом деле, язык является тремя органами речи в одном: корпус языка, его кончик и корень (мускулы, которыми он крепится к челюсти). Произнесите несколько раз подряд гласные в словах bet [e] и butt [ʌ] — e-uh e-uh e-uh. Вы почувствуете, как корпус языка двигается вперед и назад (если вы поместите палец между зубами, то это можно почувствовать пальцем). Когда язык находится в передней части рта, он удлиняет полость позади себя — в горле — и укорачивает ротовую полость перед собой, изменяя резонансы: для гласного в слове bet рот усиливает звуки до приблизительно 600 и 1800 Гц; для гласного в слове butt он усиливает звуки около 600 и 1200 Гц. Теперь произнесите по очереди гласные звуки в словах beet [i:] и bat [æ]. Корпус языка запрыгает вверх и вниз под прямым углом к движению bet-butt, можно даже почувствовать, как, помогая произношению, движется челюсть. Это также изменяет форму горловой и ротовой полости и, соответственно, их резонансы. Мозг воспринимает разные варианты усиления и гашения звука как разные гласные.

Связь между положением языка и разными гласными звуками, которые он образовывает, порождает одну своеобразную особенность английского и многих других языков, носящую название фонетического символизма. Когда язык находится в переднем положении в верхней части рта, он создает там маленькую резонансную полость, которая усиливает некоторые высокие частоты, и получающиеся в результате звуки, например, выражаемые буквами ee [i:] и i [ɪ] (как в слове bit) вызывают у людей ассоциацию с маленькими вещами. Когда язык находится в нижнем положении и оттянут назад, он создает большую резонансную полость, которая усиливает некоторые низкие частоты, и получающиеся гласные звуки, такие как a [ɑː] в слове father и o в словах core [ɔː] или cot [ɔ] ассоциируются с чем-то большим. Поэтому мыши мали-усенькие (teeny [iː]) и издают писк (squeak [iː]), а слоны огромные (humongous [ɔː]) и ревут (roar [ɔː]). В аудио-колонках есть маленькие tweeters [iː] («пищалки») для высоких частот и большие woofers [uː] (басовики) для низких. Носители английского языка правильно догадываются, что в китайском ch’ing [чинг] означает ‘легкий’, a ch’ung [чанг] ‘тяжелый’. (В контрольных исследованиях на большом количестве иностранных слов уровень правильных догадок статистически выше, чем по теории вероятности, хотя и не намного.) Когда я допрашивал нашу местную компьютерную чародейку, что она имела в виду, когда сказала, что собирается произвести действие frob моей рабочей установкой, она провела для меня краткий обзор хакерского жаргона. Когда вы присоединяете новый графический эквалайзер к вашему стерео и бесцельно двигаете вверх и вниз рычажки, чтобы послушать, какой от этого будет эффект, это называется frobbing. Когда вы устанавливаете рычажки в среднее положение, чтобы достичь желаемого качества звука, — это называется twiddling. Когда вы делаете последние маленькие поправки, чтобы добиться идеала, это называется tweaking. Гласные звуки в -ob, -id и -eak идеально соответствуют простирающемуся от малого до большого диапазона фонетического символизма.