Даже последовательность звуков, которые, как нам кажется, мы слышим в слове, является иллюзией. Если разрезать магнитофонную пленку с записью произнесенного слова cat [kæt] ‘кошка’, то в результате нельзя получить отрывки, которые звучали бы как k, a и t (как единицы, называемые «фонемами», которые приблизительно соответствуют буквам алфавита). А если соединить отрывки в обратном порядке, то результатом будет не tack [tæk], а нечто, не поддающееся пониманию. Как мы увидим далее, информация о каждом компоненте слова распространяется на слово целиком.

Восприятие речи — это еще одно биологическое чудодейство, составляющее языковой инстинкт. В использовании рта и ушей как каналов коммуникации есть очевидные преимущества, и мы не найдем ни одно сообщество обладающих слухом людей, которое предпочло бы жестовый язык, хотя он точно так же выразителен. Речь не требует хорошего освещения, видения лица собеседника или полного задействования рук и глаз; слова можно прокричать издалека или прошептать, чтобы сказанное осталось втайне. Но, чтобы воспользоваться преимуществами звуковой передачи информации, речь должна преодолеть ту проблему, что ухо — это узкий информационный канал. Когда в 40-х годах инженеры впервые пытались изобрести читающие машины для слепых, они создали набор шумов, которые соответствовали буквам алфавита. Даже после усиленной тренировки люди не могли различать эти звуки быстрее, чем хорошие операторы азбуки Морзе, — три единицы в секунду. Живая речь почему-то воспринимается на порядок быстрее: от десяти до пятнадцати фонем в секунду при восприятии обычной речи, от двадцати до тридцати в секунду при прослушивании рекламы, идущей в вечерние часы, и до сорока — пятидесяти в секунду при искусственно ускоренной речи. Учитывая то, как работает человеческая система восприятия речи на слух, в это трудно поверить. Когда какой-либо звук, например, щелчок, повторяется со скоростью двадцать раз в секунду или быстрее, мы слышим его уже не как последовательность отдельных звуков, но как тихий шум. Если мы слышим сорок пять фонем в секунду, то фонемы вряд ли могут быть последовательностью отдельных звуков; должно быть, несколько фонем «упаковано» в каждом моменте звучания речи, а наш мозг каким-то образом «распаковывает» их. В результате речь — это самый быстрый способ получить информацию с помощью слуха.

Ни одна изобретенная человеком система не может сравниться с самим человеком в расшифровке речи. И не потому, что в такой системе нет необходимости, или, что в ее разработку не вкладывалось много усилий. Распознаватель речи был бы незаменим для слепых и других инвалидов, для профессионалов, которым нужно внести информацию в компьютер, в то время, когда заняты их руки или глаза, для тех, кто не научился печатать на машинке, для тех, кто пользуется телефонными услугами и для растущего числа машинисток, которые становятся жертвами синдрома повторяющихся движений. Поэтому не удивительно, что инженеры уже более сорока лет бьются над тем, чтобы заставить компьютер распознавать звучащее слово. Но им пришлось встать перед выбором: или, или. Если от системы требуется выслушивать большое количество людей, она может распознавать только очень небольшое количество слов. Например, телефонные компании начинают устанавливать вспомогательные справочные системы, которые могут распознать слово «да», сказанное любым человеком, или (для более продвинутых систем) названия десяти цифр, произносимых на английском языке, которые, к счастью для инженеров, звучат совершенно по-разному. Но если от системы требуется распознавать большое количество слов, то она должна быть приспособлена к голосу одного и того же говорящего. Ни одна система на сегодняшний день не может продублировать человеческую способность распознавать много слов и многих говорящих. Возможно, наивысшим достижением является система DragonDictate, написанная для персонального компьютера и способная распознавать 30 000 слов. Но у нее есть несколько ограничений. Ее нужно долго приспосабливать к голосу пользователя. С… ней… нужно… разговаривать… так — с паузами в четверть секунды между словами (таким образом, она действует на одной пятой скорости обычной речи). Если нужно использовать слово, которого нет в словаре, например, имя, то придется проговорить его по буквам, пользуясь специальной азбукой «Alpha, Bravo, Charlie»[75]. И тем не менее, приблизительно в пятнадцати процентах случаев программа путает слова — наблюдается более, чем одно перепутанное слово на предложение. Этот замечательный программный продукт не может сравниться даже с посредственной стенографисткой.

Физический и нейронный механизм речи являются решением двух проблем в строении системы человеческой коммуникации. Человек может знать 60 000 слов, но его речевой аппарат не может издать 60 000 различных шумов, по крайней мере тех, которые можно легко различить на слух. Отсюда следует, что язык снова использует принцип дискретной комбинаторной системы. Предложения и синтаксические группы строятся из слов, слова строятся из морфем, а морфемы, в свою очередь — из фонем. Хотя, в отличие от слов и морфем, фонемы не несут порции информации, из которых складывается целое. Значение слова dog невозможно вывести из значения d, значения o, значения g и порядка их следования. Фонемы — это особый вид лингвистических объектов. Их соединение обращено наружу — к речи, а не внутрь — к мыслекоду: фонема соответствует акту издавания звука. Деление на независимые друг от друга дискретные комбинаторные системы, одна из которых комбинирует незначимые звуки в значимые морфемы, а другая комбинирует значимые морфемы в значимые слова, синтаксические группы и предложения, является основной чертой строения человеческого языка, которую лингвист Чарльз Хоккет назвал «дуализмом структуры».

Но у фонологического модуля языкового инстинкта имеются и иные задачи помимо проговаривания морфем по буквам. Языковые правила — это дискретные комбинаторные системы: фонемы четко заскакивают в морфемы, морфемы — в слова, слова — в синтаксические группы. Они не смешиваются, не сливаются и не путают высказывание: Dog bites man ‘Собака кусает человека’ с Man bites dog ‘Человек кусает собаку’, а вера в God ‘Бога’ отличается от веры в Dog ‘Собаку’. Но чтобы переместить эти структуры из головы одного человека в голову другого, эти правила нужно преобразовать в слышимые сигналы. Слышимые сигналы, которые могут быть продуцированы людьми, это не то же самое, что отрывистые гудки на телефоне с кнопочным набором. Речь — это поток дыхания, изгибающийся то в сторону шипения, то в сторону гудения благодаря мягким тканям ротовой полости и горла. Проблемы, встающие перед Матерью-Природой — это преобразование цифровой записи в аналоговую, когда говорящий зашифровывает цепочки дискретных символов в непрерывный поток звуков, и аналоговой записи — в цифровую, когда слушающий расшифровывает непрерывную речь обратно в дискретные символы.

Таким образом, звуки языка сгруппировываются вместе в несколько этапов. Единицы, отобранные из ограниченного набора фонем ставятся в порядке, необходимом для идентификации слов, а получившиеся в итоге цепочки фонем видоизменяются так, чтобы облегчить произношение и понимание, прежде, чем начинается их артикуляция. Я проведу вас по каждому из этих этапов и покажу, как благодаря им возникают следующие связанные с речью явления: стихи и песни, послышавшиеся звуки, акценты, понимающие речь механизмы и сумасшедшее английское правописание.

* * *

Один из простых путей понять, что же такое звуки речи — это проследить движение объема воздуха по речевому аппарату наружу из легких.

Когда мы говорим, мы изменяем своему обычному ритмичному дыханию и делаем быстрые вдохи, а затем равномерно выпускаем воздух, используя реберные мышцы, чтобы противодействовать силе эластической тяги легких. (Если бы мы этого не делали, наша речь звучала бы как жалобное завывание спускаемого надувного шарика.) Синтаксис берет верх над углекислым газом: мы подавляем функции тонко настроенного узла обратной связи, контролирующего частоту дыхания для регулярности забора кислорода, и вместо этого растягиваем время выдоха до длины высказывания, которое желаем сделать. Это может привести к легкой гипервентиляции или гипоксии; вот почему так изнурительна речь на публике и почему так трудно поддерживать разговор с партнером, бегущим трусцой.