Статистическая лингвистика, дисциплина, изучающая количественные закономерности естественного языка, проявляющиеся в текстах. В основе С. л. лежит предположение, что некоторые численные характеристики и функциональные зависимости между ними, полученные для ограниченной совокупности текстов, характеризуют язык в целом или его функциональные стили (публицистический, научный, художественный и т.п.). Практически важной и наиболее изученной числовой характеристикой является относительная частота употребления различных лингвистических единиц (букв, фонем, слогов, слов, синтаксических конструкций), их классов (например, гласных, согласных, частей речи) и сочетаний (например, последовательностей из n букв). Данные о частоте слов (иногда словосочетаний) отражаются в частотных словарях. Важную роль в С. л. играет функциональная зависимость, приближённо описывающая связь между частотой слова и его номером (рангом) в последовательности по убыванию частот — Ципфа — Мандельброта закон. С. л. изучает также зависимости между частотой и длиной слова (в числе слогов), числом его значений и возрастом. Накопленные данные используются для выявления особенностей стиля отдельных авторов, атрибуции текстов, дешифровки исторических письменностей, для решения задач стенографии, теории связи, а также информатики. С. л. при получении численных характеристик использует методы математической статистики и некоторые методы теории информации (для определения энтропии и избыточности языка, см.(смотри) Информации теория), а для установления связи между наблюдаемыми характеристиками и выбора наиболее существенных из них — метод математических моделей, базирующихся на понятиях теории вероятностей (см. Вероятностей теория) и математической лингвистики. Возможно более широкое понимание С. л. как использования методов статистики для проверки лингвистических гипотез, которые могут носить и качественный характер.
Лит.: Головин Б. Н., Язык и статистика, М., 1971; Фрумкина Р. М., Статистические методы и стратегия лингвистического исследования, «Изв. АН(Академия наук) СССР. Серия литературы и языка». 1975, т. 34, №2; Штейнфельдт Э. А., Частотный словарь современного русского языка, Таллин, 1963; Herdan G., The advanced theory of language as choice and chance, B.,1966; Mulier Ch., Initiation a la statistique linguistique, P., 1968.