Как нашли автора знаменитого в Англии детектива, которым оказалась Джоан Роулинг? Как отобрали основных претендентов на роль создателя Биткойна? Как работодатель может узнать, что именно вы пожаловались на него в интернете? Это отнюдь не все примеры возможностей лингвистического анализа - стилометрии.
Как работает метод
Стилометрия, уходящая корнями в Средние века (основы заложил итальянский филолог Лоренцо Валла), – это набор математических методов, применяемых для установления авторства письменного текста. Обычно к стилометрии прибегают для атрибуции или датировки текста, а применяют её как в филологии, так и в юридической экспертизе.
Ранее Русский TVNET уже рассказывал о том, что математики научились отличать подлинную живопись от поддельной при помощи стилометрии. Однако речь шла о сопоставлении художественных картин.
Центральную роль в методе играет статистика и теория вероятности, а исходником служат объёмные тексты. Для каждого текста высчитывают набор примет, таких как средняя длина слов, предложений, параграфов, а также то, как часто встречается (или как редко) отдельные элементы речи (для английского языка это the, to и им подобные).
Вычисляется авторский стиль. Хотя это всего лишь цифры, они помогают исследователям судить о том, кем написан текст.
Выбор слов, структура предложений, синтаксис, пунктуация, стилистические ошибки — всё как на ладони.
Как Джоан Роулинг вывели на чистую воду