Как нашли автора знаменитого в Англии детектива, которым оказалась Джоан Роулинг? Как отобрали основных претендентов на роль создателя Биткойна? Как работодатель может узнать, что именно вы пожаловались на него в интернете? Это отнюдь не все примеры возможностей лингвистического анализа - стилометрии. 

Как работает метод

Стилометрия, уходящая корнями в Средние века (основы заложил итальянский филолог Лоренцо Валла), – это набор математических методов, применяемых для установления авторства письменного текста. Обычно к стилометрии прибегают для атрибуции или датировки текста, а применяют её как в филологии, так и в юридической экспертизе. 

Ранее Русский TVNET уже рассказывал о том, что математики научились отличать подлинную живопись от поддельной при помощи стилометрии. Однако речь шла о сопоставлении художественных картин.

Центральную роль в методе играет статистика и теория вероятности, а исходником служат объёмные тексты. Для каждого текста высчитывают набор примет, таких как средняя длина слов, предложений, параграфов, а также то, как часто встречается (или как редко) отдельные элементы речи (для английского языка это the, to и им подобные).

 Вычисляется авторский стиль. Хотя это всего лишь цифры, они помогают исследователям судить о том, кем написан текст. 

Выбор слов, структура предложений, синтаксис, пунктуация, стилистические ошибки — всё как на ладони. 

Как Джоан Роулинг вывели на чистую воду

Один из знаменитейших примеров работы стилометрии на практике связан с "мамой" Гарри Поттера Джоан Роулинг. 

"Зов кукушки" - криминальный роман 2013 года под авторством некого Роберта Гэлбрейта. Когда книга вышла в свет, вокруг неё разгорелись нешуточные страсти. Роман настолько сильно понравился читателям, что зародил сомнения в том, кто же автор. Не мог новоявленный писатель (бывший член отдела спецрасследований Королевской Военной Полиции, как сообщалось на сайте издательства) написать настолько хорошую вещь. 

СМИ подняли ажиотаж вокруг книги, начали сопоставлять факты. Оказалось, что ранее Роулинг сообщала о том, что хочет начать писать под псевдонимом, а её агент представляет и Гэлбрейта.

Чтобы догадки не оказались очередным набором совпадений, пришлось обратиться к признанным экспертам стилометрии. Ключевым моментом в раскрытии личности автора романа стала экспертиза, проведённая специалистом по лингвистике Питером Миликаном. 

Стилометрическому анализу были подвержены несколько текстов самой Роулинг и парочки других писателей. Вывод гласил: Джоан Роулинг и Роберт Гэлбрейт - один человек. Специалисты выявили, что стилистических отличий "Кукушки" от "Поттерианны" немного, а от "Случайной вакансии" (автор Роулинг) ещё меньше. После разоблачения Times решились задать вопрос в лоб самой Роулинг и уже через неделю она и её подопечные сознались, что Роберт Гэлбрайт - её псевдоним.

Как определили возможного создателя Bitcoin

Сатоси Накамото - создатель или создатели криптовалюты биткойн. Вплоть до сегодняшнего дня личность разработчика платёжной системы остаётся загадкой для общественности. В СМИ уже не один раз поднималась тема того, кто же автор чудо-разработки и не один раз обсуждались методы, с помощью которых пытались обличить автора. 

В октябре 2011 года журналист Адам Пененберг поделился своими доказательствами того, что три человека могут быть Накамото делового журнала Fast Company. Нил Кинг, Владимир Оксман и Чарльз Брай - имена людей, с наибольшей вероятностью способных оказаться разработчиком криптовалюты. Все они являются авторами ещё нескольких патентов, близких к технологии Bitcoin. Однако никто из людей не признал, того что он создатель или причастен. 

В издании The New Yorker рассказывалось о том, что лингвистический анализ проводился, используя все онлайновые сообщения, отправленные от имени пользователя Сатоси Накамото. В ходе анализа выяснилось, что Сатоси прекрасно знает английский язык, пишет без ошибок и опечаток, а также у него выработан авторский стиль. В первом доступном сообщении он выражался с помощью американского английского, вскоре сменив свою речь на "литературный" английский. К тому же он не просто говорил на английском, а он использовал утонченные фразы типа "bloody hard". 

По мнению Адама Пененберга, разработчик Bitcoin специально маскируется британской речью, чтобы осложнить лингвистический анализ своих текстов. Отсюда последовал вывод, что Сатоси обладает выдающимся интеллектом и знает, как замести следы.

Параллельно с независимым анализом, своё расследование провело Агентство национальной безопасности Соединённых Штатов. По крайне мере, по словам интернет-предпринимателя Александра Мьюса, сославшегося на свои источники в Министерстве национальной безопасности.

Несмотря на то, что информация не была ни подтверждена, ни опровергнута - метод использовали примерно такой же. 

Людям свойственно повторяться в своих текстах. Без исключения. Чего уже говорить о технических терминах и предложениях, где шаблонность высказываний достигает наибольшего повтора. Специалисты сравнили известные тексты Сатоси с триллионами других текстов других авторов из интернета. Кратко: взяли 50 слов и словосочетаний, наиболее популярных в известных текстах Сатоси и сравнили с письмами и чатами миллиарда человек. Процесс занял не больше месяца и говорят дал положительный результат.

Как налоговые декларации привели к распознанию личности Элены Ферранте

Пожалуй, самый интересный случай того, как было выявлено авторство с помощью стилометрии, произошёл в Италии. Элена Ферранте - псевдоним некой итальянской писательницы. Её книги широко обсуждаются американскими и местными СМИ. Однако никто никогда не встречал автора. 

Существовало несколько версий того, кто скрывается под псевдонимом Ферранте. Многие считали, что это супруги Сандро Ферри и Сандра Оццола, возглавляющие итальянское издательство, в котором опубликованы все книги Ферранте. Другие считали, что это итальянская переводчица - Анита Райя. 

Вторые к правде были ближе. В 2016 году итальянский репортёр Клаудио Гатти в нескольких изданиях (в том числе BBC и The New York Review of Books) выразил мнение, что автор именно Анита Райя. Вывод был основан налоговых декларациях издательства и Аниты Райи. Однако споры о том, кто автор не утихали.

Всё решила стилометрия. Для анализа было выбрано восемь книг переводчицы, семь книг итальянского писателя Эрри де Лука, а также, для сравнения было решено добавить несколько книг мужа Аниты Райи Доменико Старноне, который тоже является писателем. 

Благодаря стилометрическому анализу, выяснилось, что наиболее подходящим стилем написания обладает именно муж Райи - Доменико Старноне.

Хотя и анализ был относительно поверхностным и можно сравнить произведения с ещё большим количеством творений - факт разоблачения налицо. Исследователи полагают, что дело за малым - признанием автора. В отличие от Роулинг, Старноне не спешит подтверждать своё авторство. 

Стилометрия в повседневном применении

Конечно, это примеры только нескольких анализов. Однако у желающих копнуть глубже есть возможность самим воспользоваться программами Signature Stylometric System и JGAAP. Первый инструмент интересней, так как с его помощью расследовалось несколько громких дел (например, опровергли подозрение, что автобиографию Барака Обамы написал бывший террорист).

В наши дни полезную науку, можно применить для борьбы с хакерами или создателями вредоносных программ. 

Не будем забывать, что стилометрия вычисляет авторский стиль. То есть, работодатели могут её использовать для поиска жалобщиков и несогласных.

К тому же, исследователи считают, что при помощи этой науки все споры и вопросы на тему плагиата - исчезнут на корню. 

Несложно представить, сколько ещё вопросов можно решить при помощи данного метода. Например, сейчас в русскоязычном интернете уже долгое время ведутся активные споры, является ли Дюма Пушкиным. При помощи стилометрических программ, участники конфликта могут поставить все точки над i. 

Стилометрия в Латвии

В ноябре 2017 и феврале 2018 года в Ригу уже приезжали специалисты стилометрии. Семинары проходили в Латвийском университете. Всю полезную информацию заинтересованные могут получить на сайте digitalhumanities.lv.

Также в Латвии уже вовсю действует программа цифровых наук в РТУ. Однако чтобы поступить, необходимо уже иметь степень бакалавра. Что интересно, поступить могут люди со степенью бакалавра как гуманитарных наук, так и с образованием инженера. Вот где встречаются две, казалось бы, несовместимые науки.