Лингвистический анализ приспособили для деанонимизации

12/01/2013 11:21

Группа аспирантов из американского Университета Дрекселя на конференции 29C3 в Берлине представила способ установить автора анонимной публикации путем лингвистического анализа материалов, опубликованных в Сети, сообщает SC Magazine Australia. Исследователи предлагают исследовать материалы - это могут быть "твиты", электронные письма, сообщения из программ обмена сообщений или форумов - с точки зрения статистической стилистики, выявляя в них закономерности и общие черты. Одним из главных ориентиров, позволяющих вычислить человека, являются служебные слова, которые он использует в переписке, утверждает Садиа Афроз (Sadia Afroz), одна из разработчиков метода. Служебные слова используются не для обозначения предметов, а для выражения отношений между другими членами предложения. Затруднить поиск могут использование автором "альтернативного алфавита" или языка, отличного от английского (создатели метода, напомним, являются американцами), однако текст, переведенный автоматическим переводчиком, также может успешно выступать материалом для анализа. Инструмент для установления авторства текста, созданный исследователями, получил название JStylo. Программа существует в виде альфа-версии; ее разработка еще не завершена. JStylo способна успешно выявить автора текста лишь при соблюдении ряда условий, уточняют разработчики. Во-первых, круг "подозреваемых" должен быть ограничен 50 людьми или менее. Во-вторых, на каждого "подозреваемого" должен быть собран языковой материал - тексты совокупной длиной не менее 6500 слов. В-третьих, длина текста, авторство которого нужно установить, должна превышать 500 слов. Когда разработка JStylo будет завершена, инструмент сможет использоваться для выявления личностей злоумышленников - хакеров, взломщиков программ, создателей вирусов, операторов ботнетов. Материалом для анализа станут сообщения, оставленные ими на тематических форумах. Одновременно с JStylo исследователи разрабатывают инструмент Anonymouth, задача которого состоит в обратном - помочь авторам "зашифровать" свои сообщения, оформив их в нехарактерном стиле: например, введя дополнительные предложения, изменив слова или переставив знаки препинания.
Источник