Пользователи интернета невольно помогут оцифровать миллионы книг

14/09/2008 11:02

ользователи интернета могут помочь в переводе в электронную форму миллионов книг, не подозревая о собственном участии в этом проекте, пишут исследователи из американского университета Карнеги-Меллон в статье, опубликованной в журнала Science. Крупные проекты по оцифровке книг, которые позволяют сохранить информацию и сделать ее доступной для миллионов интернет-пользователей, наталкиваются на проблему несовершенства программного обеспечения, распознающего печатный текст. "В старых книгах с выцветшей краской и пожелтевшими страницами программы распознавания текста (OCR) не могут расшифровать около 20% слов", - пишут авторы. Точность человека как "инструмента" распознавания текста достигает 99%. "К несчастью, привлечение людей-расшифровщиков обходится очень дорого, так что вручную переводятся в цифровую форму только документы исключительной важности", - говорится в статье. Ученые из Карнеги-Меллона предлагают использовать для расшифровки слов, неправильно распознанных программой, пользователей интернета, которые каждый день вводят в формах авторизации намеренно искаженные слова на картинках, доказывая, что они люди, а не роботы. Технология CAPTCHA (Completely Automated Public Turing test to tell Computers and Humans Apart ) была разработана в 2000 году. Она призвана определить, человек или компьютер пользуется системой, с помощью задач, которые может решить только человек, но не программа. Одна из наиболее распространенных форм этого теста состоит в том, что пользователю предлагается прочесть и ввести слово, изображенное на картинке намеренно искаженными буквами. CAPTCHA используется, чтобы предотвратить использование интернет-сервисов роботами, в частности, для предотвращения автоматических отправки сообщений, регистрации, скачивания файлов, массовых рассылок. По данным авторов статьи, люди по всему миру проходят каждый день более 100 миллионов тестов CAPTCHA, тратя в каждом случае несколько секунд на распознавание намеренно искаженных символов. Созданная учеными технология reCAPTCHA позволяет получать полезный результат - оцифрованные книги. Программа в ходе эксперимента была размещена на 40 тысячах сайтов, которые нуждались в отделении людей от роботов. Каждый пользователь, проходивший тест, получал картинку со словом из книги, неверно распознанным программой, а также контрольное слово. Если пользователь верно распознавал контрольное слово, программа считала, что и слово из книги он распознал верно. "Точность системы reCAPTCHA достигала 99,1% (216 ошибок на 24 тысячи 80 слов), в то время как точность программ распознавания текстов достигала лишь 83,5% (3 тысячи 976 ошибок)", - говорится в статье. Авторы технологии отмечают, что созданная ими система выгодна для владельцев сайтов еще и более высоким уровнем безопасности, так как в тесте используются слова, заведомо неверно распознанные автоматическими средствами - следовательно и роботы их распознать не смогут.
Источник