reCAPTCHA


reCAPTCHA
Логотип reCAPTCHA.

reCAPTCHA — система, разработанная в университете Карнеги — Меллон для защиты веб-сайтов от интернет-ботов, и одновременной помощи в оцифровке текстов книг. Является продолжением проекта CAPTCHA[1]. В сентябре 2009 года reCAPTCHA была приобретена компанией Google. На начало 2011 года, reCAPTCHA осуществляла оцифровку архивов газеты «The New York Times» и книг, доступных в Google Book Search.

Весной 2012 года Google запустил эксперимент по распознаванию изображений из Google Maps с помощью сервиса ReCAPTCHA[2].

Принцип работы

В отличие от традиционных систем распознавания пользователя как человека, путём введения определённого набора символов и цифр, система reCAPTCHA предлагает пользователю ввести два слова. Одно из них уже распознано и известно системе, другое слово системе неизвестно и не может быть распознано программой распознавания текста. Проверка ввода осуществляется по тому слову, которое известно системе. Неизвестное системе слово, введённое пользователем, сохраняется и используется в качестве возможного варианта распознания. Конечное распознание слова определяется путём вычисления наиболее часто используемого слова для ввода. Система reCAPTCHA предоставляет изображения для распознавания и собирает результаты, после чего передает их организаторам оцифровки материалов[1].

Влияние

Система широко используется такими сайтами как Facebook, TicketMaster (англ.)русск., Twitter, bash.im, StumbleUpon, «Живой журнал» и примерно 350 000 других сайтов. В день оцифровывается примерно 100 миллионов слов, что может давать примерно 2,5 миллиона книг в год. Количество отдельных людей, которые помогли оцифровать как минимум одно слово из книги оценивается в 750 миллионов человек[1]. Эффективность подобного метода достаточно высока, поскольку системе предоставляется несколько распознанных вариантов.

Поскольку слова выводятся в случайном порядке, то неизбежно возникают курьёзные сочетания слов. Это породило интернет-мем «Inglip», когда люди делают снимок экрана двух слов предоставленных системой reCAPTCHA и дорисовывают курьёзные рисунки[1].

Частичный обход

Обычно пользователю предлагается два слова, одно из которых является словарным английским, а другое — нет. Для прохождения теста достаточно ввести только не словарное слово. Начиная с мая 2011 года, нужное слово выводится при помощи двойного наложения контура букв друг на друга. С недавних пор нужное слово выводится при помощи наложения на слово волнообразной линии.

Критика

reCAPTCHA используется для распознавания отсканированных текстов. Вводящие ответ пользователи вынуждены вводить примерно вдвое больше текста, чем в других системах CAPTCH’и, но не получают за это никакого вознаграждения, а весь доход от использованного распознанного текста остаётся корпорации Google, что расценивается некоторыми как принудительная эксплуатация труда.

Тем не менее, держатели сайтов вправе оставить за собой выбор способа защиты от ботов.

Помимо этого reCAPTCHA подвергается критике пользователей из-за того, что картинки с трудом распознаются даже человеком.

Пользователь не обязан вводить оба слова. Одно из них не проверяется, узнать его довольно легко: в разное время проверяемое слово «зашумлялось» двойным контуром или волнообразной линией. К тому же в непроверяемое слово иногда попадают знаки препинания, текст на других языках, математические формулы и т. п. Также у непроверяемого слова возможна инверсия цветов фона и букв. На имиджбордах выдвигаются предложения саботировать работу reCAPTCHA вводом ругательств: если достаточное количество пользователей укажут одно и то же ругательство, система, вероятно, внесёт его в электронный документ. На это надо больше времени, чем просто ввести вместо слова одну букву, но время пользователей имиджбоард - даровое благо. К тому же, при сколько-нибудь заметной популярности слова просто попадут в блеклист.

При слишком частых запросах капчи с одного IP адреса recaptcha становится почти нечитаемой, что сильно осложняет ее ввод при использовании Tor (т.к. частота запроса капчи с выходных узлов тора намного больше, чем с обычного пользовательского IP).

Примечания

  1. 1 2 3 4 Луис фон Ан: Массовое онлайн-сотрудничество // конференция TED, 2011
  2. Peretz Sarah Google Now Using ReCAPTCHA To Decode Street View Addresses (29.03.2012). Архивировано из первоисточника 18 августа 2012. Проверено 14 августа 2012.

Ссылки


Wikimedia Foundation. 2010.

Смотреть что такое "reCAPTCHA" в других словарях:

  • ReCAPTCHA — is a system developed at Carnegie Mellon University which utilizes CAPTCHA to assist in the process of digitizing the text of books, while protecting websites from bots attempting to access restricted areas. reCAPTCHA supplies subscribing… …   Wikipedia

  • Recaptcha — Saltar a navegación, búsqueda El logo de reCAPTCHA reCAPTCHA es una extensión de la prueba CAPTCHA que se utiliza para reconocer texto presente en imágenes. reCAPTCHA se basa en el hecho de que para un ser humano puede ser simple determinar el… …   Wikipedia Español

  • ReCAPTCHA — Logo du reCAPTCHA …   Wikipédia en Français

  • ReCaptcha — Logo du reCAPTCHA …   Wikipédia en Français

  • ReCAPTCHA — Логотип reCAPTCHA reCAPTCHA  это система для защиты веб сайтов от интернет ботов (спам ботов), основанная на тесте Тьюринга и призванная оградить веб ресурсы от автоматических алгоритмов и программ путём генерации случайного текста и вывода… …   Википедия

  • reCAPTCHA — The reCAPTCHA logo reCAPTCHA is a system originally developed at Carnegie Mellon University s main Pittsburgh campus. It uses CAPTCHA to help digitize the text of books while protecting websites from bots attempting to access restricted areas.[ …   Wikipedia

  • reCAPTCHA — Logo du reCAPTCHA. Un exemple de reCAPTCHA : les mots à reconnaître sont «  …   Wikipédia en Français

  • reCAPTCHA — Beispiel einer reCAPTCHA Eingabebox reCAPTCHA ist ein CAPTCHA Dienst, also ein Verfahren, um sicherzustellen, dass eine bestimmte Handlung im Internet von einem Menschen und nicht von einem Bot vorgenommen wird. Das Besondere ist die Tatsache,… …   Deutsch Wikipedia

  • ReCAPTCHA — CAPTCHA [ kæptʃə] ist ein Akronym für Completely Automated Public Turing test to tell Computers and Humans Apart. Wörtlich übersetzt bedeutet das „Vollautomatischer öffentlicher Turing Test, um Computer und Menschen zu unterscheiden“. CAPTCHAs… …   Deutsch Wikipedia

  • Captcha — [ kæptʃə] ist ein Akronym für Completely Automated Public Turing test to tell Computers and Humans Apart. Wörtlich übersetzt bedeutet das „Vollautomatischer öffentlicher Turing Test, um Computer und Menschen zu unterscheiden“. CAPTCHAs werden… …   Deutsch Wikipedia

Книги

Другие книги по запросу «reCAPTCHA» >>


Поделиться ссылкой на выделенное

Прямая ссылка:
Нажмите правой клавишей мыши и выберите «Копировать ссылку»

We are using cookies for the best presentation of our site. Continuing to use this site, you agree with this.