В недавнем номере Х вместе с Дмитрием Евтеевым из PT написали статью про слепые инъекции.

Там был статистический анализ слов английского языка, ставившей своей целью увеличение вероятность подбора следующего символа по предыдущему. Собственно, этот анализ и был моей частью статьи ;)

Метод был назван “фонетическими цепочками”.

После публикации статьи в голову пришла идея найти цепочкам новые применения. И вот что придумалось…Цепочки оказались полезны в OCR. Накладывая правила фонетики на чисто математическое распознавание можно получить лучшие результаты. Остается только установить пороговые значения для преобладания методов фонетики над математикой и наоборот.

Ну а самое “хакерское” применение OCR, конечно же распознавание Capctha.

Я взял немного картинок c gmail.com и recaptcha.net и проверил идею – все отлично статистически сходится с книжками гутенбергской электронной библиотеки.