Фонетические цепочки нашли еще одно применение
filed in Методы и техники on Feb.08, 2010
В недавнем номере Х вместе с Дмитрием Евтеевым из PT написали статью про слепые инъекции.
Там был статистический анализ слов английского языка, ставившей своей целью увеличение вероятность подбора следующего символа по предыдущему. Собственно, этот анализ и был моей частью статьи
Метод был назван “фонетическими цепочками”.
После публикации статьи в голову пришла идея найти цепочкам новые применения. И вот что придумалось…Цепочки оказались полезны в OCR. Накладывая правила фонетики на чисто математическое распознавание можно получить лучшие результаты. Остается только установить пороговые значения для преобладания методов фонетики над математикой и наоборот.
Ну а самое “хакерское” применение OCR, конечно же распознавание Capctha.
Я взял немного картинок c gmail.com и recaptcha.net и проверил идею – все отлично статистически сходится с книжками гутенбергской электронной библиотеки.
February 8th, 2010 on 4:05 pm
POC?
February 8th, 2010 on 4:50 pm
Будет в Х как допишу текущую статью
Времени мало, питайте идеи