Статья

Название статьи ОБ ЭФФЕКТИВНОСТИ СРЕДСТВ КОРРЕКЦИИ ИСКАЖЕННЫХ ТЕКСТОВ В ЗАВИСИМОСТИ ОТ ХАРАКТЕРА ИСКАЖЕНИЙ
Автор Д. А. Бирин, С. Ю. Мельников, В. А. Пересыпкин, И. А. Писарев, Н. Н. Цопкало
Рубрика РАЗДЕЛ III. МАТЕМАТИЧЕСКОЕ И ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ
Месяц, год 08, 2018
Индекс УДК 004.931
DOI 10.23683/2311-3103-2018-8-104-114
Аннотация Анализируются возможности четырех программных средств автоматической коррекции текстов (Яндекс.Спеллер, Afterscan, Bing Spell Check, Texterra) для коррекции искаженных текстов. Описаны искажения текстов, возникающие при вводе текста с клавиатуры и работе систем распознавания. Для перечисленных программных средств приводятся данные экспериментов по точности коррекции искаженных текстов, полученных как при клавиатурном вводе текста, так и на выходе систем оптического распознавания текста при обработке изображений плохого качества и распознавания речи в условиях шумов. Для моделирования искажений, вносимых системами распознавания, предложена двухэтапная модель случайных искажений текстов. На первом этапе (словарные искажения с заданной вероятностью) искажаемое слово в тексте заменяется на случайное словарное слово, удаленное от искажаемого на расстояние Левенштейна 1 или 2. Выбор заменяющего слова производится по равновероятной схеме. На втором этапе (символьные искажения с заданной вероятностью) искажаемый знак текста с вероятностью 1/3 либо удаляется, либо перед ним осуществляется вставка случайного символа, либо искажаемый знак заменяется на случайный символ алфавита. Выбор случайного символа производится по равновероятной схеме. Полученные таким образом искаженные тексты исправляются с помощью выбранных программных средств и подсчитывается процент истинных слов в скорректированном тексте. Полученные данные усредняются по набору текстов. Приводятся результаты экспериментов с оценкой точности коррекции в следующей области параметров: вероятности словарного искажения изменяются от 0.01 до 0.9 и вероятности символьного искажения изменяются от 0.01 до 0.5. Полученные результаты показывают, что Яндекс.Спеллер, Bing Spell Check и Texterra обеспечивают хорошее качество коррекции искажений, возникающих при клавиатурном вводе. Для коррекции искажений, вносимых системами распознавания, перечисленные программные средства неэффективны.

Скачать в PDF

Ключевые слова Искаженные тексты; случайные искажения; автоматическая коррекция; пост-обработка.
Библиографический список 1. Бирин, Д.А., Мельников С.Ю., Пересыпкин В.А. Об эффективности средств коррекции искаженных текстов для результатов работы систем распознавания // Суперкомпьютерные технологии (СКТ-2018): Материалы 5-й Всероссийской научно-технической конференции: в 2 т. – Т. 1. – Ростов-на-Дону; Таганрог: Изд-во ЮФУ, 2018. – С. 71-75.
2. Subramaniam L.V. et al. A survey of types of text noise and techniques to handle noisy text // Proceedings of The Third Workshop on Analytics for Noisy Unstructured Text Data, July
23-24, 2009, Barcelona, Spain. DOI: 10.1145/1568296.1568315.
3. Bassil Y., Alwani M. Post Editing Error Correction Algorithm for Speech Recognition using Bing Spelling Suggestion // International Journal of Advanced Computer Science and Applications. – 2012. – Vol. 3, No.2. – P. 95-101.
4. Feld M., Momtazi S., Freigang F., Klakow D., Müller C. Mobile texting: can post-ASR correction solve the issues? An experimental study on gain vs. costs // Proceedings of the 2012 ACM international conference on Intelligent User Interfaces, February 14-17, 2012. – P. 37-40. Lisbon, Portugal. DOI: 10.1145/2166966.2166974.
5. Evershed J., Fitch K. Correcting Noisy OCR: Context beats Confusion DATeCH 2014, May 19–20, 2014, Madrid, Spain DOI:10.1145/2595188.2595200.
6. Lopresti D.P. Optical character recognition errors and their effects on natural language processing // International Journal on Document Analysis and Recognition (IJDAR). – September 2009. – Vol. 12, Issue 3. – P. 141–151. DOI: 10.1007/s10032-009-0094-8.
7. Packer T.L., Lutes J.F., Stewart A.P., Embley D.W., Ringger E.K., Seppi K.D., et al. Extracting person names from diverse and noisy OCR text // Proceedings of the fourth workshop on Analytics for noisy unstructured text data AND '10, 2010. – P. 19-26. DOI 10.1145/1871840.1871845.
8. Kumar A., Lehal G.S. Automatic Text Correction for Devanagari OCR // Indian Journal of Science and Technology. – December 2016. – Vol. 9 (45). DOI: 10.17485/ijst/2016/v9i45/106372.
9. Gadde P., Goutam R., Shah R., Bayyarapu H.S., Subramaniam L.V. Experiments with artificially generated noise for cleansing noisy text // Proceedings of the 2011 Joint Workshop on Multilingual OCR and Analytics for Noisy Unstructured Text Data, MOCR AND ’11.
– P. 4:1-4:8. ACM, 2011.
10. Dey L., Haque S.K.M. Studying the effects of noisy text on text mining applications // Proceedings of The Third Workshop on Analytics for Noisy Unstructured Text Data AND’09. – Barcelona, Spain, 2009. – P. 107-114.
11. Clark E., Araki K. Text Normalization in Social Media: Progress, Problems and Applications for a Pre-Processing System of Casual English // Procedia - Social and Behavioral Sciences 27, December 2011. – P. 2-11.  DOI: 10.1016/j.sbspro.2011.10.577.
12. Saloot M.A., Idris N., Mahmud R. An architecture for Malay Tweet normalization // Inf. Process. Manag. – 2014. – Vol. 50, No. 5. – P. 621-633, DOI: 10.1016/j.ipm.2014.04.009.
13. Wang A., Kan M.-Y., Andrade D., Onishi T., Ishikawa K. Chinese Informal Word Normalization: an Experimental Study // International Joint Conference on Natural Language Processing. – 2013. – P. 127-135. DOI: 10.1007/978-3-319-68612-7_25.
14. Tursun O., Cakici R. Noisy Uyghur Text Normalization // Proceedings of the 3rd Workshop on Noisy User-generated Text, pp. 85–93, Copenhagen, Denmark, September 7, 2017. DOI: 10.18653/v1/w17-4412.
15. Ikeda T., Shindo H., Matsumoto Y. Japanese Text Normalization with Encoder-Decoder Model // Proceedings of the 2nd Workshop on Noisy User-generated Text. – Osaka, Japan, December 11, 2016. – P. 118-126.
16. Bassil, Y., Alwani, M. OCR post-processing error correction algorithm using Google’s online spelling suggestion // Journal of Emerging Trends in Computing and Information Sciences.
– January 2012. – Vol. 3, No. 1.
17. Спеллер – Технологии Яндекса. – URL: https://tech.yandex.ru/speller/ (accessed: 08.11.2018).
18. AfterScan – post-OCR text proofing, advanced spell-checking, automatic correction. – URL: http://www.afterscan.com/ru/ (accessed: 08.11.2018).
19. Турдаков Д. и др. Texterra: инфраструктура для анализа текстов // Труды Института системного программирования РАН. – 2014. – Т. 26. – Вып. 1. – С. 421-438. DOI: 10.15514/ISPRAS-2014-26(1)-18.
20. Microsoft Cognitive Services – API Bing проверки орфографии. – URL: https://azure.microsoft.com/ru-ru/services/cognitive-services/spell-check/ (accessed: 08.11.2018).
21. Мещеряков Р.В. Структура систем синтеза и распознавания речи // Известия Томского политехн. ун-та. – 2009. – Т. 315, № 5. – С. 127-132.
22. Смирнов С.В. Корректировка ошибок оптического распознавания на основе рейтинго-ранговой модели текста // Труды СПИИРАН. – 2014. – Вып. 4, № 35. – С. 64-82. DOI: 10.15622/sp.35.5.
23. Рудаков И.В., Романов А.С. Распознавание текстового изображения с учетом морфологии слова // Наука и образование: научное издание МГТУ им. Н.Э. Баумана. – 2012.
–Вып. 4. – С. 1-6.
24. Farra N., Tomeh N., Rozovskaya A., Habash N. Generalized Character-Level Spelling Error Correction // ACL (2). – 2014. – P. 161-167.
25. Белозеров А.А., Вахлаков Д.В., Мельников С.Ю., Пересыпкин В.А., Сидоров Е.С. Технологические аспекты построения системы сбора и предобработки корпусов новостных текстов для создания моделей языка // Известия ЮФУ. Технические науки. – 2016.
– № 12 (185). – С. 29-42. DOI: 10.18522/2311-3103-2016-12-2942.

Comments are closed.