Статья

Название статьи ПРИМЕНЕНИЕ ТОЧНЫХ И ПРЕДЕЛЬНЫХ ПРИБЛИЖЕНИЙ РАСПРЕДЕЛЕНИЙ ВЕРОЯТНОСТЕЙ ЗНАЧЕНИЙ СТАТИСТИК ПРИ РЕШЕНИИ ЗАДАЧИ ПО ОБРАБОТКЕ ТЕКСТОВ
Автор А. К. Мельников
Рубрика РАЗДЕЛ III. МАТЕМАТИЧЕСКОЕ И ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ
Месяц, год 08, 2018
Индекс УДК 519.224.22
DOI 10.23683/2311-3103-2018-8-114-135
Аннотация Рассматривается применение предельных и точных приближений распределения вероятностей значений статистик для решения задачи по отбору текстов с определенными статистическими свойствами. Для отбора текстов с равновероятным распределением входящих в них знаков используется статистический критерий согласия, в котором в качестве эталонного распределения тестовой статистики используются его различные приближения. В качестве предельных приближений используются предельные распределения, а в качестве точных приближений - ∆точные распределения, которые отличающиеся от точных распределений не более чем на заданную величину ∆. Приведены результаты расчета ∆точных распределений, показаны их отличия от значений предельных распределений для разных статистик. Рассмотрено понятие эффективности обработки по выделению равновероятных текстов, отражающее долю ложно отобранных текстов. Проведено сравнение значений эффективности обработки при применении точных и предельных приближений эталонных распределений тестовых статистик. Показано, что значение эффективности обработки не уменьшается, а во многих случаях растет при применении точного приближения вместо предельного. На основе анализа относительной эффективностью критериев и методов исследования их асимптотического поведение при различных ограничениях, для сравнение статистических критериев, использующих одинаковую тестовую статистику но разные её эталонные распределения вводится понятие относительной эффективности распределения, показывающее во сколько раз увеличится количество ложно отобранных текстов при применении в качестве эталонного распределения критерия того или иного распределения. Показана функциональная связь между понятиями эффективность обработки и относительная эффективность распределений. В условиях доступности высокопроизводительных вычислительных средств, позволяющих проводить расчеты ∆точных распределений для интересующих параметров длины и мощности алфавита текстов, доказано утверждение об относительной эффективности распределений, позволяющее из множества распределений тестовой статистики выбрать эталонное распределение критерия при котором эффективность обработки будет наибольшая. Приведены примеры значений относительной эффективности точных и предельных приближений.

Скачать в PDF

Ключевые слова Вероятность; тестовая статистика; критерий; эталонное распределение; точное распределение; предельное распределение; эффективность обработки; относительная эффективность распределения; вычислительная сложность метода; производительность многопроцессорной вычислительной системы.
Библиографический список 1. Чеповский А.М. Информационные модели в задачах обработки текстов на естественных языках. – М.: Национальный открытый университет «ИНТУИТ», 2015. – 228 с. – ISBN 978-5-9556-0176-2.
2. Ивченко Г.И., Медведев Ю.И. Введение в математическую статистику. – М.: ЛЕНАРД, 2017. – 608 с. – ISBN 978-5-9710-4535-9.
3. Ронжин А.Ф. Эффективность типа Чернова для критериев согласия, основанных на эмпирических функциях распределения // Теория вероятности и ее применение. – 1985.
– 30:2. – С. 378-381.
4. Боровков А.А. Вероятностные процессы в теории массового обслуживания. – М.: Наука, 1972. – 367 с.
5. Боровков А.А. Математическая статистика. – Новосибирск: Изд-во ИМ СОРАН, Наука, 1997. – 772 с.
6. Крамер Г. Математические методы статистики. – М.: Мир, 1975. – 648 c.
7. Мельников А.К. Применение точных распределений в процедуре двухэтапной обработки текстов // Обозрение прикладной и промышленной математики. – 2018. – T. 25. – Вып. 2. В печати. – https://tvp.ru/conferen/vsppmXIX/repso051.pdf (дата обращения 19.07.2018).
8. Ивченко Г.И., Медведев Ю.И. Математическая статистика. – М.: Книжный дом "ЛИБРОКОМ", 2014. – 352 с. – ISBN 978-5-397-04141-6.
9. Мельников А.К., Ронжин А.Ф. Обобщенный статистический метод анализа текстов, основанный на расчете распределений вероятности значений статистик // Информатика и её применения. – 2016. – Т. 10. – Вып. 4. – С. 89-95. – ISSN 1992-2264.
10. Мельников А.К. Сложность расчета точных распределений вероятности симметричных аддитивно разделяемых статистик и область применения предельных распределений // Доклады ТУСУР. – Томск, 2017. – Т. 20, № 4. – С. 126-130. – ISSN 1818-0442.
11. Фишер Р.А. Статистические методы для исследователей. – М.: Госстатиздат, 1958.
– 73 с.
12. Кендалл М.Г., Стьюарт А. Теория распределений. – М.: Наука, 1966. – 302 с.
13. Зелюкин Н.Б., Мельников А.К. Сложность расчета точных распределений вероятности значений статистик и область применения предельных распределений // Электронные средства и системы управления: Материалы докладов XIII Междунар. науч.-практ. конф. (29 ноября – 1 декабря 2017 г.): в 2 ч. – Ч. 2. – Томск: В-Спектр, 2017. – С. 84-90.
– https://storage.tusur.ru/files/115115/2017-2.pdf (дата обращения 13.07.2018).
14. Мельников А.К. Методика расчета распределений вероятностей значений статистик, близких к их точным распределениям // Обозрение прикладной и промышленной математики. – 2017. – T. 24. – Вып. 5. – http://tvp.ru/conferen/vsppmXVIII/kisso075.pdf (дата обращения 13.07.2018).
15. Мельников А.К. Методика расчета распределения вероятностей значений симметричных аддитивно разделяемых статистик, приближенных к их точному распределению // Научный вестник НГТУ. – 2018. – № 1 (70). – С. 153-166. – ISBN 1814-1196. Doi: 10.17212/1814-1196-2018-1-153-166.
16. Pearson K. On the criterion that a given system of deviations from the probable in the case of a correlated system of variables in such that it can be reasonably supposed to have arisen from random sampling // Philos. Mag. Ser. 5. – 1900. – Vol. 50, No. 302. – Р. 157-170.
17. Neyman F., Pearson E.S. On the use and interpretation of certain test criteria for purposes of statistical inference // Biometrika. – 1928. – Vol. 20-A. − Р. 175-240, 264-299.
18. Smith P.F., Rae D.S., Manderscheid R.W., Silbergeld S. Exact and approximate distributions of the chi-squared statistic for equiprobability // Commun. Statist. – 1979. – B. 8 (2). – No. 1.
– Р. 131-149.
19. Matusita K. Decision rules, based on the distanse, for problems of fit tu o samples, and estimation // Ann. Math. Stat. – 1955. – Vol. 26. – P. 631-640.
20. Ронжин А.Ф. Асимптотическая локальная относительная эффективность (АЛОЭ) критериев согласия // Тезисы докладов Всесоюзной конференции «Вероятностные методы в дискретной математике». – Петрозаводск, 1983. – C. 70-71.

Comments are closed.