Статья

Название статьи МУЛЬТИАГЕНТНЫЙ АЛГОРИТМ ПОСТРОЕНИЯ ОСТАТОЧНОЙ СХЕМЫ РЕШЕНИЯ ЗАДАЧИ В РАСПРЕДЕЛЕННЫХ ПАКЕТАХ ПРИКЛАДНЫХ ПРОГРАММ
Автор А. Г. Феоктистов, Р. О. Костромин, И. А. Сидоров, С. А. Горский
Рубрика РАЗДЕЛ II. РАСПРЕДЕЛЕННЫЕ И ОБЛАЧНЫЕ ВЫЧИСЛЕНИЯ
Месяц, год 08, 2018
Индекс УДК 004.4’2+004.89
DOI 10.23683/2311-3103-2018-8-59-69
Аннотация В настоящее время базовые программные средства, реализующие технологии организации расчетов в высокопроизводительных вычислительных системах, обеспечивают потенциальную основу для массового создания и использования параллельных и распределенных приложений. Активно развиваются и применяются на практике инструментальные средства для создания пакетов прикладных программ, а также систем поддержки рабочих процессов (workflow). Однако анализ их практического применения позволяет сделать вывод о необходимости повышения отказоустойчивости процессов решения задач, включающих наборы взаимосвязанных подзадач, в распределенных пакетах прикладных программ. В особенности данная проблема актуализируются при решении задач в гетерогенной распределенной вычислительной среде, в качестве основных компонентов которой выступают кластеры, в том числе гибридные кластеры с разнородными узлами, а высокопроизводительные серверы, системы хранения данных, персональные компьютеры и другие вычислительные элементы дополняют инфраструктуру среды. В статье представлен адаптивный мультиагентный алгоритм, предназначенный для перераспределения заданий по ресурсам такой среды при возобновлении процесса решения задач в распределенных пакетах прикладных программ после отказов программных и аппаратных средств. Работа данного алгоритма базируется в отличие от известных на методах конкретизирующего программирования для построения и выполнения остаточной схемы решения задачи, а также метамониторинга ресурсов среды. Сравнительный анализ результатов эксперимента по полунатурному моделированию поддержки отказоустойчивости процесса выполнения схем решения задач распределенных пакетов прикладных программ различными метапланировщиками продемонстрировал преимущество предложенного подхода к мультиагентному управлению в гетерогенной распределенной вычислительной среде.

Скачать в PDF

Ключевые слова Распределенный пакет прикладных программ; схема решения задачи; мультиагент-ное управление; отказоустойчивость.
Библиографический список 1. Бондаренко А.А., Якобовский М.В. Обеспечение отказоустойчивости высокопроизводительных вычислений с помощью локальных контрольных точек // Вестник Южно-Уральского государственного университета. Серия: Вычислительная математика и информатика. – 2014. – Т. 3, No. 3. – С. 20-36.
2. Феоктистов А.Г., Сидоров И.А., Горский С.А. Автоматизация разработки и применения распределенных пакетов прикладных программ // Проблемы информатики. – 2017, No. 4. – C. 61-78.
3. Banti A., Kacsuk P., Kozlovszky M. Classification of scientific workflows based on reproducibility analysis // Proceedings of the 39th International Convention on information and communication technology, electronics and microelectronics (MIPRO-2016). – Riejka: IEEE, 2016.– P. 327-331.
4. Mhashilkar P., Miller Z., Kettimuthu R., Garzoglio G., Holzman B., Weiss C., Duan X., Lacinski L. End-To-End Solution for Integrated Workload and Data Management using GlideinWMS and Globus Online // Journal of Physics: Conference Series. – 2012. – Vol. 396, No. 3. – P. 2076-2085.
5. Talia D. Workflow Systems for Science Concepts and Tools // ISRN Software Engineering. Deelman E., Peterka T., Altintas I., Carothers C.D., van Dam K.K., Moreland K., Parashar M., Ramakrishnan L., Taufer M., Vetter J. The future of scientific workflows // The International Journal of High Performance Computing Applications. – 2017. Vol. 32, No. 1.1. – P. 159-175.
6. Ostermann S., Plankensteiner K., Prodan R., Fahringer T., Iosup A. Workflowmonitoring and analysis tool for ASKALON // Proceedings of 3rd CoreGRID Workshop on Grid Middleware. – Spain: Springer, 2008. – P. 73-86.
7. Zhao Y., Raicu I., Foster I. Scientific Workflow Systems for 21st Century, New Bottle or New Wine? // IEEE Congress on Services - Part I. – Honolulu, HI: IEEE, 2008. – P. 467-471.
8. Rodriguez M.A., Buyya R. Deadline Based Resource Provisioning and Scheduling Algorithm for Scientific Workflows on Clouds // IEEE Transactions on Cloud Computing. – 2014. Vol. 2, No. 2. – P. 222-235.
9. Anwar N., Deng H. Elastic Scheduling of Scientific Workflows under Deadline Constraints in Cloud Computing Environments // Future Internet. – 2018. – Vol. 10, No. 1. – P. 1-23.
10. Feoktistov A., Sidorov I., Sergeev V., Kostromin R., Bogdanova V. Virtualization of Heterogeneous HPC-clusters Based on OpenStack Platform // Вестник Южно-Уральского государственного университета. Серия: Вычислительная математика и информатика.– 2017. – Т. 6, № 2. – С. 37-48.
11. Ершов А.П. Научные основы доказательного программирования // Вестник АН СССР.– 1984. – № 10. – С. 9-19.
12. Ershov A.P. On Mixed Computation: Informal Account of the Strict and Polyvariant Computation Schemes // Control Flow and Data Flow: Concepts of Distributed Programming. – Berlin A.O.: Springer-Verlag, 1985. – P. 107-120.
13. Sidorov I.A. Methods and Tools to Increase Fault Tolerance of High-Performance Computing Systems // Proceedings of the 39th International Convention on information and communication technology, electronics and microelectronics (MIPRO-2016). – Riejka: IEEE, 2016.
– P. 242-246.
14. Feoktistov A.G., Sidorov I.A. Logical-Probabilistic Analysis of Distributed Computing Reliability // Proceedings of the 39th International Convention on information and communication technology, electronics and microelectronics (MIPRO-2016). – Riejka: IEEE, 2016. – P. 247-252.
15. Феоктистов А.Г., Костромин Р.О., Дядькин Ю.А. Управление заданиями в гетерогенной распределенной вычислительной среде на основе знаний // Вестник компьютерных и информационных технологий. – 2018. – № 2. – С. 10-17.
16. Bychkov I., Feoktistov A., Kostromin R., Sidorov I., Edelev A., Gorsky S. Machine Learning in a Multi-Agent System for Distributed Computing Management // Data Science. Information Technology and Nanotechnology 2018. CEUR-WS Proceedings. – 2018. – Vol. 2212. – P. 89-97.
17. Tel G. Introduction to Distributed Algorithms: Solutions and Suggestions. – Cambridge University Press, 2000. – 596 p.
18. Balaji P., Buntinas D., Kimpe D. Fault Tolerance Techniques for Scalable Computing // Scalable Computing and Communications: Theory and Practice. – Hoboken: Wiley-IEEE Press, 2013. – P. 212-245.
19. ЦКП Иркутский суперкомпьютерный центр СО РАН. – Режим доступа: http://hpc.icc.ru/ (дата обращения: 03.11.2018).

Comments are closed.