Overall supercomputer performance analysis based on system monitoring data

Authors

  • D.A. Nikitenko

Keywords:

supercomputer
performance
efficiency
parallel programs
dynamic characteristics
workload
system monitoring

Abstract

Thorough investigation of supercomputer resource utilization efficiency is of great practical importance. Every HPC system holder and every user face such a problem. An approach to overall performance analysis, including peculiarities of application runs, assignment of jobs to queues, and total resource utilization of supercomputer systems is proposed. This approach is based on the analysis of system monitoring data and is aimed at providing a number of means for the qualitative behavior evaluation of supercomputer applications and HPC systems as a whole.


Published

2014-02-17

Issue

Section

Section 1. Numerical methods and applications

Author Biography

D.A. Nikitenko


References

  1. Воеводин Вл.В., Жуматий С.А. Вычислительное дело и кластерные системы. М.: Изд-во Моск. ун-та, 2007.
  2. Hennessy J., Patterson D. Computer architecture. San Francisco: Morgan Kaufmann, 2011.
  3. Grama A., Gupta A., Karypis G., Kumar V. Introduction to parallel computing. Reading: Addison-Wesley, 2003.
  4. Hennessy J., Patterson D. Computer organization and design. The hardware/software interface. San Francisco: Morgan Kaufmann, 2008.
  5. Никитенко Д.А., Стефанов К.С. Исследование эффективности параллельных программ по данным мониторинга // Вычислительные методы и программирование. 2012. 13. 97-102.
  6. Воеводин Вл.В., Жуматий С.А., Соболев С.И., Антонов А.С., Брызгалов П.А., Никитенко Д.А., Стефанов К.С., Воеводин Вад.В. Практика суперкомпьютера «Ломоносов» // Открытые системы. 2012. № 7. 36-39.
  7. Bekakos M. (Ed.) Highly parallel computations: algorithms and applications. Southampton: WIT Press, 2001.
  8. Berry M., Gallivan K., Gallopoulos E., Grama A., Philippe B., Saad Y., Saied F. (Eds.) High-performance scientific computing. Algorithms and applications. New York: Springer, 2012.
  9. Адинец А.В., Брызгалов П.А., Воеводин Вад.В., Жуматий С.А., Никитенко Д.А. Об одном подходе к мониторингу, анализу и визуализации потока заданий на кластерной системе // Вычислительные методы и программирование. 2011. 12. 90-93.
  10. Jin X., Zhang F., Song Y., Fan L., Liu Z. Energy: efficient scheduling with time and processors eligibility restrictions // Lecture Notes in Computer Science. Vol. 8097. Heidelberg: Springer, 2013. 66-77.
  11. Bailey D., Lucas R., Williams S. (Eds.) Performance tuning of scientific applications. Boca Raton: CRC Press, 2011.
  12. Servat H., Llort G., Gimenez J., Huck K., Labarta J. Folding: detailed analysis with coarse sampling // Tools for High Performance Computing. Heidelberg: Springer, 2013. 105-118.
  13. Антонов А.С., Жуматий С.А., Никитенко Д.А., Стефанов К.С., Теплов А.М., Швец П.А. Исследование динамических характеристик потока задач суперкомпьютерной системы // Вычислительные методы и программирование. 2013. 14. 104-108.
  14. Shah A., Wolf F., Zhumatiy S., Voevodin Vl. Capturing inter-application interference on clusters // Proc. of the 2013 IEEE Int. Conf. on Cluster Computing (CLUSTER 2013). New York: IEEE Press, 2013. 1-5.
  15. Bohme D., Geimer M., Wolf F. Characterizing load and communication imbalance in large-scale parallel applications // Proc. of the 26th IEEE Int. Parallel &; Distributed Processing Symposium (IPDPS). New York: IEEE Press, 2013. 2538-2541.
  16. Treibig J., Hager G., Wellein G. Best practices for HPM-assisted performance engineering on modern multicore processors // Lecture Notes in Computer Science. Vol. 7640. Heidelberg: Springer, 2013. 451-460.
  17. Mohr B., Voevodin Vl., Gimenez J., Hagersten E., Knuepfer A., Nikitenko D., Nilsson M., Servat H., Shah A., Winkler F., Wolf F., Zhujov I. The HOPSA workflow and tools // Tools for High Performance Computing. Heidelberg: Springer, 2013. 127-146.
  18. Андреев Д.Ю., Антонов А.С., Воеводин Вад. В., Жуматий С.А., Никитенко Д.А., Стефанов К.С., Швец П.А. Система автоматизированного поиска ошибок и неэффективностей в параллельных программах // Вычислительные методы и программирование. 2013. 14. 48-53.
  19. Антонов А.С., Воеводин Вад.В., Жуматий С.А., Никитенко Д.А., Стефанов К.С., Швец П.А. Автоматизация поиска ошибок и неэффективностей в параллельных программах // Вычислительные методы и программирование. 2013. 14. 11-17.
  20. Адинец А.В., Брызгалов П.А., Воеводин Вад.В., Жуматий С.А., Никитенко Д.А., Стефанов К.С. Job Digest - подход к исследованию динамических свойств задач на суперкомпьютерных системах // Вестн. Уфимского гос. авиационного технического ун-та. 2013. 17, № 2. 131-137.
  21. Ciegis R., Henty D., Kagstrom B., Zilinskas J. (Eds.) Parallel scientific computing and optimization. Advances and Applications. Series: Springer Optimization and Its Applications. Vol. 27. Heidelberg: Springer, 2009.