Высокотехнологический вычислительный кластер для проведения олимпиад по искусственному интеллекту
Аннотация и ключевые слова
Аннотация:
Актуальность. Рост популярности соревнований по искусственному интеллекту и машинному обучению, а также увеличение числа участников требуют создания специализированной вычислительной инфраструктуры, обеспечивающей равные условия и изоляцию при работе с графическими ускорителями. Цель исследования. Описать архитектуру и практическую реализацию вычислительного кластера, подготовленного для проведения олимпиад по искусственному интеллекту и машинному обучению. Методы исследования. Анализ требований очного соревнования к изоляции участников, одинаковой программной среде, равномерному распределению графических ускорителей, сохранению пользовательских данных и контролю сетевого доступа. Результаты. Разработано техническое решение на базе RKE2/Kubernetes, NVIDIA A100 с разделением Multi-Instance GPU, персональных JupyterLab-рабочих мест, NFSхранилища, защищенного веб-доступа и мониторинга Prometheus/Grafana. Проектная конфигурация рассчитана на 66 изолированных рабочих мест на 22 рабочих узлах и позволяет назначать каждому участнику отдельный GPU-экземпляр профиля 2g.20gb. Выводы. Предложенная инфраструктура обеспечивает воспроизводимое развертывание и управляемую эксплуатацию среды для массового соревнования по машинному обучению. Новизна кейса состоит в адаптации облачно-нативных средств управления GPU-инфраструктурой к задачам очного финала школьной олимпиады по искусственному интеллекту.

Ключевые слова:
искусственный интеллект, машинное обучение, вычислительный кластер, Kubernetes, RKE2, NVIDIA A100, MIG, JupyterLab, спортивное программирование, олимпиада, информационные технологии в спорте
Список литературы

1. Всероссийская олимпиада по искусственному интеллекту. Официальный сайт. URL: https://ai.edu.gov.ru/

2. Минпросвещения направлены разъяснения по вопросу об участии в олимпиаде по предметам, в которых предусмотрены профили // КонсультантПлюс. URL: https://www.consultant.ru/law/hotdocs/90793.html

3. Zacharov I., Arslanov R., Gunin M., Stefonishin D., Pavlov S. et al. “Zhores” — Petaflops supercomputer for data-driven modeling, machine learning and artificial intelligence installed in Skolkovo Institute of Science and Technology. Open Engineering, 2019, 9(1), pp. 512–520. https://doi.org/10.1515/eng-2019-0059

4. Reed D.A., Dongarra J. Exascale computing and big data. Communications of the ACM, 2015, 58(7), pp. 56–68. https://doi.org/10.1145/2699414

5. Armbrust M., Fox A., Griffith R., Joseph A.D., Katz R., Konwinski A. et al. A view of cloud computing. Communications of the ACM, 2010, 53(4), pp. 50–58. https://doi.org/10.1145/1721654.1721672

6. Kubernetes Documentation. Production-Grade Container Orchestration. URL: https://kubernetes.io/docs/

7. JupyterLab Documentation. URL: https://jupyterlab.readthedocs.io/

8. RKE2 Documentation. URL: https://docs.rke2.io/

9. Ansible Documentation. URL: https://docs.ansible.com/

10. NVIDIA. Multi-Instance GPU User Guide. URL: https://docs.nvidia.com/datacenter/tesla/miguser-guide/

11. NVIDIA. GPU Operator Documentation. URL: https://docs.nvidia.com/datacenter/cloudnative/gpu-operator/latest/

12. Kubernetes Documentation. StatefulSets. URL: https://kubernetes.io/docs/concepts/workloads/controll

13. Kubernetes Documentation. Persistent Volumes. URL: https://kubernetes.io/docs/concepts/storage/persistent-volumes/

14. Jupyter Docker Stacks Documentation. URL: https://jupyter-docker-stacks.readthedocs.io/

15. Haynes T., Noveck D. Network File System (NFS) Version 4 Minor Version 1 Protocol, RFC 8881, 2020. https://doi.org/10.17487/RFC8881

16. Kubernetes Documentation. Network Policies. URL: https://kubernetes.io/docs/concepts/servicesnetworking/network-policies/

17. cert-manager Documentation. URL: https://cert-manager.io/docs/

18. Prometheus Documentation. URL: https://prometheus.io/docs/

19. Grafana Documentation. URL: https://grafana.com/docs/grafana/latest/

20. NVIDIA. DCGM Exporter. URL: https://github.com/NVIDIA/dcgm-exporter

21. Burns B., Grant B., Oppenheimer D., Brewer E., Wilkes J. Borg, Omega, and Kubernetes. Communications of the ACM, 2016, 59(5), pp. 50–57. https://doi.org/10.1145/2890784

22. Merkel D. Docker: lightweight Linux containers for consistent development and deployment. Linux Journal, 2014, (239). URL: https://www.linuxjournal.com/content/docker-lightweightlinux-containers-consistent-development-and-deployment

23. Kluyver T., Ragan-Kelley B., Perez F., Granger B., Bussonnier M., Frederic J. et al. Jupyter Notebooks — a publishing format for reproducible computational workflows. In: Positioning and Power in Academic Publishing: Players, Agents and Agendas, IOS Press, 2016, pp. 87–90. https://doi.org/10.3233/978-1-61499-649-1-87

24. Zaharia M., Chowdhury M., Franklin M.J., Shenker S., Stoica I. Spark: Cluster Computing with Working Sets. Proceedings of the 2nd USENIX Workshop on Hot Topics in Cloud Computing, 2010. URL: https://www.usenix.org/conference/hotcloud-10/spark-cluster-computing-workingsets


Войти или Создать
* Забыли пароль?