Долгопрудный, г. Москва и Московская область, Россия
Россия
Долгопрудный, г. Москва и Московская область, Россия
Долгопрудный, Россия
ВАК 5.8.5 Теория и методика спорта
ВАК 5.8.7 Методология и технология профессионального образования
УДК 004.048 на реализацию искусственного интеллекта
УДК 347.514.3 В спорте
УДК 004.75 Распределённые системы обработки данных
УДК 004.8 Искусственный интеллект
ГРНТИ 77.00 ФИЗИЧЕСКАЯ КУЛЬТУРА И СПОРТ
ГРНТИ 20.00 ИНФОРМАТИКА
ОКСО 02.00.00 Компьютерные и информационные науки
ОКСО 09.00.00 Информатика и вычислительная техника
ОКСО 44.00.00 Образование и педагогические науки
ББК 3 ТЕХНИКА. ТЕХНИЧЕСКИЕ НАУКИ
ББК 74 Образование. Педагогическая наука
BISAC COM014000 Computer Science
BISAC COM023000 Educational Software
BISAC COM074000 Hardware / Mobile Devices
BISAC COM004000 Intelligence (AI) & Semantics
BISAC COM051300 Programming / Algorithms
Актуальность. Рост популярности соревнований по искусственному интеллекту и машинному обучению, а также увеличение числа участников требуют создания специализированной вычислительной инфраструктуры, обеспечивающей равные условия и изоляцию при работе с графическими ускорителями. Цель исследования. Описать архитектуру и практическую реализацию вычислительного кластера, подготовленного для проведения олимпиад по искусственному интеллекту и машинному обучению. Методы исследования. Анализ требований очного соревнования к изоляции участников, одинаковой программной среде, равномерному распределению графических ускорителей, сохранению пользовательских данных и контролю сетевого доступа. Результаты. Разработано техническое решение на базе RKE2/Kubernetes, NVIDIA A100 с разделением Multi-Instance GPU, персональных JupyterLab-рабочих мест, NFSхранилища, защищенного веб-доступа и мониторинга Prometheus/Grafana. Проектная конфигурация рассчитана на 66 изолированных рабочих мест на 22 рабочих узлах и позволяет назначать каждому участнику отдельный GPU-экземпляр профиля 2g.20gb. Выводы. Предложенная инфраструктура обеспечивает воспроизводимое развертывание и управляемую эксплуатацию среды для массового соревнования по машинному обучению. Новизна кейса состоит в адаптации облачно-нативных средств управления GPU-инфраструктурой к задачам очного финала школьной олимпиады по искусственному интеллекту.
искусственный интеллект, машинное обучение, вычислительный кластер, Kubernetes, RKE2, NVIDIA A100, MIG, JupyterLab, спортивное программирование, олимпиада, информационные технологии в спорте
1. Всероссийская олимпиада по искусственному интеллекту. Официальный сайт. URL: https://ai.edu.gov.ru/
2. Минпросвещения направлены разъяснения по вопросу об участии в олимпиаде по предметам, в которых предусмотрены профили // КонсультантПлюс. URL: https://www.consultant.ru/law/hotdocs/90793.html
3. Zacharov I., Arslanov R., Gunin M., Stefonishin D., Pavlov S. et al. “Zhores” — Petaflops supercomputer for data-driven modeling, machine learning and artificial intelligence installed in Skolkovo Institute of Science and Technology. Open Engineering, 2019, 9(1), pp. 512–520. https://doi.org/10.1515/eng-2019-0059
4. Reed D.A., Dongarra J. Exascale computing and big data. Communications of the ACM, 2015, 58(7), pp. 56–68. https://doi.org/10.1145/2699414
5. Armbrust M., Fox A., Griffith R., Joseph A.D., Katz R., Konwinski A. et al. A view of cloud computing. Communications of the ACM, 2010, 53(4), pp. 50–58. https://doi.org/10.1145/1721654.1721672
6. Kubernetes Documentation. Production-Grade Container Orchestration. URL: https://kubernetes.io/docs/
7. JupyterLab Documentation. URL: https://jupyterlab.readthedocs.io/
8. RKE2 Documentation. URL: https://docs.rke2.io/
9. Ansible Documentation. URL: https://docs.ansible.com/
10. NVIDIA. Multi-Instance GPU User Guide. URL: https://docs.nvidia.com/datacenter/tesla/miguser-guide/
11. NVIDIA. GPU Operator Documentation. URL: https://docs.nvidia.com/datacenter/cloudnative/gpu-operator/latest/
12. Kubernetes Documentation. StatefulSets. URL: https://kubernetes.io/docs/concepts/workloads/controll
13. Kubernetes Documentation. Persistent Volumes. URL: https://kubernetes.io/docs/concepts/storage/persistent-volumes/
14. Jupyter Docker Stacks Documentation. URL: https://jupyter-docker-stacks.readthedocs.io/
15. Haynes T., Noveck D. Network File System (NFS) Version 4 Minor Version 1 Protocol, RFC 8881, 2020. https://doi.org/10.17487/RFC8881
16. Kubernetes Documentation. Network Policies. URL: https://kubernetes.io/docs/concepts/servicesnetworking/network-policies/
17. cert-manager Documentation. URL: https://cert-manager.io/docs/
18. Prometheus Documentation. URL: https://prometheus.io/docs/
19. Grafana Documentation. URL: https://grafana.com/docs/grafana/latest/
20. NVIDIA. DCGM Exporter. URL: https://github.com/NVIDIA/dcgm-exporter
21. Burns B., Grant B., Oppenheimer D., Brewer E., Wilkes J. Borg, Omega, and Kubernetes. Communications of the ACM, 2016, 59(5), pp. 50–57. https://doi.org/10.1145/2890784
22. Merkel D. Docker: lightweight Linux containers for consistent development and deployment. Linux Journal, 2014, (239). URL: https://www.linuxjournal.com/content/docker-lightweightlinux-containers-consistent-development-and-deployment
23. Kluyver T., Ragan-Kelley B., Perez F., Granger B., Bussonnier M., Frederic J. et al. Jupyter Notebooks — a publishing format for reproducible computational workflows. In: Positioning and Power in Academic Publishing: Players, Agents and Agendas, IOS Press, 2016, pp. 87–90. https://doi.org/10.3233/978-1-61499-649-1-87
24. Zaharia M., Chowdhury M., Franklin M.J., Shenker S., Stoica I. Spark: Cluster Computing with Working Sets. Proceedings of the 2nd USENIX Workshop on Hot Topics in Cloud Computing, 2010. URL: https://www.usenix.org/conference/hotcloud-10/spark-cluster-computing-workingsets



