Инженер аппаратной поддержки AI Infrastructure (Салют для Бизнеса) / JobVK

Инженер аппаратной поддержки AI Infrastructure (Салют для Бизнеса)

Салют для Бизнеса

Полная занятость

Мы - команда ООО "Салют для бизнеса", дочерняя организация Сбера, мы занимаем лидирующие позиции в сфере коммерциализации технологии GenAI с продуктом GigaChat. Мы предлагаем полный цикл решений: LLM-модель GigaChat для локальной и облачной инсталляции, инфраструктуру для GenAI, платформу для разработки агентных систем, готовые GenAI-решения для быстрого старта в типовых задачах, реализацию уникальных клиентских кейсов, консалтинг по GenAI-трансформации. В своей работе мы помогаем нашим партнерам перейти от экспериментов с технологией к промышленному масштабированию, обеспечивая безопасность, адаптивность и экономическую выгоду

Ключевые задачи команды, связанные с железом:

* Развертывание и обслуживание высокопроизводительных GPU-кластеров на платформах NVIDIA HGX и PCIe

* Управление конфигурацией и автоматизация инфраструктуры физических серверов различных вендоров с помощью IaC (Ansible, Terraform)

* Диагностика и устранение неисправностей на всех уровнях: от аппаратного (GPU, CPU, память, сеть, питание, охлаждение) до системного (ОС, драйверы, низкоуровневое ПО)

Обязанности:

Установка, настройка и обслуживание физических серверов и GPU-кластеров от производителей Asus, Dell, Supermicro, Kaytus на платформах HGX и PCIe.
Диагностика и устранение неисправностей на уровне аппаратного обеспечения (GPU, CPU, память, материнские платы, сетевые адаптеры, системы питания и охлаждения), базового ПО (BMC/IPMI, UEFI/BIOS), ОС (драйверы, ядро)
Мониторинг и анализ состояния аппаратного обеспечения: температура, мощность, состояние компонентов (SMART, показания датчиков через BMC/IPMI/Redfish), производительность GPU/CPU. Реагирование на аппаратные алерты
Работа с системами удаленного управления (BMC/IPMI - iDRAC, ASMB, Supermicro IPMI, Redfish) для контроля, перезагрузки, диагностики и обновления ПО серверов
Взаимодействие с вендорами (Asus, Dell, Supermicro, Kaytus) и поставщиками по вопросам гарантийного обслуживания, замены компонентов (FRU), апгрейдов и решения сложных аппаратных проблем
Участие в планировании и развертывании новых аппаратных платформ, оценка их совместимости и соответствия требованиям LLM-нагрузок
Написание Ansible плейбуков и ролей для автоматизированной настройки и управления физическими серверами (прошивки, BIOS/UEFI, ОС, драйверы, мониторинг)
Разработка и поддержка Terraform конфигураций (где применимо к управлению инфраструктурой, взаимодействующей с железом)
Реагирование и решение проблем на уровне ОС (Linux), сети (L2/L3, анализ трафика - tcpdump), производительности (strace, perf, nvidia-smi, dmesg)
Поддержка систем мониторинга (Prometheus/VictoriaMetrics, Grafana, Zabbix) для аппаратного уровня и связанных сервисов

Требования:

Глубокие знания и практический опыт администрирования Linux (Ubuntu/CentOS/RHEL)
Опыт работы и диагностики физического серверного оборудования (CPU, RAM, диски, RAID, сетевые карты, PSU, системы охлаждения) от ключевых вендоров: Asus, Dell, Supermicro. Знание их особенностей и инструментов управления (iDRAC, IPMI)
Опыт работы с GPU-серверами, понимание специфики их эксплуатации (охлаждение, питание). Знание платформ NVIDIA HGX и PCIe
Уверенное понимание сетевых технологий (TCP/IP, Ethernet, VLAN, LACP). Опыт диагностики сетевых проблем на физическом и системном уровне (tcpdump, netstat, ip, ethtool)
Опыт работы с системам