Software Engineer (HPC & Cloud)
Londres · 1 j/sem on-site + remote / Démarrage mi-juin 2026
Contexte
Notre client — éditeur SaaS international — construit une plateforme de calcul distribué GPU-accelerated sur AWS. L'objectif : exécuter des workloads de calcul intensif sur des GPUs partagés en mode service, à grande échelle.
Le projet est 100 % greenfield. Les choix d'architecture sont posés, mais le code distribué n'est pas encore en production. L'équipe SRE centrale gère l'infrastructure sous-jacente — ce rôle consiste à construire le tooling et la couche opérationnelle au-dessus.
C'est un rôle software engineering en premier lieu — observabilité, tooling, cloud ops — avec une dimension HPC. Pas un poste d'infra.
Ce que tu vas construire
Fondations techniques de l'équipe
• Les pipelines CI/CD et environnements de développement pour l'ensemble de l'équipe engineering dès le premier jour
• Le provisioning et la gestion des instances GPU sur AWS (EC2, EKS, IAM, VPC)
• Les outils de benchmarking GPU et de scheduling des runs de performance sur instances cloud
Observabilité de bout en bout
• L'instrumentation complète des services distribués : distributed tracing de bout en bout avec propagation de contexte dans les messages Apache Pulsar, logs structurés, métriques de performance
• Des dashboards de performance sur l'ensemble du cluster et des outils d'analyse comparative entre versions
• Un framework de validation automatique des outputs GPU versus référence CPU (correction numérique)
Contexte distribué dans lequel tu interviens
L'équipe construit des services worker/consumer sur Apache Pulsar, des pipelines de données entre nœuds CPU, nœuds GPU et stockage haute performance (Lustre/FSx), avec des mécanismes de fault tolerance et back-pressure sur des workloads de calcul intensif. Tu opères et instrumentes cette couche — tu n'en es pas le seul auteur, mais tu dois la comprendre en profondeur.
Environnement technique
Apache Pulsar · AWS (EC2, EKS, IAM, VPC) · Kubernetes · Lustre / FSx for Lustre · Go ou Rust · OpenTelemetry / Jaeger · Prometheus / Grafana · CI/CD
Profil recherché
Ce qu'on cherche vraiment :
• Un ingénieur qui a construit du tooling de production pour des systèmes distribués — observabilité, CI/CD, benchmarking — pas uniquement de la configuration d'infra
• Maîtrise de l'observabilité de bout en bout : distributed tracing (Jaeger, OpenTelemetry), métriques, logs structurés
• Capacité à écrire du code robuste en Rust ou équivalent — ce rôle nécessite du software engineering, pas uniquement de l'IaC
• AWS et Kubernetes en production
• Anglais courant — l'équipe est internationale, basée à Londres
Signaux positifs :
• Expérience messaging distribué — Kafka, Pulsar, RabbitMQ, NATS
• Expérience GPU ou HPC : environnements de calcul intensif, benchmarking, stockage haute performance (Lustre, GPFS)
• RDMA ou transport inter-nœuds haute performance
• Rust (un vrai plus)
• Kubernetes Operator ou controller custom en Go
• Contexte scale-up / produit technique : gaming, fintech, SaaS B2B à grande échelle
À propos de GECI Int.
GECI International est un spécialiste de la Technologie et du Digital. Depuis son origine en 1980, le Groupe innove pour concevoir et développer des solutions, produits et services intelligents pour les secteurs de la Recherche, de l’Industrie et des Services.