Description
Le poste En tant que Site Reliability Engineer (SRE), vous contribuerez à la fiabilité, la performance et l'évolutivité des plateformes et applications utilisées par des chercheurs et ingénieurs travaillant sur des problématiques scientifiques complexes. Selon les projets, vos missions pourront concerner : - l'infrastructure interne de Discngine, qui supporte nos produits et services, - les environnements techniques de nos clients, principalement des acteurs de l'industrie pharmaceutique et des sciences de la vie. Vous interviendrez donc dans des contextes variés, allant de l'exploitation de plateformes internes à l'accompagnement technique de clients utilisant nos solutions. Vous travaillerez à l'interface entre infrastructure, développement et utilisateurs scientifiques, avec un rôle clé dans la compréhension des problèmes rencontrés par les utilisateurs et leur résolution durable. Missions principales - Fiabilité et exploitation des plateformes - Concevoir et maintenir l'infrastructure nécessaire au fonctionnement des applications scientifiques (cloud, conteneurs, services distribués). - Mettre en place des pratiques SRE : observabilité, monitoring, alerting, gestion des incidents. - Améliorer la disponibilité, la performance et la résilience des services. - Automatiser les opérations et les déploiements (CI/CD, infrastructure as code). - Support technique avancé - Diagnostiquer et résoudre les incidents complexes en production. - Participer à l'amélioration continue des systèmes suite aux incidents (post-mortem, automatisation). - Collaborer avec les équipes de développement pour améliorer la robustesse des applications. - Interaction avec les clients et les équipes scientifiques - Échanger directement avec les utilisateurs et clients afin de comprendre leurs problématiques et identifier les causes racines des incidents. - Participer à l'analyse technique de leurs environnements et workflows. - Proposer des solutio