- Location: Montreal
- State: Quebec
- Country: Canada
- Accueil
- ...
- Postes à pourvoir
- Détails du poste
Description & Requirements
Cette fonction se trouve au croisement des opérations de production, de la gestion des incidents et de l’ingénierie du développement et de l’exploitation. Vous êtes l’un.e des principaux responsables de la prise en charge des incidents de production, assurant le triage des incidents, l’analyse des bogues et le traitement des demandes internes de fonctionnalités. De plus, vous mettez en place des automatisations et des améliorations d’infrastructure visant à réduire la charge opérationnelle à long terme.
Il ne s’agit pas d’un poste de développement et d’exploitation axé uniquement sur l’infrastructure. Une part importante de cette fonction consiste à offrir un soutien direct en production et à coordonner plusieurs équipes pour améliorer graduellement la fiabilité, l’observabilité et l’automatisation à mesure que la capacité de l’équipe augmente.
Vous travaillez dans nos bureaux de Montréal ou de Vancouver à raison de 3 jours par semaine selon un mode hybride.
Vos fonctions
Opérations de production et gestion des incidents (responsabilité principale)
- Vous êtes le.la premier.ère intervenant.e lorsque des incidents perturbent la production, des pannes surviennent ou des problèmes sont signalés par la clientèle.
- Vous analysez les incidents à l’aide des journaux, des indicateurs, des tableaux de bord et des flux de requêtes.
- Vous déterminez les causes profondes pour les résoudre directement ou avec le concours des équipes.
- Vous gérez globalement les problèmes dès leur signalement jusqu’à leur atténuation, et validez les améliorations apportées.
- Vous cernez les problèmes récurrents pour les réduire grâce à l’automatisation et à la création d’outils.
Collaboration interfonctionnelle
- Vous travaillez étroitement avec les équipes responsables du produit, de l’infrastructure, de la plateforme et de l’application dorsale.
- Vous transposez les enjeux opérationnels problématiques en tâches techniques utiles et utilisables.
- Vous coordonnez les solutions lorsque plusieurs équipes sont sollicitées et assurez l’imputabilité.
Ingénierie de fiabilité, d’automatisation et de développement et d’exploitation (importance grandissante)
- Vous établissez et actualisez des chaînes de traitement CI/CD.
- Vous rédigez des scripts d’automatisation pour réduire les tâches opérationnelles manuelles ou sujettes aux erreurs.
- Vous améliorez les outils de suivi et d’alerte ainsi que les tableaux de bord.
- Vous apportez des changements à la configuration afin d’améliorer la stabilité et la fiabilité du système.
- Vous contribuez à favoriser l’adoption de pratiques d’excellence et d’outils internes.
Vos affinités
- Vous êtes un.e ingénieur.e qui aime corriger des bogues réels affectant la production.
- Vous assumez la responsabilité lorsqu’un incident se produit.
- Vous avez de l’expérience en matière de soutien technique, opérations de production, d’ingénierie de la fiabilité de systèmes, ou au sein d’équipes de plateforme.
- Vous êtes un.e ingénieur.e souhaitant approfondir ses connaissances en développement et en exploitation au sein d’un contexte opérationnel concret.
- Vous êtes un.e habile communicateur.trice qui sait collaborer avec d’autres équipes pour résoudre les problèmes.
Vos compétences
- Vous êtes une personne axée sur la fiabilité et cumulez au moins 2 ans d’expérience en matière de gestion des incidents, de quarts de travail rotatifs et d’analyses post-incident.
- Vous avez au moins 5 ans d’expérience en gestion de systèmes résilients, évolutifs et distribués de haute performance.
- Vous êtes à l’aise au sein d’un environnement axé sur la gestion d’incidents.
- Vous êtes en mesure de travailler efficacement au sein d’une équipe collaborative et de communiquer des concepts techniques complexes à des équipes non techniques.
- Vous avez déjà travaillé avec C#/.NET (C++ étant considéré comme un atout).
- Vous avez une bonne connaissance des concepts CI/CD et du scriptage à des fins d’automatisation.
- Vous avez déjà travaillé avec les technologies de gestion de charges conteneurisées, comme Kubernetes, Helm et Docker.
- Vous avez déjà travaillé avec des systèmes de surveillance ou d’observabilité, comme Prometheus, Grafana et/ou Datadog.
- Vous avez de l’expérience en matière d’intégration continue et de production, tirant parti de systèmes d’automatisation de chaînes de traitement comme Jenkins, GitLab et GitHub.
- Vous êtes titulaire d’un baccalauréat en informatique, en génie logiciel, en génie informatique ou dans une concentration connexe, ou vous cumulez une expérience professionnelle et une formation équivalentes.