#Le motto de l'exploitant

En lisant le très bon article 10 things to know when starting out as a sysadmin, j’ai retrouvé des points importants que tout exploitant doit connaître sur le bout des doigts à mon humble avis et d’après mes diverses (et parfois malheureuses) expériences:

  1. Sauvegarder est important, tester la restauration l’est tout autant.
  2. Tous les systèmes et applications en production doivent être supervisés, en adaptant le niveau de supervision à la criticité du système.
  3. L’exploitant doit être techniquement très compétent, notamment sur les protocoles réseau (http, DNS, routages…) qui sont à la base du troubleshooting.
  4. L’exploitant est avant tout un expert de la gestion des problèmes qui sait analyser les anomalies en identifiant et éliminant les variables une à une jusqu’à trouver la rootcause.
  5. Redondance et résilience sont les amies de l’exploitant, qui n’oublie pas de les tester régulièrement…il est toujours dommage de se rendre compte en plein incident que le backup ne fonctionne pas alors que le master est tombé
  6. Exploiter des machines, c’est maintenir la disponibilité et la sécurité des applications: vos clients ne vous pardonneront jamais d’avoir égarer leurs données personnelles.
  7. Les logs sont et resteront l’outil de diagnostic principal de l’exploitant: cela nécessite d’une part une infrastructure pour les gérer correctement mais aussi un travail en amont avec les développeurs pour savoir ce qui doit être dans des logs ou pas!
  8. Savoir développer des outils est important pour industrialiser des actions de production ou pour trouver un “quick hack” afin de rétablir le service…et ces outils sont presque toujours écrit en langage de script (python, ruby, bash, lua - choisissez votre préféré) que devra connaître voire masteriser l’exploitant.
  9. La documentation sauve la journée de l’exploitant (et permet accessoirement de rétablir le service): manuels d’exploitation, guides de troubleshooting, schémas de flux…sont à construire, collecter et surtout stocker dans des bases de connaissance efficientes - les wikis sont souvent de parfaits candidats pour cela en rajoutant une dimension collaborative entre exploitants et développeurs.
  10. Bien que la réactivité soit la première qualité de l’exploitant, la proactivité est tout aussi importante, d’une part en amont des projets pour préparer l’exploitabilité des solutions avec architectes et développeurs et d’autre part en aval en analysant quotidiennement la performance des applications afin d’anticiper les dégradations.

Dernier point et non des moindres: l’opensource permet à l’exploitant d’avoir une boîte à outils efficace et à moindre frais:

  • Déploiement (Puppet/Chef/Vagrant)
  • Intégration et les tests (Selenium, Cucumber & Co)
  • Sauvegarde (Amanda/Bacula)
  • Supervision (Nagios, Centreon, Zabbix)
  • Analyse de la performance (Cacti, Smokeping)
  • Gestion des problèmes et des incidents (Bugzilla, Mantis, Trac)
  • Documentation (MoinMoinwiki, MediaWiki).

Ainsi pour chaque usage plusieurs alternatives libres existent et sont par ailleurs largement utilisées dans le monde de la production pour faciliter la vie de l’exploitant.

Date de publication: 02/09/2012
Mots-clefs: #Devops #management