PLus qu’un logiciel, ami administrateur, tu as surtout besoin d’une methode de travail.
La majorite des administrateurs systemes se fient uniquement aux resultats et alertes lances par les divers outils de monitoring (reseau ou serveur) pour declencher les actions correctives necessaires quand une panne survient.
Or, l’autre methode qu l’on finit tous par appliquer a un moment ou un autre est la methode « preventive ».
En resume, c’est simple : tous tes systemes ont des logs d’evenement super detailles, que l’on ne lit habituellement que quand il y a un probleme serieux.
Toutefois, si quotidiennement tu epluches le logs de tous tes serveurs et traite les anomalies qui se presentent, tu vas eviter 90% des gros plantages/erreurs sur tes systemes, car avant que (par exemple) une pile Raid ne s’effondre a cause d’un disque SCSI qui commence a lacher, tu as deja eu les heures ou jours d’avant des messages d’erreur dans ton journal d’evenement.
Donc, le maitre mot de l’administrateur systeme est : anticipation, avec la surveillance quotidienne de :
les logs d’evenement de tes serveurs critiques (epluchage methodique de tes serveurs d’infrastructure):
- tes controleurs de domaine Windows NT/2000/2003, en debusquant et en traitant la moindre erreur critique immediatement
- sur tes serveurs de fichiers, tu surveilles de la meme maniere mais en insistant encore plus sur la verification des espaces disques (et surtout, l'evolution de l'utilisation de l'espace disque) et les evenements relatifs aux unites de stockage (disques RAID, statut des piles, ...)
- sur ton serveur de sauvegarde, surveillance quotidienne de l'espace disponible sur tes media de sauvegarde
Sur tes serveurs antivirus (si t’as un serveur centralise type Symantec-pipo):
- les journaux d'infection des serveurs/PC geres par le serveur
- les journaux d'installation des mises a jour antivirales (celles deployees sur les clients)
La bonne application de tes GPO (politiques de securite W2000/2003) si t’en as :
- surtout sur tes serveurs Windows, histoire de voir si les GPO qui descendent de l'Active Directory sont toujours bien appliquees (malheureusement ce n'est souvent pas le cas, avec des problemes notament de replication des GPO entre tes differents DC)
Les mises a jour. La, c’est la plaie totale. Tu dois avoir tes serveurs Windows a jour de leur correctifs logiciels (sous reserve de compatibilite avec les applications installees). Et pour cela, tu n’as pas tellement le choix sous Windows : SUS Update Service (gratuit, efficace, fiable)
- pire encore pour les PC/portables clients qui vont venir se connecter sur tes serveurs. Les mises a jour sont critiques ! La encore SUS peut mettre a jour chacun de tes postes clients Windows q jour pendant la nuit grace aux GPO de tes controleurs Windows. C'est indispensable.
Disaster Recovery ? Les deux mots qui font peur. La question que tu dois te poser est : "En combien de temps le systeme peut il etre remis en route en cas de crash grave (pile Raid bousillee, serveur totalement plante, invasion de termites siliconovores dans ta salle serveur, fin du monde, …).
C’est le genre de chose a etudier bien avant que cela ne se produise.
Quel est le temps d’utilisation de tes serveurs ? En gros, chaque composant d’un serveur a un MTBF (Maximum Time Before Fuck) et lachera un jour ou un autre. Donc regarde quels sont tes serveurs les plus anciens quelle que soit la plateforme (NT, Linux, …) et envisage au plus tot la chare de travail que representerait le remplacement de ceux ci.
Surveille ta structure reseau : le nerf de la guerre, c’est ton architecture LAN/WAN. De temps en temps, Sniffe ton reseau qvec des utilitaires comme Ethereal, cela te permettra d’avoir une vue plus precise sur les paquets qui circulent entre tes switchs et de pouvoir diagnostiquer preventivement les erreurs sur des materiels actifs (switchs, carte reseau) ou sur ton cablage
- tes serveurs critiques utilisent ils des carte reseau avec redondance ? Si oui, verifie que les pilotes soient bien a jour (surtout sur du HP-Compaq)
- as tu des hubs et des switchs sur le meme schema LAN ? si oui, vire tes hubs et remplace les.
Je suis certain d’en oublier…