Serveur dédié qui plante

Salut,
J’ai un petit souci, j’ai un serveur dédié chez ovh et depuis ce week-end, il plante ‘apparement’ sans raison (bien qu’il y’en ai forcement une sinon il planterai pas) pas de swap, ni de surcharge de cpu.
Je me demandais si vous aviez une cause probable de crash a me suggérer ?
Mes compétences en administration serveur étant limitées, je suis sur que ja passe a côté d’un truc évident.

Salut,

Il plante c’est à dire ? il reboot ? tu as des process qui crash que tu dois relancer ?

Tu as quelque chose dans /var/log/syslog ? (j’imagine que c’est un unix… ou pas)

Tu as envoyé un mail à ton hébergeur savoir si ils avaient pas un problème de clim dans ta baie ? (Souvent quand on a touché à rien et qu’il y a un problème, ca vient de la chaleur, enfin ca peut être une piste).

Bon courage.

Ca manque de détails … Quand tu dis qu’il plante, quel est le symptôme ? Plus de ping ? Plus de service web ? Il reboot carrément (regarde le uptime) ? Regarde les dernières ligne de ton /var/log/messages (tail -200 /var/log/messages) ou autres fichiers de log, ça dépend de la distrib.
Dans tous les cas tu devrais ouvrir un ticket chez OVH plutot, ils regarderont ça.

Merci de vos réponses. C’est vrai que j’ai été imprécis dans mon post et je m’en excuse.
Le serveur est en release 2 ovh (basé sur une gentoo), quand je dit qu’il ‘plante’, les sites hébergés dessus sont innacessibles mais la machine ping, parfois ssh est down, parfois non.
Dans mon syslog j’ai ca :Jul 9 15:03:56 ns2427 collectd[16281]: rrd_update failed: traffic-tunl0.rrd: illegal attempt to update using time 1183986236 when last update time is 1183986337 (minimum one second step) Jul 9 15:03:56 ns2427 collectd[16281]: rrd_update failed: swap.rrd: illegal attempt to update using time 1183986236 when last update time is 1183986337 (minimum one second step) Jul 9 15:03:56 ns2427 collectd[16281]: rrd_update failed: processes.rrd: illegal attempt to update using time 1183986236 when last update time is 1183986337 (minimum one second step) Jul 9 15:03:56 ns2427 collectd[16281]: rrd_update failed: memory.rrd: illegal attempt to update using time 1183986236 when last update time is 1183986237 (minimum one second step) Jul 9 15:03:56 ns2427 collectd[16281]: rrd_update failed: load.rrd: illegal attempt to update using time 1183986236 when last update time is 1183986237 (minimum one second step) Jul 9 15:03:56 ns2427 collectd[16281]: rrd_update failed: disk-3-0.rrd: illegal attempt to update using time 1183986236 when last update time is 1183986237 (minimum one second step) Jul 9 15:03:56 ns2427 collectd[16281]: rrd_update failed: partition-3-1.rrd: illegal attempt to update using time 1183986236 when last update time is 1183986237 (minimum one second step) Jul 9 15:03:56 ns2427 collectd[16281]: rrd_update failed: partition-3-2.rrd: illegal attempt to update using time 1183986236 when last update time is 1183986237 (minimum one second step) Jul 9 15:03:56 ns2427 collectd[16281]: rrd_update failed: partition-3-3.rrd: illegal attempt to update using time 1183986236 when last update time is 1183986237 (minimum one second step) Jul 9 15:03:56 ns2427 collectd[16281]: rrd_update failed: df-root.rrd: illegal attempt to update using time 1183986236 when last update time is 1183986237 (minimum one second step) Jul 9 15:03:56 ns2427 collectd[16281]: rrd_update failed: df-home.rrd: illegal attempt to update using time 1183986236 when last update time is 1183986237 (minimum one second step) Jul 9 15:03:56 ns2427 collectd[16281]: rrd_update failed: df-dev-shm.rrd: illegal attempt to update using time 1183986236 when last update time is 1183986237 (minimum one second step) Jul 9 15:03:56 ns2427 collectd[16281]: rrd_update failed: cpu-0.rrd: illegal attempt to update using time 1183986236 when last update time is 1183986237 (minimum one second step) Jul 9 15:03:56 ns2427 collectd[16281]: rrd_update failed: cpu-1.rrd: illegal attempt to update using time 1183986236 when last update time is 1183986237 (minimum one second step) Jul 9 15:04:01 ns2427 cron[17103]: (root) CMD (/usr/local/rtm/bin/rtm >/dev/null 2>/dev/null) Jul 9 15:04:06 ns2427 collectd[16281]: rrd_update failed: traffic-eth0.rrd: illegal attempt to update using time 1183986246 when last update time is 1183986337 (minimum one second step) Jul 9 15:04:06 ns2427 collectd[16281]: rrd_update failed: traffic-dummy0.rrd: illegal attempt to update using time 1183986246 when last update time is 1183986337 (minimum one second step) Jul 9 15:04:06 ns2427 collectd[16281]: rrd_update failed: traffic-tunl0.rrd: illegal attempt to update using time 1183986246 when last update time is 1183986337 (minimum one second step) Jul 9 15:04:06 ns2427 collectd[16281]: rrd_update failed: swap.rrd: illegal attempt to update using time 1183986246 when last update time is 1183986337 (minimum one second step) Jul 9 15:04:06 ns2427 collectd[16281]: rrd_update failed: processes.rrd: illegal attempt to update using time 1183986246 when last update time is 1183986337 (minimum one second step) Jul 9 15:04:16 ns2427 collectd[16281]: rrd_update failed: traffic-eth0.rrd: illegal attempt to update using time 1183986256 when last update time is 1183986337 (minimum one second step) Jul 9 15:04:16 ns2427 collectd[16281]: rrd_update failed: traffic-dummy0.rrd: illegal attempt to update using time 1183986256 when last update time is 1183986337 (minimum one second step) Jul 9 15:04:16 ns2427 collectd[16281]: rrd_update failed: traffic-tunl0.rrd: illegal attempt to update using time 1183986256 when last update time is 1183986337 (minimum one second step) Jul 9 15:04:16 ns2427 collectd[16281]: rrd_update failed: swap.rrd: illegal attempt to update using time 1183986256 when last update time is 1183986337 (minimum one second step) Jul 9 15:04:16 ns2427 collectd[16281]: rrd_update failed: processes.rrd: illegal attempt to update using time 1183986256 when last update time is 1183986337 (minimum one second step) Jul 9 15:04:26 ns2427 collectd[16281]: rrd_update failed: traffic-eth0.rrd: illegal attempt to update using time 1183986266 when last update time is 1183986337 (minimum one second step) Jul 9 15:04:26 ns2427 collectd[16281]: rrd_update failed: traffic-dummy0.rrd: illegal attempt to update using time 1183986266 when last update time is 1183986337 (minimum one second step) Jul 9 15:04:26 ns2427 collectd[16281]: rrd_update failed: traffic-tunl0.rrd: illegal attempt to update using time 1183986266 when last update time is 1183986337 (minimum one second step) Jul 9 15:04:26 ns2427 collectd[16281]: rrd_update failed: swap.rrd: illegal attempt to update using time 1183986266 when last update time is 1183986337 (minimum one second step) Jul 9 15:04:26 ns2427 collectd[16281]: rrd_update failed: processes.rrd: illegal attempt to update using time 1183986266 when last update time is 1183986337 (minimum one second step) Jul 9 15:04:36 ns2427 collectd[16281]: rrd_update failed: traffic-eth0.rrd: illegal attempt to update using time 1183986276 when last update time is 1183986337 (minimum one second step) Jul 9 15:04:36 ns2427 collectd[16281]: rrd_update failed: traffic-dummy0.rrd: illegal attempt to update using time 1183986276 when last update time is 1183986337 (minimum one second step) Jul 9 15:04:36 ns2427 collectd[16281]: rrd_update failed: traffic-tunl0.rrd: illegal attempt to update using time 1183986276 when last update time is 1183986337 (minimum one second step)
ca m’a l’air intéressant mais je comprends pas bien…

Sinon j’ai aussi ca dans mon syslog :Jul 9 16:11:01 ns2427 cron[27870]: (root) CMD (/usr/local/rtm/bin/rtm >/dev/null 2>/dev/null) Jul 9 16:12:01 ns2427 cron[32012]: (root) CMD (/usr/local/rtm/bin/rtm >/dev/null 2>/dev/null) Jul 9 16:13:01 ns2427 cron[29556]: (root) CMD (/usr/local/rtm/bin/rtm >/dev/null 2>/dev/null) Jul 9 16:14:01 ns2427 cron[31536]: (root) CMD (/usr/local/rtm/bin/rtm >/dev/null 2>/dev/null) Jul 9 16:15:01 ns2427 cron[25001]: (root) CMD (/usr/local/rtm/bin/rtm >/dev/null 2>/dev/null) Jul 9 16:16:01 ns2427 cron[6193]: (root) CMD (/usr/local/rtm/bin/rtm >/dev/null 2>/dev/null) Jul 9 16:17:01 ns2427 cron[12506]: (root) CMD (/usr/local/rtm/bin/rtm >/dev/null 2>/dev/null) Jul 9 16:18:01 ns2427 cron[13074]: (root) CMD (/usr/local/rtm/bin/rtm >/dev/null 2>/dev/null) Jul 9 16:19:01 ns2427 cron[4858]: (root) CMD (/usr/local/rtm/bin/rtm >/dev/null 2>/dev/null) Jul 9 16:20:01 ns2427 cron[10105]: (root) CMD (/usr/local/rtm/bin/rtm >/dev/null 2>/dev/null) Jul 9 16:20:01 ns2427 cron[25914]: (root) CMD (test -x /usr/sbin/run-crons && /usr/sbin/run-crons ) Jul 9 16:21:01 ns2427 cron[19095]: (root) CMD (/usr/local/rtm/bin/rtm >/dev/null 2>/dev/null) Jul 9 16:22:01 ns2427 cron[6588]: (root) CMD (/usr/local/rtm/bin/rtm >/dev/null 2>/dev/null) Jul 9 16:23:01 ns2427 cron[22443]: (root) CMD (/usr/local/rtm/bin/rtm >/dev/null 2>/dev/null) Jul 9 16:24:01 ns2427 cron[362]: (root) CMD (/usr/local/rtm/bin/rtm >/dev/null 2>/dev/null) Jul 9 16:25:01 ns2427 cron[17993]: (root) CMD (/usr/local/rtm/bin/rtm >/dev/null 2>/dev/null) Jul 9 16:26:01 ns2427 cron[4301]: (root) CMD (/usr/local/rtm/bin/rtm >/dev/null 2>/dev/null) Jul 9 16:27:01 ns2427 cron[14245]: (root) CMD (/usr/local/rtm/bin/rtm >/dev/null 2>/dev/null) Jul 9 16:28:01 ns2427 cron[11043]: (root) CMD (/usr/local/rtm/bin/rtm >/dev/null 2>/dev/null) Jul 9 16:29:01 ns2427 cron[13364]: (root) CMD (/usr/local/rtm/bin/rtm >/dev/null 2>/dev/null) Jul 9 16:30:01 ns2427 cron[8617]: (root) CMD (/usr/local/rtm/bin/rtm >/dev/null 2>/dev/null) Jul 9 16:30:01 ns2427 cron[8913]: (root) CMD (test -x /usr/sbin/run-crons && /usr/sbin/run-crons )

et dans messages :Jul 9 15:03:56 ns2427 collectd[16281]: rrd_update failed: df-root.rrd: illegal attempt to update using time 1183986236 when last update time is 1183986237 (minimum one second step) Jul 9 15:03:56 ns2427 collectd[16281]: rrd_update failed: df-home.rrd: illegal attempt to update using time 1183986236 when last update time is 1183986237 (minimum one second step) Jul 9 15:03:56 ns2427 collectd[16281]: rrd_update failed: df-dev-shm.rrd: illegal attempt to update using time 1183986236 when last update time is 1183986237 (minimum one second step)qui me parait interessant
et sinon des trucs du genre Jul 9 16:35:01 ns2427 cron[32162]: (root) CMD (/usr/local/rtm/bin/rtm >/dev/null 2>/dev/null) Jul 9 16:36:01 ns2427 cron[14316]: (root) CMD (/usr/local/rtm/bin/rtm >/dev/null 2>/dev/null) Jul 9 16:37:01 ns2427 cron[8043]: (root) CMD (/usr/local/rtm/bin/rtm >/dev/null 2>/dev/null) Jul 9 16:38:01 ns2427 cron[17465]: (root) CMD (/usr/local/rtm/bin/rtm >/dev/null 2>/dev/null) Jul 9 16:39:01 ns2427 cron[24071]: (root) CMD (/usr/local/rtm/bin/rtm >/dev/null 2>/dev/null)

En remontant plus loin dans les logs j’ai des tentaives de brute force sur ssh, mais j’aimerai pouvoir être sur que personne est rentré y’a t’il un moyen de s’en assurer ?

Quelqu’un a l’air d’avoir le même problème que toi :
http://forum.kimsufi.com/showthread.php?t=2186

Mais ça ne devrait pas poser de problème d’accessibilité des autres services B)
Tu devrais ouvrir un ticket.

Ok, merci pour la piste, j’ai ouvert un ticket on verra ce que ca donne.

alors les lignes du syslog :

sont parfaitement normal :
rtm = real time monotoring

Je pense que c’est le suivie d’ovh sur les perf de ton serveur.

Pour les autres messages je ne sais pas trop par contre, mais tu devrais faire comme le suggère DrDrakeRamore, et ouvrir un incident chez Ovh directement.

En ce qui concerne l’acces à ta machine via ssh, tu dois avoir dans /var/log un fichier auth, qui doit recenser tous les accès distant à ta machine.

Si c’est pas le cas il faut l’activer:
dans sshd_config décommenter :

SyslogFacility AUTH LogLevel INFO

Et dans la config du syslog ( /etc/syslog.conf ), ajouter (ou vérifier qu’il y a)

Bon courage pour la suite.

[edit : je suis vraiment trop lent, t’as déjà ouvert ton ticket, sage décision B)]

Et si la personne qui s’occupe de ton dossier est Nicolas, dis lui de s’activer, sinon je m’occupe de lui :wink:

Grouiiiiiiiiiiiiiiic

Je sais pas si c’est Nicolas, mais en tout cas c’est mou, toujours pas de réponse…