Page de statut : recherche une alternative à CachetHQ

Bonjour à toustes !

Au boulot, pour recenser les incidents sur nos outils internes, on utilise Cachet, qui marche très bien :

  • simple
  • alimentable et consultable par API
  • auto-hébergé
  • envoie un mail au service concerné quand un incident est déclaré

bref, parfait pour le monitoring d’une petite centaine de services gérés par une quinzaine de départements différents

Le truc pénible, c’est qu’il n’y a qu’un seul niveau d’arborescence, et pas de moteur de recherches. Et que j’ai besoin d’un truc similaire pour 600 chaines TV, chacune d’entre eux pouvant être dispo jusqu’en 5 versions différentes (avec bien sûr la possibilité qu’une panne n’affecte qu’une seule version), et que la saisie d’incident ne sera pas du tout automatisable (vu que bon, faut aller sur un poste de test vérifier si on reproduit)

C’est là Cachet montre ses limites en termes d’ergonomie pour la saisie d’incident : le truc n’est pas du tout adapté à l’affichage de 600 services.
En plus, pour que notre outil de diag maison interroge le truc avec le moins de maintenance possible, il faudrait qu’on puisse personnaliser les ID, ce que Cachet ne permet pas (l’idée étant, on a le numéro de la chaîne concernée en auto, on interroge la page via une api avec le numéro de la chaîne et on sait si un incident est déclaré ou pas)

Nos devs étant sous l’eau, avant de partir sur un truc fait maison, j’aimerai bien savoir s’il n’y a pas déjà un outil clé en main qui répondrait à mon besoin. Quelqu’un ici aurait des idées ?

Qu’est-ce que tu appelles un incident ? Est-ce une API qui retourne un code d’erreur fonctionnelle ? Un code d’erreur technique ? Un service indisponible ?

Dans ma boîte on utilise le vénérable Centreon pour savoir si nos services sont up, pour monitorer nos VMs, nos serveurs physiques et probablement des tas d’autres trucs que je connais pas. C’est pas folichon visuellement, mais ça fait le taf. J’ai déjà aussi utilisé Zabbix pour ce genre de truc, même si ça a le défaut de pas gérer la redondance des collecteurs de données. En plus fashion, il y a Prometheus. Je l’ai jamais utilisé mais c’est devenu à la mode dans plein de grosses boîtes.

Pour le monitoring des codes retour des APIs, on utilise du monitoring de métriques avec la chaîne telegraf - influxdb - grafana.

Des chaines TV : l’incident peut être du pas d’image, du décalage entre le son et l’image, des bandeaux avec des messages à la con mais qui génèrent des contacts clients… bref, aucune automatisation possible sur la déclaration d’incident, c’est forcément à la main, mort pour une surveillance automatisée.

Je n’ai pas besoin de métrique, juste une page où le conseiller peut vérifier si l’anomalie a déjà été déclarée comme collective avant de se lancer dans une batterie de test (ce que Cachet fait très bien). Et si l’outil de diag peut vérifier à la place du conseiller, c’est encore mieux (pour ça il me suffirait que l’id corresponde au numéro de la chaîne)

À côté de ça, faut aussi que sur les déclarations d’incident, ça envoie un mail au service concerné (Cachet le fait aussi), qu’ils puissent également mettre à jour quand il y a rétablissement

Bref, il me faut juste un Cachet « en mieux », Centreon et cie c’est juste overkill par rapport à mon besoin, sans forcément y répondre totalement en plus

J’édite le premier message pour que ce soit plus clair

Alors je dirais Zabbix. C’est overkill, oui mais c’est plutôt facile à mettre en œuvre sans trop développement, ça permet de configurer des dashboards et des alertes assez facilement avec une flopée de sources et ça sait déclencher des trucs comme des envois de mail lors d’évènement paramétrable.

S’il n’y avait qu’un besoin d’affichage, j’aurais dit un framework de jolis dashboards, style Smashing. Mais ça implique du code, même si ça représente pas une grosse masse de code.

Il te faut un système de gestion de tickets. Un truc comme Remedy ou une alternative gratuite à Remedy.

Ouais, je pensais aussi à Jira mais si j’ai bien lu entre les lignes, il a déjà un système de tickets qui a pas l’air de permettre de faire des dashboards

Plus spécifique que JIRA.

VictorOps
PagerDuty

Ce genre de trucs

1 « J'aime »

Là où je bosse on utilise SNow, mais c’est peut-être aussi overkill

+1 pour SNow. Et le overkill
Mais c est que la partie ticket et j’ai l’impression que Cachet fait aussi de la détection.

Bah déjà, merci pour les premières suggestions, je vais regarder tout ça.

En fait, on a déjà un système de gestion de tickets, capable de faire des recoupements en auto sur un paquet de critères, avec rattachement à un master ticket qui permet de clore d’un coup les tickets rattachés.

L’un des problèmes, c’est que le dev de ce système, en plus d’être complètement sous l’eau, ne veut pas faire de master ticket lié aux chaines tv parce que ça ne concerne que la tv, qui n’est qu’un pan du système de ticket qui gère plein d’autres trucs.

Le second problème, c’est que l’interface en question est merdique dès qu’il y a plus de 10 choix, alors 600 :smiley:

En termes de fonctionnalités, Cachet me va très bien, c’est l’ergonomie qui est limitante.

En y repensant, je suis en train de me dire que pour les ID, je peux m’en sortir avec un mapping en BDD, et il reste plus que la question des menus un peu perraves… je sens que ça va finir en Ctrl+F chez les opérationnels :sweat_smile:

Ce sujet a été automatiquement fermé après 730 jours. Aucune réponse n’est permise dorénavant.