Indexer une copie locale statique de site WEB

oevesque · Août 14, 2018, 3:42

Bonjour
Je cherche une solution pour pouvoir faire des recherches sur une copie locale d’un site WEB statique (à part le “rechercher” de windows)

Le contexte: Dans ma boite, on quitte Lotus Notes. Mais les bases Notes ne sont pas migrées vers la nouvelle solution, elles sont gelées, passent en lecture seule et “webisées”.
c’est à dire que le SI national passe chaque base Lotus Notes dans une moulinette, qui va créer un répertoire du nom de la base avec 2 sous répertoire (“PJ” qui contient autant de répertoire qu’il y avait de pages dans la base notes dans lesquels se trouvent les pieces jointes , et “ressource” qui contient autant de fichier XML reprenant leur texte et la mise en forme des pages de la base ) .
Puis, leur script crée à la racine un index.html qui permet de naviguer de facon assez fluide, comme si on était sous Notes.
Sauf que…
Il n’y a plus aucun moteur de recherche!
Et quand on se retrouve à consulter la base d’un projet qui fait 30 Go, qui a 15 ans de suivi, et des milliers de pages, et bien c’est tout simplement impossible de trouver si une information existe déjà.

Donc, je me demandais s’il existait un petit freeware (parce qu’on ne paierait pas de licence), autorisé pour une utilisation professionnelle, qui n’a pas besoin d’être installé (parce qu’on n’a aucune droit sur les postes), qui pourrait scanner, indexer puis pouvoir être interrogé, pourquoi pas dans un langage qui soit directement utilisable par le navigateur.
Quoi, je rêve ?

PS: la solution de faire une demande d’outils au SI est une impasse. Le fait qu’on ne puisse plus travailler correctement appelle comme réponse de faire un “requestionnement de vos méthodes de travail”. Les coûts du SI (mesurables) sont toujours priorisés sur la perte de productivité des utilisateurs (non mesurables).

Nidouille · Août 14, 2018, 4:09

Elasticsearch avec un connecteur via le server Domino. Par contre, le connecteur sera payant de mémoire.

Ps : Si vous avez un SharePoint, il me semble que l’on peut aussi le connecter aux bases Lotus Notes (Domino).

oevesque · Août 14, 2018, 4:37

Merci pour la proposition, mais comme je l’ai dit, la solution de transformer les bases Notes en répertoire bureautique est LA solution UNIQUE validée par la boite.
Dorénavant, je cherche un radeau technique pour pouvoir continuer à travailler avec ces répertoires.

Nidouille · Août 14, 2018, 5:29

Je me répète, mais Elasticsearch est surement la solution idéal pour l’indexation puis la recherche des documents internes. On peut en le configurant prendre en compte les fichiers .xml.
Il est parfaitement adapté pour une recherche en mode web sans parler de l’interface REST.
Elasticsearch, c’est une solution gratuite sous licence Apache.
La mise en place d’un serveur est forcément un peu douloureuse, mais ensuite cela fonctionne super bien.

Pour moi un logiciel sur les postes pour scanner 30 Go de donnée, ca va être infernal. Surtout si le soft ne peut pas avoir une indexation poussée par l’administrateur système.
Pour moi, il aurait du convertir les bases du ou des serveurs Domino vers un mongoDB ou bien postgreSQL

J’adore l’informatique, on veut une solution ou un expert pour le prix d’un stagiaire.

Ylrahc · Août 14, 2018, 10:18

Erf, ils vous cassent l’indexation de votre BDD et ça va être de la faute de vos méthodes de travail ? Ils se foutent pas un peu de la gueule du monde là ? Ce genre de truc ça peut valoir le coup de pousser une gueulante groupée et de faire remonter à la hiérarchie que si ça se passe comme ça, vous allez droit au conflit social. Vous avez un syndic ?

oevesque · Août 14, 2018, 11:50

Je prefere rester dans la partie technique, car la partie accompagnement du changement n’a pas de solution. Le choix technique a été validé au niveau N+10.
D’un coté il y a des COMEX qui se gargarisent dans les médias de proposer des solutions innovantes en baissant les couts, de l’autre ceux qui doivent travailler avec.
La startupnation vendue par des consultants à des tres grands groupes, ca se passe tout le temps comme ca.

Avec les conseils de @Nidouille et en suivant les liens de WIkipédia, j’ai trouvé 2 logiciels qui pourraient me dépanner: Recool ou docfetcher. Je les testerais jeudi.

Nidouille · Août 15, 2018, 12:18

Je garde ca sous le coude, ca pourrait m’intéresser pour le taf. C’est vachement plus utilisateur final.
Recool
docfetcher

Et pour plus de fun pour moi

Ho punaise, ca sent la bonne grosse boite national voir plus. Et ca ne veut pas payer.
Courage, car ca sent David contre Goliath.

astro · Août 15, 2018, 9:17

A un moment j’utilisais regain http://regain.sourceforge.net/ , ça pourrait peut-être correspondre ?

AnA-l · Août 15, 2018, 10:19

Hawkeye aussi pourrait aider, mais ca coute 50€. Sinon ecrire vous meme un soft qui met tout en memoire et zou

http://www.zaragsoft.se

Histrion · Août 16, 2018, 7:17

Tu peux regarder du côté de Solr aussi peut-être en alternative à Elasticsearch :

http://lucene.apache.org/solr/

oevesque · Août 17, 2018, 5:04

Au final je n’ai pas pu installer Recool (il n’y a pas de version portable et on n’a pas de droits d’admin sur les postes), ni DocFetcher (il faut un JRE>=1.7 et on a encore le 1.6).
j’ai donc testé Regain proposé par @astro
Et bien ca correspond pas mal à ce que je cherchais, et surtout la recherche, une fois l’indexation faite, est super rapide et pertinente.