Salut tout le monde,
Dans notre 4ème milestone NGI, on doit mettre en place une bibliothèque/archive de documents reçus sur Ma Dada. Le but étant de faciliter la recherche, exploration de ces documents qui sont aujourd’hui seulement accessibles comme des PJ dans des emails.
Dans l’esprit, on voudrait une sorte de data.gouv avec ce que madada contient. Le but n’étant pas de réinventer la roue, mais plutôt réutiliser un outil existant et l’intégrer avec alaveteli, en espérant pouvoir le rendre utile aux autres plateformes par la suite.
Voilà ce que j’ai en tête pour ce système, mais je serais preneur de vos idées/commentaires. Et si vous avez des outils en tête qui pourraient correspondre à nos besoins, ajoutez les en commentaire aussi!
Cahier des charges pour ce système de « stockage » des documents
- Le but est de collecter les PJ reçues dans les réponses aux demandes (ou envoyées via wetransfer et compagnie). Cela doit être fait aussi automatiquement que possible afin de réduire la charge de travail manuel.
- Les documents ajoutés au système doivent pouvoir être filtrés:
- automatiquement: par exemple ignorer les fichiers d’un certain type, ou d’une taille inférieur à X (typiquement pour ne pas enregistrer les logos des mairies)
- à la main: on doit pouvoir facilement supprimer ou cacher un document dans l’archive pour quelque raison que ce soit (par exemple: RGPD, doc non communicable…)
- Les documents doivent pouvoir être automatiquement taggés au moment de leur archivage, par exemple:
- entité qui a produit le document
- sujet/thématique/…
- les tags doivent ensuite pouvoir être modifiés à la main.
- Le système doit fournir une interface pour ajouter/modifier/supprimer du contenu depuis le code d’alaveteli (via une API en ligne, ou une API ruby)
- Idéalement, le code doit pouvoir être étendu via un système de hooks ou plugins pour pouvoir modifier le fonctionnement « de base »
- Le logiciel doit fournir un moteur de recherche par producteurs de données, tags, recherche dans le texte, dates, etc…
- Si possible, une extraction du texte façon OCR pour les documents scannés serait la bienvenue. Cela permettrait une indexation bien plus facile par les moteurs de recherche.
- On doit pouvoir obtenir facilement un lien direct vers un document (« partage »). Ce lien doit permettre une prévisualisation dans un navigateur pour les formats de documents courants.
- Bonus: Une mise en avant de certains documents à la main par les admins serait utile (exemple: Accueil - data.gouv.fr)
- Bonus: le système peut aussi offrir une option de transfert de fichier directement au moment de l’envoi (à la place d’un wetransfer ou équivalent) pour que l’administration envoie le document sans passer par une plateforme tierce où on devrait ensuite récupérer le document.
- Le système doit être un logiciel open-source, et idéalement libre.
- Il doit répondre aux besoins du RGPD (modification/suppression de documents pour retirer des données personnelles, par exemple)
- Le système doit pouvoir être répliqué sur d’autres instances d’alaveteli assez facilement.
(Tickets gitlab correspondants: Open data library to archive docs and datasets from requests (#177) · Issues · madada-team / dada-core · GitLab Setup a search engine through opendata library (#178) · Issues · madada-team / dada-core · GitLab et Improve SEO for web search (#179) · Issues · madada-team / dada-core · GitLab)