Suivi du travail NLNet 2.1 - Lien avec Wikidata

Ce fil pourra servir à garder une trace publique du travail effectué pour connecter madada.fr avec wikidata.
Ce fil est public, attention à ne pas y poster d’infos confidentielles!

Avec Lucas et @LaurentS Laurent en réunion on se demandait si l’url des autorités était un identifiant unique bon à prendre pour Wikidata, et pour ça il faudrait qu’il reste inchangé si on change l’autorité.

Je viens de faire le test, l’URL change instantanément si on change le nom de l’autorité. Donc pas un bon identifiant unique.

Pour préciser : l’ancienne URL redirige vers la nouvelle URL. Par contre je ne sais pas si cette redirection est limitée dans le temps ou en nombre de changements?

Dans tous les cas, même si c’est permanent, je me dis qu’à priori ce n’est pas une bonne idée de garder un truc qui change comme identifiant unique, et de se fier à la redirection des url pour assurer l’unicité. Je me dis que c’est sujet à problèmes potentiels (même si je suis pas capable d’imaginer exactement ces problèmes dans la bd ou wikidata).

Ce que je vois dans la db, c’est que les différentes versions sont conservées, apparement sans limite de temps, ainsi que leur url_name.

Je pense aussi que ce n’est pas idéal, en particulier parce qu’on risque se retrouver avec des doublons: en changeant le nom comme tu viens de le faire, on a maintenant 2 voire 3 identifiants « uniques » pour une même autorité.
Dans la db, le seul identifiant qui reste stable semble être l’id interne (public_body_id dans le CSV). C’est juste un entier, type 83649 donc sans signification particulière. Je ne pense pas que le publier pose problème, par contre il n’y a pas aujourd’hui d’url publique qui permette de remonter à la page de l’autorité à partir de cet ID. On peut la rajouter cela dit!

Je pense que c’est une bonne idée de se baser sur cet identifiant non signifiant et le cas échéant de stocker en db l’identifiant wikidata.
Dans les entités wikidata il y a plusieurs propriétés qui servent justement à faire des liens vers l’extérieur : bloc identifiants
L’identifiant data.gouv.fr par exemple est parfois renseigné pour certaines autorités.
exemple : departmental council of Gironde - Wikidata

Bonjour à toutes et tous ! Je suis Lucas Lévêque et c’est moi qui m’occupe du traitement des données et du versement dans Wikidata.

Je ferai un point hebdomadaire ici pour résumer l’avancement du projet.

Aussi, je viendrai ici pour vous faire des retours et vous poser des questions sur les données et leur traitement. :slightly_smiling_face:

Voilà, voilà ! À bientôt ! :smiley:

1 Like

Bonjour à toutes et tous. Voici mon premier rapport hebdomadaire sur l’import sur Wikidata.

J’ai exploré l’intégralité des 50 milles lignes d’institutions à importer et je pense pouvoir commencer les imports dès la semaine pour les groupes d’institutions les mieux formatés. D’autres par contre nécessites un certains nombres de repasses et de corrections.

La majorité du travail se concentrera sur les administrations communales où j’ai pu constater un certain nombres de soucis : mairie déléguées non formatées, suppression systématique du 0 dans les adresse lorsque le département commence par un zéro, la distinction des communes homonyme par le code commune et non le code postal, et plein d’autres petits trucs moins importants.

Je vous mets en lien ici une discussion qui a lieu sur Wikidata pour la mise en forme et l’import des administrations des communes : https://www.wikidata.org/wiki/Wikidata_talk:WikiProject_France/Communes#Communes_et_institutions.

Je vous dis à la semaine prochaine pour les premiers imports ! :smiley:

@LucasL Je confirme qu’on n’a rien d’autre, donc je propose qu’on utilise cet ID comme référence dans tes imports wikidata. Fais moi signe si tu as besoin de clarifications.

Bonjour à toutes et tous.

J’ai fait un premier versement test auprès d’institutions préexistantes dans Wikidata : les tribunaux administratifs. J’ai donc ajouté les adresses, tél et fax des 32 tribunaux de France. Vous pouvez suivre ici mes ajouts dans Wikidata : https://www.wikidata.org/wiki/Special:Contributions/Lucas_Lévêque

@LaurentS C’est compris, j’utiliserai cet identifiant. Par contre, il faut que j’en fasse la demande auprès des administrateurs et pour cela, il faut que les URLs fonctionnent, iels ne me croiront pas sur parole. Je préécris la demande de mon côté et je l’envoie dès que ça marche ! :wink:

Comme vous pouvez le voir, j’ai créé un élément Wikidata pour Ma DaDa (en me trompant de compte… XD) pour le test. Il est succinct et a besoin d’être enrichi : Q113956703 - Wikidata. Si vous voulez vous faire la main sur la base, c’est un bon exercice que d’essayer de remplir les différentes déclarations associées. N’hésitez pas à vous reposer sur des sources extérieures pour valider vos informations.

Cette semaine je vais continuer mes envois d’institutions par petit lot (il y en a pas mal). Je suis en discussion pour les lots les plus importants (commune notamment).

N’hésitez pas à revenir vers moi s’il y a des questions ! :wink:

@LucasL Je viens de découvrir que WhatDoTheyKnow, le « MaDada britannique » a déjà une propriété wikidata enregistrée: WhatDoTheyKnow organisation ID - Wikidata

2 tickets ouverts chez alaveteli (le logiciel qui fait tourner madada et WhatDoTheyKnow) en rapport avec le sujet:

Je ne suis pas sûr de comprendre ce qu’ils ont utilisé comme identifiant pour leur propriété, mais la regexp me dit que ce n’est pas juste numérique.
Ils parlent aussi d’ajouter dans leur site un tag qui reprend un id wikidata (externe à notre DB donc).
Dis nous ce qui te semble le plus pertinent. On peut s’appeler demain vite fait si c’est utile.

Bonjour @LaurentS, je suis désolé du retard à te répondre. J’ai eut un soucis de santé vendredi et j’ai dû terminer ma journée un peu plus tôt.

La quasi-totalité des tribunaux ont été chargé avec vos données. J’ai néanmoins un soucis d’import avec 5 tribunaux (les tribunaux pour enfants) que j’essaie de régler avec un dev.

Concernant la propriété Wikidata d’ID MaDada, qu’importe l’ID en fait, le VIAF ou l’ISNI ont des ID complétement numérique sans que ça pose problème. L’important étant surtout que l’ID soit stable…

On s’appelle demain sur ce point si tu veux.

@pascalr @samgoeta votre aide sur ce point serait la bienvenue. La question est la suivante:
les communes françaises et les mairies doivent-elles êtres modelisées sur wikidata comme des entités distinctes, ou peut-on les assimiler à une même entité du point de vue data?

@LucasL et moi avons l’impression que les distinguer serait plus correct du point de vue sémantique, mais d’autres membres de wikidata pensent le contraire (cf le lien ci-dessus pour les détails). Si vous connaissez une référence qui fasse autorité en la matière (texte de loi ou autre), ce serait encore mieux :slight_smile:

Je pense en particulier à la question des domaines de compétences: des entités data distinctes permettraient, il me semble, de modeliser une relation telle que « Mairie de Paris est en charge de la gestion des déchets pour la commune de Paris ».

@LucasL concernant le choix de l’identifiant Ma Dada à verser dans wikidata, voici ce qu’on sait:

  • whatdotheyknow.com utilise le url_name d’alaveteli pour sa propriété P8167
  • cet identifiant n’est pas stable dans certains cas un peu extrêmes: Si on considère 2 autorités Mairie A et Mairie B dont les pages sont initialement nommées mairie_a et mairie_b, avec les valeurs correspondantes de url_name. Je ne peux pas renommer le url_name de B en mairie_a, alaveteli va râler :+1: .
  • Par contre, je peux renommer mairie_a en nouvelle_mairie_a. L’ancienne url https://madada.fr/body/mairie_a renverra comme on s’y attend vers nouvelle_mairie_a.
  • MAIS: je peux maintenant changer le nom raccourci (shortname) de Mairie B en mairie_a sans problème :-1:.
  • A partir de ce moment là, l’url https://madada.fr/body/mairie_a renvoie maintenant vers Mairie B, ce qui ne semble pas très logique.

Ce que je propose, c’est qu’on suive le modèle de whatDoTheyKnow pour le choix de l’id, et qu’on utilise le url_name:

  • ça nous permettra comme je le disais en visio de partager du code plus facilement avec eux et les autres sites alaveteli (ce qui est probablement le plus important),
  • les renvois bizarres sont des cas limites/rares (je n’en trouve pas encore dans notre db), et on pourrait les éviter en ajoutant une validation supplémentaire lors du changement de nom pour éviter des doublons comme dans le scénario fictif que j’ai décrit ci-dessus. Ou au pire, on peut aller mettre à jour le lien sur wikidata. Un ticket existe sur le repo d’alaveteli, je vais voir si je peux proposer un patch.

Si ça te convient, tu as toutes les données, et l’url de renvoi vers madada sera alors https://madada.fr/body/$1 et la regexp de validation la même que pour P8167, au nom de domaine près.

@LaurentS C’est Nickel, j’entame les démarche dès demain matin.

Bonjour,
Après avoir lu le fil de discussion de wikidata, je pense en effet qu’il faut « verser » les données de Madada vers l’entité institution et pas l’éventuel complément « ressort territorial ».

Le cas de Paris est particulier car c’est à la fois une commune et un département.

La relation « Mairie de Paris est en charge de la gestion des déchets pour la commune de Paris » n’a pas de sens institutionnellement parlant. Les compétences assignées aux collectivités territoriales communales sont fixées par la loi. Certaines communes peuvent en transférer (ou doivent) aux inter-communalités auxquelles elles sont rattachées mais la phrase La commune de Paris est en charge de la gestion des déchets" est suffisante.

La notion de mairie n’a pas de base institutionnelle et comme évoqué dans le fil de discussion la mairie c’est le bâtiment symbolisant l’autorité administrative communale.

Les textes de loi qui encadrent les attributions de compétences sont les différents textes liés aux épisodes de centralisation/décentralisation dont les derniers avatars sont la loi NOTre de 2015 et la loi 3DS de février 2022

Donc à mon sens la distinction commune et mairie est d’ordre sémantique. Il n’y a pas de cas réel où on pourrait se poser la question de savoir s’il faut faire une demande de documents administratifs à la commune de Bordeaux ou à la mairie de Bordeaux.
Il peut y avoir des organismes rattachés comme les CCAS qui sont des établissements publics administratifs parfois intégrés aux locaux des communes et dont les budgets peuvent être annexés à ceux de la commune mais qui ont malgré tout un périmètre de compétence réglementé et sont dotés d’une certaine autonomie financière.

1 Like

Bonsoir à toutes et tous. Voici le récapitulatif de la semaine.

Tout d’abord, une bonne nouvelle après une semaine désespérante de transferts, j’ai pu grâce à l’aide de plusieurs Wikidatiens et Wikidatiennes débloquer le logiciel d’import des données après la découverte d’une erreur non documentée. J’ai pu valider les essais cet après-midi.

Cela n’impacte que peu ma deadline car j’en ai profité pour prendre de l’avance sur la mise en forme des données pour l’import en attente de pouvoir les verser. Dès la semaine prochain l’import rapide vas être lancé avec plusieurs milliers de pages par jour. L’import des données associées aux communes est en attente d’une validation de la structure par la communauté et envoyé dès que c’est bon.

L’ajout d’une propriété a nécessité une relecture de la part d’un admin, car iels ont cru à un doublon avec WhatTheyKnow… (oui XD) Bref, j’essaie de pousser au maximum sa mise en place. Je refais une demande dès que possible.

Voilà, je serai absent lundi pour cause de déplacement. Je vais essayer de faire des versement dans le train.

Passez un bon weekend ! :slight_smile:

@LucasL j’attire ton attention sur la réponse de @pascalr juste au-dessus de ton dernier message, qui devrait t’aider pour le versement des communes/mairies.

Bonsoir à toutes et tous,

Le versement avance bien, nous sommes à plusieurs milliers d’informations versées par jours sachant que des gros lots plus complets arrivent.

Vous pouvez trouver ici la demande d’identifiant pour Ma Dada : https://www.wikidata.org/wiki/Wikidata:Property_proposal/Authority_control#Identifiant_Ma_Dada

J’ai fait un test pour lister des résultats, voici donc la liste des brigades de gendarmeries qui ont été enrichies : https://w.wiki/5mHv. Je m’occuperai de vous fournir d’autres listes la semaine prochaine. :slight_smile:

Bon weekend ! :smiley: