Bug pdf en html

Je ping @LaurentS , tu as vu ce qui se passe ici avec la demande d’ [O. T.] ? Connexion - Ma Dada Un pdf deviens html toussa, [l’auteur] a redemandé mille fois le renvoi, la personne en face trop gentille l’a fait et à un moment ça allait (peut être qu’il lui a envoyé en privé du coup). J’ai pas encore creusé le pourquoi comment mais de mémoire c’était déjà arrivé, et c’était MaDada qui déconnait …

je le mets ici en ToDo car je risque d’oublier et j’avais déjà oublié de le signaler il y a deux semaines (j’ai trop de choses en cours en même temps).

Vu, en tout cas je crois, la demande que tu as mentionnée dans ton post n’est pas la bonne, mais le bug que tu décris semble se produire au moins sur https://madada.fr/demande/attribution_dun_marche_public_po (admin: https://madada.fr/admin/requests/1155)

Je vois 2 problèmes:

  • notre regex pour les numéros de tel est trop gourmande (le PDF affiché par alaveteli est plein de « numéro caché »)
  • c’est un pdf qu’alaveteli considère comme un HTML. Le mail brut contient bien la PJ en PDF, je viens de la voir: admin > Incoming messages > ouvrir celui qui va bien > Download pour avoir un eml qui semble valide à un détail près: Le lien sur la page publique présente le document comme un HTML parce que le mail envoyé contient les lignes suivantes:
-------------060005060401010509060003
Content-Type: text/html;      <----- CA, C'EST LE PROBLEME
 name="RAO Drones lot 1-occ.pdf"
Content-Transfer-Encoding: base64
Content-Disposition: attachment;
 filename="RAO Drones lot 1-occ.pdf"

Et de mémoire, la précédente occurence du bug était sur une demande au ministère de l’intérieur aussi. Je pense que leurs logiciels ont un bug quelque part dans la chaine (s’ils ont un programme de bug bounty, je leur envoie :wink: ) donc ça va être compliqué à corriger.

Solutions possibles:

  • modifier le mail entrant à la main pour remplacer text/html par application/pdf
  • bricoler un bout de code pour faire la même chose, par exemple en inspectant les PJ avec un outil style file d’unix.
  • contacter les geeks du ministère pour leur faire part du bug

Ce qui est sûr, c’est que ça va se produire à chaque mail de ce ministère.

Je viens de poser la question sur la ML alaveteli https://groups.google.com/g/alaveteli-dev/c/Oj0VM7vmxH4 des fois qu’ils aient des idées.

La réponse sur la liste Alaveteli est qu’ils connaissent le pb, que cela n’arrive pas souvent, et qu’en gros il y a pas de solution globale et que chez whatdotheyknow ils procédent à postériori et comme suit :

When edge-cases like this happen, we tend to extract the attachment from the raw email, upload it somewhere (we have files.whatdotheyknow.com), and then post an annotation linking to the attachment [2].

[2] https://www.whatdotheyknow.com/request/commentsobjections_to_applicatio#comment-94109

Donc cela reviens pour nous à mettre en place le système d’upload de fichiers dont on a déjà parlé dans d’autres cas, et notamment