Présentation de la Licence informatique de Paris 8

Interview en vidéo, par Thotis, de ma collègue Alice Millour et moi-même pour présenter la Licence informatique & vidéoludisme de l'Université Paris 8 :

La Licence informatique (Université Paris 8) - Alice Millour et Pablo Rauzy, maîtresse et maître de conférence en informatique à l'Université Paris 8 Saint-Denis, ont présenté la licence informatique.

Nouvelle version du thème PavillonRougeNoir

Après avoir créé le site pablockchain.fr, je trouvais par contraste le thème de ce blog beaucoup trop lourd. J’ai donc pris le temps de créer une nouvelle version de mon thème “PavillonRougeNoir”, en simplifiant encore un peu la structure des pages du blog, en aérant la mise en page, et en allégeant visuellement le rendu.

PavillonRougeNoir v1 et v2
Les versions 1 et 2 du thème PavillonRougeNoir côte à côte.

Comme la précédente version du thème, la nouvelle version est capable de s’adapter à toute taille d’écran. La nouvelle version supporte également un mode sombre, qui s’activera automatiquement si votre système ou navigateur est réglé avec cette préférence.

Le copyleft à travers l'IA ?

Lors d'une discussion avec mon ami Marc Jeanmougin juste après la publication de mon dernier billet “IA, éthique, et licences libres”, il m'a fait part de sa vision des choses concernant la 3ème note de bas de page du billet. Les réflexions qui s'en sont suivies m'ont parues intéressantes à partager.

D'après Marc, le modèle d'une IA entraînée sur un jeu de données est une œuvre dérivée de ce jeu de données. Je ne suis pas sûr que ce soit juridiquement le cas, mais je suis d'accord que d'un point de vue technique comme philosophique ça se défend bien. Si on admet que c'est le cas, et que le jeu de données est sous une licence libre copyleft, alors le modèle pré-entraîné, si il est publié, devra être sous cette licence également (en admettant que le jeu de données est sous une licence unique, ce qui ne correspond pas tellement à la réalité de ce qui se passe ; en pratique, c'est juste le óai…).

Le même raisonnement s'applique entre le modèle pré-entraîné et les résultats de sortie du modèle, qui devraient donc également hériter de la licence libre copyleft du jeu de donnée d'origine (pour les plus pointilleux·ses, admettons que la licence soit contaminante en plus d'être copyleft, et que donc elle contamine aussi l'éventuel prompt utilisé pour obtenir le résultat — la question posée à ChatGPT, la description donnée à DALL·E, etc. —, qui est alors bien à 100% une œuvre dérivée de données sous la licence libre copyleft).

Maintenant, que ce passe-t-il si le modèle pré-entraîné n'est pas publié ? Comme le copyleft ne s'active que pour la redistribution, le modèle pré-entrainé n'est pas sous licence libre copyleft dans ce cas. Qu'arrive-t-il alors aux résultat de sorties si ceux-ci sont, pour le coup, publiés ?

Est-ce que la clause de copyleft s'active transitivement, “à travers” le modèle pré-entraîné ? Si ce n'est pas le cas, il faudrait peut-être réfléchir à comment faire en sorte que ce soit le cas dans les prochaines versions des licences libres copyleft (typiquement des licences Creative Commons avec la clause “Share Alike”).

Une autre question que ça pose, c'est de savoir si l'interaction à distance avec un modèle (via par exemple une interface web comme dans le cas de ChatGPT ou DALL·E) compte comme une redistribution de celui-ci (quelque soit la licence utilisée pour le code de l'application qui permet cette interaction) ? Si ce n'est pas le cas, il faudrait réfléchir à la possibilité d'imposer que ce le soit, dans l'esprit de ce que fait l'Affero GPL pour les logiciels utilisés à distance, mais cette fois-ci pour des données.

IA, éthique, et licences libres

Je publiais il y a quelques mois un billet de réflexion sur le recours à des limitations d'usage dans les licences libres. Ça n'a évidemment pas plu à tout le monde dans la communauté libriste, et beaucoup d'arguments (plus ou moins pertinents, et généralement assez classiques) contre ce que j'y défends m'ont été opposés. Pour alimenter la discussion, je voudrais présenter ici un cas précis de limitation d'usage, très actuel, mais que je n'ai pas encore vu discuté ailleurs.

IA et jeux de données. Ces dernières mois ont vu l'apparition en grandes pompes de plusieurs systèmes d'intelligence artificielle (IA) permettant la génération automatisée de contenu, aux premiers rangs desquels DALL·E (pour les images) et ChatGPT (pour le texte). Ces outils sont le fruit d'algorithmes d'apprentissage machine. La qualité de leur production dépend donc très directement de la qualité et de la quantité des contenus présents dans leurs jeux de données d'entraînement.

Éthique et jeux de données. Parmi les nombreuses questions éthiques posées par ces technologies[1], la composition de ces jeux de données fait partie des plus importantes. D'abord parce que les jeux de données utilisés pour leurs entraînements vont forcément biaiser les contenus générés avec leurs propres biais[2]. Mais aussi, de manière peut-être plus évidente, pour des questions de respect du droit d'auteur. Beaucoup de contenus ont été aspirés sans autorisation préalable, et cela permet parfois à ces outils de générer du contenu “à la manière de” certain·es artistes, qui n'apprécient pas forcément l'idée pour différentes raisons, matérielles comme spirituelles.

La question du droit d'auteur est censée être résolue si le contenu aspiré pour constituer un jeu de données est sous licence libre, puisqu'en l'état, celles-ci ne sont pas censées poser de limite sur les types de réutilisations. C'est donc que leurs auteur·ices ont donné d'avance l'autorisation d'utiliser leurs productions, y compris dans des jeux de données destinés à l'apprentissage machine. Par exemple, en contribuant à Wikipédia (dont le contenu est sous licence Creative Commons BY-SA) ou même en postant du code sous licence libre sur GitHub, on travaille de fait entre autre pour les entreprises qui développent des IA conversationnelles ou d'autocomplétion de code ; en proposant des photos et illustrations sous licence libre dans Wikimedia Commons, on travaille aussi de fait pour les entreprises qui développent des IA de reconnaissance et de génération d'images ; etc.

Certaines licences libres imposent des conditions sur d'autres choses que l'usage, comme la redistribution. C'est par exemple le cas de la licence de Wikipédia citée plus haut, qui imposerait le partage sous la même licence libre d'un jeu de données utilisant du contenu issu de Wikipédia… À condition qu'il soit publié (la restriction ne concerne que la redistribution) ! Et cette publication n'est bien sûr en rien une obligation (sauf à imaginer une licence encore plus contaminante que l'Affero GPL[3]). Quand bien même cette publication a lieu, quel est l'intérêt réel du copyleft si le jeu de données ainsi créé et partagé sous licence libre n'est de toutes façons pas exploitable sans disposer de ressources gargantuesques en terme de stockage et de puissance de calculs ? Si ce n'est plus qu'une histoire de principes, les effets vertueux de la contamination par une licence libre copyleft sont purement virtuels. Bref, il semble difficile d'imaginer des restrictions pertinentes ou efficaces sur la redistribution seule dans le cas des jeux de données utilisés pour l'apprentissage machine.

Éthique et IA. Au-delà des questions relatives à la composition des jeux de données d'entraînement, l'usage voire l'existence de certains systèmes utilisant des IA à base d'apprentissage machine posent des questions éthiques. Il y a typiquement de nombreuses raisons politiques et philosophiques de rejeter les systèmes de reconnaissance faciale et plus généralement tout ce qui peut servir à l'automatisation de la surveillance de masse[4]. Le problème ici n'est pas la licence, même entièrement libre ces systèmes ne sont pas désirables. Certes, la véritable solution est de se battre contre l'existence de ces systèmes, notamment sur les terrains politiques et juridiques, mais il serait parfaitement aberrant — pour ne pas dire absolument hors sol — de nier leur existence dans notre monde actuel. Tant que ces systèmes existent, on les aide potentiellement à s'améliorer en leur fournissant du contenu pour leurs jeux de données d'entraînement. Et on le fait volontairement, ou en tout cas de son plein gré, quand on met du contenu sous licence libre… du moins tant qu'on refuse de qualifier de libre une licence qui interdirait ces usages.

Pour refuser de participer, du moins de son plein gré, à la production de technologies basées sur l'apprentissage machine qu'on jugerait problématiques, est-on condamné·es à abandonner les licences libres et donc les valeurs politiques et philosophiques qu'elles portent ? Si on refuse catégoriquement les limitations d'usage, oui.

Comme dans mon précédent billet sur le sujet, il ne s'agit bien sûr pas de dire qu'il faudrait mettre des limitations d'usage dans toutes les licences libres, ni d'ailleurs de dire qu'aucun système à base d'IA ne peut être éthique ou qu'il n'est jamais important de disposer des meilleurs jeux de données possibles sous des licences permettant leur utilisation, par exemple par des chercheur·es. Mon but est simplement de montrer à nouveau la cohérence de certaines limitations d'usage avec les idéaux du libre, et donc l'absurdité de les refuser par principe. Disqualifier directement toutes tentatives de limitation d'usage comme étant non-libre est à mon avis contre-productif pour le libre.

Drawing of confused robot holding a CC-BY-NC-SA licensed document, based on an image created using the craiyon.com AI ;)

Pour finir, un petit point technique : au delà de ces questions de licence, je pense sincèrement qu'il serait bénéfique de convenir d'un identifiant spécifique dans les User-Agent des robots aspirateurs de jeux de données d'entraînement pour apprentissage machine de sorte à pouvoir les identifier dans les fichiers robots.txt.

Notes

  1. ^ Voir les sections dédiées à ces questionnements éthiques des pages Wikipédia ne serait-ce que de DALL·E et de ChatGPT puisque ce sont les deux exemples phares.
  2. ^ Ma collègue Alice Millour me faisait récemment part d'un exemple frappant : Google Translate traduit systématiquement “a nurse” par “une infirmière” et “a surgeon” par “un chirurgien” alors que l'information du genre n'existe pas dans la version anglaise, parce que son jeu de données d'entraînement est affecté par une vision genrée de ces métiers. Et ce biais est tellement fort sur certains exemples que même quand l'information de genre existe dans la phrase, la traduction automatique se trompe : “the feminist shaved his beard” est traduit par “la féministe s'est rasé la barbe” !
  3. ^ Il faudrait que cette licence, appliquée à des données X, contamine du code logiciel utilisant (ou produit à partir de) X avec une licence impliquant que l'utilisation y compris à distance de ce logiciel soit considérée comme un partage de X… C'est très tordu. Et en allant plus loin on pourrait vouloir que le contenu produit par une IA utilisant des données et/ou du code libres soit également contaminé, mais je ne crois pas que de telles licences existent non plus (et cela reviendrait à une limitation sur l'usage : ne permettre que la production de contenu libre).
  4. ^ Voir par exemple les arguments de La Quadrature du Net pour faire interdire la vidéosurveillance automatisée et plus généralement la campagne Technopolice.

Comparaison tout à fait partiale entre Twitter et Mastodon

Le week-end dernier, j'ai rédigé deux billets pour ce blog. L'un sur un paradoxe dans la pensée libriste, et l'autre sur Mastodon. Le premier a été publié quasiment dans la foulée, l'autre a finalement été transformé en proposition de communiqué pour la commission librisme de mon organisation politique, l'UCL. Cela a d'ailleurs permis au texte de bénéficier d'une relecture collective et attentive, et donc de quelques améliorations.

Si vous lisez ce blog, je vous suggère fortement la lecture de ce communiqué directement sur le site de l'UCL, puisqu'un billet quasi identique aurait pu être publié ici même :

Comparaison tout à fait partiale entre Twitter et Mastodon

| page 3 de 8 |