IA, éthique, et licences libres

Je publiais il y a quelques mois un billet de réflexion sur le recours à des limitations d'usage dans les licences libres. Ça n'a évidemment pas plu à tout le monde dans la communauté libriste, et beaucoup d'arguments (plus ou moins pertinents, et généralement assez classiques) contre ce que j'y défends m'ont été opposés. Pour alimenter la discussion, je voudrais présenter ici un cas précis de limitation d'usage, très actuel, mais que je n'ai pas encore vu discuté ailleurs.

IA et jeux de données. Ces dernières mois ont vu l'apparition en grandes pompes de plusieurs systèmes d'intelligence artificielle (IA) permettant la génération automatisée de contenu, aux premiers rangs desquels DALL·E (pour les images) et ChatGPT (pour le texte). Ces outils sont le fruit d'algorithmes d'apprentissage machine. La qualité de leur production dépend donc très directement de la qualité et de la quantité des contenus présents dans leurs jeux de données d'entraînement.

Éthique et jeux de données. Parmi les nombreuses questions éthiques posées par ces technologies[1], la composition de ces jeux de données fait partie des plus importantes. D'abord parce que les jeux de données utilisés pour leurs entraînements vont forcément biaiser les contenus générés avec leurs propres biais[2]. Mais aussi, de manière peut-être plus évidente, pour des questions de respect du droit d'auteur. Beaucoup de contenus ont été aspirés sans autorisation préalable, et cela permet parfois à ces outils de générer du contenu “à la manière de” certain·es artistes, qui n'apprécient pas forcément l'idée pour différentes raisons, matérielles comme spirituelles.

La question du droit d'auteur est censée être résolue si le contenu aspiré pour constituer un jeu de données est sous licence libre, puisqu'en l'état, celles-ci ne sont pas censées poser de limite sur les types de réutilisations. C'est donc que leurs auteur·ices ont donné d'avance l'autorisation d'utiliser leurs productions, y compris dans des jeux de données destinés à l'apprentissage machine. Par exemple, en contribuant à Wikipédia (dont le contenu est sous licence Creative Commons BY-SA) ou même en postant du code sous licence libre sur GitHub, on travaille de fait entre autre pour les entreprises qui développent des IA conversationnelles ou d'autocomplétion de code ; en proposant des photos et illustrations sous licence libre dans Wikimedia Commons, on travaille aussi de fait pour les entreprises qui développent des IA de reconnaissance et de génération d'images ; etc.

Certaines licences libres imposent des conditions sur d'autres choses que l'usage, comme la redistribution. C'est par exemple le cas de la licence de Wikipédia citée plus haut, qui imposerait le partage sous la même licence libre d'un jeu de données utilisant du contenu issu de Wikipédia… À condition qu'il soit publié (la restriction ne concerne que la redistribution) ! Et cette publication n'est bien sûr en rien une obligation (sauf à imaginer une licence encore plus contaminante que l'Affero GPL[3]). Quand bien même cette publication a lieu, quel est l'intérêt réel du copyleft si le jeu de données ainsi créé et partagé sous licence libre n'est de toutes façons pas exploitable sans disposer de ressources gargantuesques en terme de stockage et de puissance de calculs ? Si ce n'est plus qu'une histoire de principes, les effets vertueux de la contamination par une licence libre copyleft sont purement virtuels. Bref, il semble difficile d'imaginer des restrictions pertinentes ou efficaces sur la redistribution seule dans le cas des jeux de données utilisés pour l'apprentissage machine.

Éthique et IA. Au-delà des questions relatives à la composition des jeux de données d'entraînement, l'usage voire l'existence de certains systèmes utilisant des IA à base d'apprentissage machine posent des questions éthiques. Il y a typiquement de nombreuses raisons politiques et philosophiques de rejeter les systèmes de reconnaissance faciale et plus généralement tout ce qui peut servir à l'automatisation de la surveillance de masse[4]. Le problème ici n'est pas la licence, même entièrement libre ces systèmes ne sont pas désirables. Certes, la véritable solution est de se battre contre l'existence de ces systèmes, notamment sur les terrains politiques et juridiques, mais il serait parfaitement aberrant — pour ne pas dire absolument hors sol — de nier leur existence dans notre monde actuel. Tant que ces systèmes existent, on les aide potentiellement à s'améliorer en leur fournissant du contenu pour leurs jeux de données d'entraînement. Et on le fait volontairement, ou en tout cas de son plein gré, quand on met du contenu sous licence libre… du moins tant qu'on refuse de qualifier de libre une licence qui interdirait ces usages.

Pour refuser de participer, du moins de son plein gré, à la production de technologies basées sur l'apprentissage machine qu'on jugerait problématiques, est-on condamné·es à abandonner les licences libres et donc les valeurs politiques et philosophiques qu'elles portent ? Si on refuse catégoriquement les limitations d'usage, oui.

Comme dans mon précédent billet sur le sujet, il ne s'agit bien sûr pas de dire qu'il faudrait mettre des limitations d'usage dans toutes les licences libres, ni d'ailleurs de dire qu'aucun système à base d'IA ne peut être éthique ou qu'il n'est jamais important de disposer des meilleurs jeux de données possibles sous des licences permettant leur utilisation, par exemple par des chercheur·es. Mon but est simplement de montrer à nouveau la cohérence de certaines limitations d'usage avec les idéaux du libre, et donc l'absurdité de les refuser par principe. Disqualifier directement toutes tentatives de limitation d'usage comme étant non-libre est à mon avis contre-productif pour le libre.

Drawing of confused robot holding a CC-BY-NC-SA licensed document, based on an image created using the craiyon.com AI ;)

Pour finir, un petit point technique : au delà de ces questions de licence, je pense sincèrement qu'il serait bénéfique de convenir d'un identifiant spécifique dans les User-Agent des robots aspirateurs de jeux de données d'entraînement pour apprentissage machine de sorte à pouvoir les identifier dans les fichiers robots.txt.

Notes

  1. ^ Voir les sections dédiées à ces questionnements éthiques des pages Wikipédia ne serait-ce que de DALL·E et de ChatGPT puisque ce sont les deux exemples phares.
  2. ^ Ma collègue Alice Millour me faisait récemment part d'un exemple frappant : Google Translate traduit systématiquement “a nurse” par “une infirmière” et “a surgeon” par “un chirurgien” alors que l'information du genre n'existe pas dans la version anglaise, parce que son jeu de données d'entraînement est affecté par une vision genrée de ces métiers. Et ce biais est tellement fort sur certains exemples que même quand l'information de genre existe dans la phrase, la traduction automatique se trompe : “the feminist shaved his beard” est traduit par “la féministe s'est rasé la barbe” !
  3. ^ Il faudrait que cette licence, appliquée à des données X, contamine du code logiciel utilisant (ou produit à partir de) X avec une licence impliquant que l'utilisation y compris à distance de ce logiciel soit considérée comme un partage de X… C'est très tordu. Et en allant plus loin on pourrait vouloir que le contenu produit par une IA utilisant des données et/ou du code libres soit également contaminé, mais je ne crois pas que de telles licences existent non plus (et cela reviendrait à une limitation sur l'usage : ne permettre que la production de contenu libre).
  4. ^ Voir par exemple les arguments de La Quadrature du Net pour faire interdire la vidéosurveillance automatisée et plus généralement la campagne Technopolice.