Nouvelle version du thème PavillonRougeNoir

Après avoir créé le site pablockchain.fr, je trouvais par contraste le thème de ce blog beaucoup trop lourd. J’ai donc pris le temps de créer une nouvelle version de mon thème “PavillonRougeNoir”, en simplifiant encore un peu la structure des pages du blog, en aérant la mise en page, et en allégeant visuellement le rendu.

PavillonRougeNoir v1 et v2
Les versions 1 et 2 du thème PavillonRougeNoir côte à côte.

Comme la précédente version du thème, la nouvelle version est capable de s’adapter à toute taille d’écran. La nouvelle version supporte également un mode sombre, qui s’activera automatiquement si votre système ou navigateur est réglé avec cette préférence.

Le copyleft à travers l'IA ?

Lors d'une discussion avec mon ami Marc Jeanmougin juste après la publication de mon dernier billet “IA, éthique, et licences libres”, il m'a fait part de sa vision des choses concernant la 3ème note de bas de page du billet. Les réflexions qui s'en sont suivies m'ont parues intéressantes à partager.

D'après Marc, le modèle d'une IA entraînée sur un jeu de données est une œuvre dérivée de ce jeu de données. Je ne suis pas sûr que ce soit juridiquement le cas, mais je suis d'accord que d'un point de vue technique comme philosophique ça se défend bien. Si on admet que c'est le cas, et que le jeu de données est sous une licence libre copyleft, alors le modèle pré-entraîné, si il est publié, devra être sous cette licence également (en admettant que le jeu de données est sous une licence unique, ce qui ne correspond pas tellement à la réalité de ce qui se passe ; en pratique, c'est juste le óai…).

Le même raisonnement s'applique entre le modèle pré-entraîné et les résultats de sortie du modèle, qui devraient donc également hériter de la licence libre copyleft du jeu de donnée d'origine (pour les plus pointilleux·ses, admettons que la licence soit contaminante en plus d'être copyleft, et que donc elle contamine aussi l'éventuel prompt utilisé pour obtenir le résultat — la question posée à ChatGPT, la description donnée à DALL·E, etc. —, qui est alors bien à 100% une œuvre dérivée de données sous la licence libre copyleft).

Maintenant, que ce passe-t-il si le modèle pré-entraîné n'est pas publié ? Comme le copyleft ne s'active que pour la redistribution, le modèle pré-entrainé n'est pas sous licence libre copyleft dans ce cas. Qu'arrive-t-il alors aux résultat de sorties si ceux-ci sont, pour le coup, publiés ?

Est-ce que la clause de copyleft s'active transitivement, “à travers” le modèle pré-entraîné ? Si ce n'est pas le cas, il faudrait peut-être réfléchir à comment faire en sorte que ce soit le cas dans les prochaines versions des licences libres copyleft (typiquement des licences Creative Commons avec la clause “Share Alike”).

Une autre question que ça pose, c'est de savoir si l'interaction à distance avec un modèle (via par exemple une interface web comme dans le cas de ChatGPT ou DALL·E) compte comme une redistribution de celui-ci (quelque soit la licence utilisée pour le code de l'application qui permet cette interaction) ? Si ce n'est pas le cas, il faudrait réfléchir à la possibilité d'imposer que ce le soit, dans l'esprit de ce que fait l'Affero GPL pour les logiciels utilisés à distance, mais cette fois-ci pour des données.

IA, éthique, et licences libres

Je publiais il y a quelques mois un billet de réflexion sur le recours à des limitations d’usage dans les licences libres. Ça n’a évidemment pas plu à tout le monde dans la communauté libriste, et beaucoup d’arguments (plus ou moins pertinents, et généralement assez classiques) contre ce que j’y défends m’ont été opposés. Pour alimenter la discussion, je voudrais présenter ici un cas précis de limitation d’usage, très actuel, mais que je n’ai pas encore vu discuté ailleurs.

IA et jeux de données. Ces dernières mois ont vu l’apparition en grandes pompes de plusieurs systèmes d’intelligence artificielle (IA) permettant la génération automatisée de contenu, aux premiers rangs desquels DALL·E (pour les images) et ChatGPT (pour le texte). Ces outils sont le fruit d’algorithmes d’apprentissage machine. La qualité de leur production dépend donc très directement de la qualité et de la quantité des contenus présents dans leurs jeux de données d’entraînement.

Éthique et jeux de données. Parmi les nombreuses questions éthiques posées par ces technologies[1], la composition de ces jeux de données fait partie des plus importantes. D’abord parce que les jeux de données utilisés pour leurs entraînements vont forcément biaiser les contenus générés avec leurs propres biais[2]. Mais aussi, de manière peut-être plus évidente, pour des questions de respect du droit d’auteur. Beaucoup de contenus ont été aspirés sans autorisation préalable, et cela permet parfois à ces outils de générer du contenu “à la manière de” certain·es artistes, qui n’apprécient pas forcément l’idée pour différentes raisons, matérielles comme spirituelles.

La question du droit d’auteur est censée être résolue si le contenu aspiré pour constituer un jeu de données est sous licence libre, puisqu’en l’état, celles-ci ne sont pas censées poser de limite sur les types de réutilisations. C’est donc que leurs auteur·ices ont donné d’avance l’autorisation d’utiliser leurs productions, y compris dans des jeux de données destinés à l’apprentissage machine. Par exemple, en contribuant à Wikipédia (dont le contenu est sous licence Creative Commons BY-SA) ou même en postant du code sous licence libre sur GitHub, on travaille de fait entre autre pour les entreprises qui développent des IA conversationnelles ou d’autocomplétion de code ; en proposant des photos et illustrations sous licence libre dans Wikimedia Commons, on travaille aussi de fait pour les entreprises qui développent des IA de reconnaissance et de génération d’images ; etc.

Certaines licences libres imposent des conditions sur d’autres choses que l’usage, comme la redistribution. C’est par exemple le cas de la licence de Wikipédia citée plus haut, qui imposerait le partage sous la même licence libre d’un jeu de données utilisant du contenu issu de Wikipédia… À condition qu’il soit publié (la restriction ne concerne que la redistribution) ! Et cette publication n’est bien sûr en rien une obligation (sauf à imaginer une licence encore plus contaminante que l’Affero GPL[3]). Quand bien même cette publication a lieu, quel est l’intérêt réel du copyleft si le jeu de données ainsi créé et partagé sous licence libre n’est de toutes façons pas exploitable sans disposer de ressources gargantuesques en terme de stockage et de puissance de calculs ? Si ce n’est plus qu’une histoire de principes, les effets vertueux de la contamination par une licence libre copyleft sont purement virtuels. Bref, il semble difficile d’imaginer des restrictions pertinentes ou efficaces sur la redistribution seule dans le cas des jeux de données utilisés pour l’apprentissage machine.

Éthique et IA. Au-delà des questions relatives à la composition des jeux de données d’entraînement, l’usage voire l’existence de certains systèmes utilisant des IA à base d’apprentissage machine posent des questions éthiques. Il y a typiquement de nombreuses raisons politiques et philosophiques de rejeter les systèmes de reconnaissance faciale et plus généralement tout ce qui peut servir à l’automatisation de la surveillance de masse[4]. Le problème ici n’est pas la licence, même entièrement libre ces systèmes ne sont pas désirables. Certes, la véritable solution est de se battre contre l’existence de ces systèmes, notamment sur les terrains politiques et juridiques, mais il serait parfaitement aberrant — pour ne pas dire absolument hors sol — de nier leur existence dans notre monde actuel. Tant que ces systèmes existent, on les aide potentiellement à s’améliorer en leur fournissant du contenu pour leurs jeux de données d’entraînement. Et on le fait volontairement, ou en tout cas de son plein gré, quand on met du contenu sous licence libre… du moins tant qu’on refuse de qualifier de libre une licence qui interdirait ces usages.

Pour refuser de participer, du moins de son plein gré, à la production de technologies basées sur l’apprentissage machine qu’on jugerait problématiques, est-on condamné·es à abandonner les licences libres et donc les valeurs politiques et philosophiques qu’elles portent ? Si on refuse catégoriquement les limitations d’usage, oui.

Comme dans mon précédent billet sur le sujet, il ne s’agit bien sûr pas de dire qu’il faudrait mettre des limitations d’usage dans toutes les licences libres, ni d’ailleurs de dire qu’aucun système à base d’IA ne peut être éthique ou qu’il n’est jamais important de disposer des meilleurs jeux de données possibles sous des licences permettant leur utilisation, par exemple par des chercheur·es. Mon but est simplement de montrer à nouveau la cohérence de certaines limitations d’usage avec les idéaux du libre, et donc l’absurdité de les refuser par principe. Disqualifier directement toutes tentatives de limitation d’usage comme étant non-libre est à mon avis contre-productif pour le libre.

Drawing of confused robot holding a CC-BY-NC-SA licensed document, based on an image created using the craiyon.com AI ;)

Pour finir, un petit point technique : au delà de ces questions de licence, je pense sincèrement qu’il serait bénéfique de convenir d’un identifiant spécifique dans les User-Agent des robots aspirateurs de jeux de données d’entraînement pour apprentissage machine de sorte à pouvoir les identifier dans les fichiers robots.txt.

Notes

  1. ^ Voir les sections dédiées à ces questionnements éthiques des pages Wikipédia ne serait-ce que de DALL·E et de ChatGPT puisque ce sont les deux exemples phares.
  2. ^ Ma collègue Alice Millour me faisait récemment part d’un exemple frappant : Google Translate traduit systématiquement “a nurse” par “une infirmière” et “a surgeon” par “un chirurgien” alors que l’information du genre n’existe pas dans la version anglaise, parce que son jeu de données d’entraînement est affecté par une vision genrée de ces métiers. Et ce biais est tellement fort sur certains exemples que même quand l’information de genre existe dans la phrase, la traduction automatique se trompe : “the feminist shaved his beard” est traduit par “la féministe s’est rasé la barbe” !
  3. ^ Il faudrait que cette licence, appliquée à des données X, contamine du code logiciel utilisant (ou produit à partir de) X avec une licence impliquant que l’utilisation y compris à distance de ce logiciel soit considérée comme un partage de X… C’est très tordu. Et en allant plus loin on pourrait vouloir que le contenu produit par une IA utilisant des données et/ou du code libres soit également contaminé, mais je ne crois pas que de telles licences existent non plus (et cela reviendrait à une limitation sur l’usage : ne permettre que la production de contenu libre).
  4. ^ Voir par exemple les arguments de La Quadrature du Net pour faire interdire la vidéosurveillance automatisée et plus généralement la campagne Technopolice.

Comparaison tout à fait partiale entre Twitter et Mastodon

Le week-end dernier, j’ai rédigé deux billets pour ce blog. L’un sur un paradoxe dans la pensée libriste, et l’autre sur Mastodon. Le premier a été publié quasiment dans la foulée, l’autre a finalement été transformé en proposition de communiqué pour la commission librisme de mon organisation politique, l’UCL. Cela a d’ailleurs permis au texte de bénéficier d’une relecture collective et attentive, et donc de quelques améliorations.

Si vous lisez ce blog, je vous suggère fortement la lecture de ce communiqué directement sur le site de l’UCL, puisqu’un billet quasi identique aurait pu être publié ici même :

Comparaison tout à fait partiale entre Twitter et Mastodon

Paradoxe libriste et logiciel émancipateur

Quand on choisi de parler de logiciel libre plutôt que d’open source, c’est avant tout pour insister sur les aspects politiques et philosophiques, plutôt que sur le modèle de développement. C’est une façon de signifier que ce qui importe, ce n’est pas le logiciel, mais l’humain. La philosophie du projet GNU commence d’ailleurs par placer l’humain au centre : “Logiciel libre” signifie que les utilisateurs du logiciel possèdent la liberté. C’est le (code source du) logiciel qui est ouvert, mais c’est bien l’humain qui est libre.

Libre, si on s’en tient à la définition donnée par le projet GNU, d’exécuter le programme, d’étudier et modifier le programme sous forme de code source, d’en redistribuer des copies exactes, et d’en redistribuer des versions modifiées.

Comme toutes les libertés, si l’on suit l’adage suivant lequel la liberté de chacun s’arrête là où commence celle des autres, celles-ci nécessitent d’être encadrées si on fait le choix de dire que la liberté collective prend le pas sur la liberté individuelle. Le choix de prioriser le collectif consiste à faire le compromis de réduire — évidemment, le moins possible — les libertés individuelles de sorte à pouvoir garantir les mêmes libertés à chacun·e. C’est généralement ce qu’on a en tête quand on dit que la liberté sans l’égalité n’a pas de sens, et vice-versa[1].

Dans certains cas, comme dans celui de la liberté d’expression par exemple, faire ce compromis est une nécessité pragmatique, typiquement à cause du paradoxe de la tolérance.

Dans le monde du logiciel libre, faire le choix pragmatique de prioriser le collectif se traduit par exemple par le copyleft, qui consiste à ajouter des contraintes aux libertés offertes par la licence du logiciel afin de garantir et propager la liberté et la coopération, en l’occurrence, en conditionnant le droit de redistribution de versions modifiées au devoir de le faire selon les mêmes modalités (et donc en propageant cette contrainte).

Évidemment, au sein du monde du logiciel libre, tout le monde n’est pas d’accord avec ce compromis. Certain·es préfèrent les licences les plus permissives, tandis que d’autres (c’est mon cas) préfèrent les licences copyleft, plus restrictives mais pourtant considérées comme plus libres. On oppose ici une vision plutôt individualiste d’un côté et plutôt collective de l’autre. Politiquement, on pourrait parler d’une tendance plutôt libertarienne dans le premier cas, et d’une tendance plutôt libertaire dans le second.

Ce qui m’étonne, c’est la limite arbitraire à laquelle s’arrête ce raisonnement. Dans le milieu libriste, y compris parfois très à gauche, il semble que la possibilité de compromis s’arrête souvent brutalement sur la liberté d’utilisation du logiciel, sur laquelle il serait inadmissible de vouloir poser des conditions, comme le fait pourtant le copyleft sur la liberté de partage.

Par exemple, l’orthodoxie libriste va immédiatement dénoncer comme étant non libre une licence qui tente d’interdire (ou plus exactement, qui ne donne pas a priori l’autorisation pour) un usage commercial, ou d’autres qui vont même plus loin.

Pourtant, certaines licences posent des limites additionnelles dans l’utilisation de leurs logiciels pour éviter que ceux-ci ne deviennent des outils d’oppression ou d’exploitation. L’exemple typique est CoopCycle, un logiciel qui permet de mettre en place une plateforme de livraison à vélo. Les développeur·es de ce logiciel ne veulent pas qu’il puisse servir à l’exploitation de travailleur·es, et ont donc inventé le coopyleft qui impose pour avoir le droit d’utiliser le logiciel de s’organiser selon un modèle d’entreprise coopérative de l’économie sociale et solidaire, où les livreurs et livreuses non seulement sont salarié·es, mais aussi et surtout participent de façon majoritaire aux prises de décision de l’entreprise. Cela a pour objectif d’éviter que quelqu’un se serve du logiciel pour monter une plateforme de livraison similaire aux plus connues d’entre elles, qui payent à la tâche, imposent l’auto-entreprenariat, contournent et bafouent le droit du travail, etc.

Très majoritairement dans mon expérience, les milieux libristes refusent catégoriquement d’appeler CoopCycle un logiciel libre. Mais ce refus relève selon moi d’une incohérence philosophique.

D’un côté, on souhaite démarquer le libre de l’open source en expliquant que le libre insiste sur la philosophie et le politique, sur la liberté des personnes, tandis que l’open source insiste sur le modèle de développement. Puis, pour cette exacte raison, le libre accepte et défend le copyleft, c’est-à-dire un compromis nécessaire entre égalité et liberté pour mieux garantir et propager la liberté. Liberté, qui, en toute logique, devrait donc toujours être celle des personnes.

De l’autre, quand il s’agit de refuser l’exploitation, ce qui correspond aussi très exactement à une protection de la liberté des personnes par une garantie d’égalité entre elles, tout d’un coup, un compromis n’est plus entendable. Le coopyleft ne serait pas libre.

La seule façon de mettre en cohérence l’acceptation d’un compromis sur le partage et le refus d’un compromis sur l’usage serait de revenir sur notre hypothèse de départ, celle qui distinguerait le libre de l’open source : si on admet que ce qui importe ce n’est pas la liberté des personnes mais le modèle de développement, le copyleft peut encore se défendre (puisqu’il impose de propager les améliorations du logiciel), mais le coopyleft n’a effectivement plus de sens.

Il me semble bien qu’on est ici face à un paradoxe dans la pensée libriste majoritaire. Il serait possible de résoudre ce paradoxe en conservant notre hypothèse de départ, en faisant simplement évoluer au sein de la communauté libriste ce qu’il est acceptable d’appeler un logiciel libre pour y inclure des logiciels comme CoopCycle. C’est l’objectif que je me fixe par exemple en écrivant ce billet, ou lorsque je suis intervenu en tant que militant libertaire aux Journées du Logiciel Libre 2022.

Étant absolument opposé au solutionnisme technologique, jamais je ne considérerais le logiciel libre comme suffisant, mais, dans la conception que je m’en fais, il est tout de même nécessaire à l’émancipation, et c’est d’ailleurs la principale raison de le défendre et de le promouvoir. En revanche, si on ne résout pas le paradoxe philosophique exposé dans ce billet de la façon que je propose[2], il me semble que les militant·es libristes de gauche ne pourraient même plus voir le logiciel libre comme nécessaire, puisqu’il nous faudrait le dépasser pour défendre ce qu’il conviendrait d’appeler le logiciel émancipateur.

 

Notes

  1. ^ Cela peut d’ailleurs être une interprétation tout à fait valide des deux couleurs du nom de ce blog ;).
  2. ^ Une autre façon de résoudre le paradoxe serait d’abandonner notre hypothèse de départ et d’accepter qu’il n’y a finalement pas vraiment de différence philosophique entre libre et open source.

| page 3 de 7 |