Le copyleft à travers l'IA ?

Lors d'une discussion avec mon ami Marc Jeanmougin juste après la publication de mon dernier billet “IA, éthique, et licences libres”, il m'a fait part de sa vision des choses concernant la 3ème note de bas de page du billet. Les réflexions qui s'en sont suivies m'ont parues intéressantes à partager.

D'après Marc, le modèle d'une IA entraînée sur un jeu de données est une œuvre dérivée de ce jeu de données. Je ne suis pas sûr que ce soit juridiquement le cas, mais je suis d'accord que d'un point de vue technique comme philosophique ça se défend bien. Si on admet que c'est le cas, et que le jeu de données est sous une licence libre copyleft, alors le modèle pré-entraîné, si il est publié, devra être sous cette licence également (en admettant que le jeu de données est sous une licence unique, ce qui ne correspond pas tellement à la réalité de ce qui se passe ; en pratique, c'est juste le óai…).

Le même raisonnement s'applique entre le modèle pré-entraîné et les résultats de sortie du modèle, qui devraient donc également hériter de la licence libre copyleft du jeu de donnée d'origine (pour les plus pointilleux·ses, admettons que la licence soit contaminante en plus d'être copyleft, et que donc elle contamine aussi l'éventuel prompt utilisé pour obtenir le résultat — la question posée à ChatGPT, la description donnée à DALL·E, etc. —, qui est alors bien à 100% une œuvre dérivée de données sous la licence libre copyleft).

Maintenant, que ce passe-t-il si le modèle pré-entraîné n'est pas publié ? Comme le copyleft ne s'active que pour la redistribution, le modèle pré-entrainé n'est pas sous licence libre copyleft dans ce cas. Qu'arrive-t-il alors aux résultat de sorties si ceux-ci sont, pour le coup, publiés ?

Est-ce que la clause de copyleft s'active transitivement, “à travers” le modèle pré-entraîné ? Si ce n'est pas le cas, il faudrait peut-être réfléchir à comment faire en sorte que ce soit le cas dans les prochaines versions des licences libres copyleft (typiquement des licences Creative Commons avec la clause “Share Alike”).

Une autre question que ça pose, c'est de savoir si l'interaction à distance avec un modèle (via par exemple une interface web comme dans le cas de ChatGPT ou DALL·E) compte comme une redistribution de celui-ci (quelque soit la licence utilisée pour le code de l'application qui permet cette interaction) ? Si ce n'est pas le cas, il faudrait réfléchir à la possibilité d'imposer que ce le soit, dans l'esprit de ce que fait l'Affero GPL pour les logiciels utilisés à distance, mais cette fois-ci pour des données.