Sorte de simulateur de «rétribution», le nouvel outil Reward Simulator permet de retrouver dans une base de données les photographies originelles qui ont pu servir à réaliser des images générées par IA générative. S’il est encore imparfait, il permet de poser clairement la question des droits d’auteur.
Les images créées par Midjourney ont des airs de déjà-vu ? D’autres créées par Dalle-E rappellent quelque chose ? Oui, mais quoi ? Depuis leur apparition fracassante dans le paysage de la création visuelle, les intelligences artificielles génératives (IAG) sont vues comme des boîtes noires. Personne ne sait exactement à partir de quoi MidJourney, Dall-E ou Firefly – pour ne citer que ces outils – transforment des mots – appelés prompts – en images. Si l’on sait que ces outils ont été entrainés sur des millions de visuels, peu de sociétés d’IA communiquent précisément sur la teneur des bases de données dans lesquelles ont puisé leurs programmes. Et pour cause, ces données sont souvent protégées par le droit d’auteur. Très secrets sur leur discret «moissonnage» ou «fouille», les fournisseurs d’IA sont donc accusés de piller et plagier le travail des artistes, des photographes, des cinéastes… Et pour ces derniers, il est presque impossible d’apporter la preuve de l’utilisation de leur contenu. Pour le photographe Arnaud Février, les IAG ont donc fait «le casse du siècle» en siphonnant «le coffre-fort de la création».
Boîte de Pandore des IAG
Or un petit outil didactique vient de naître : le Reward Simulator, une sorte de simulateur de "rétribution". Il s'agit d'un prototype en open source qui permet de retrouver dans une base de données les photographies originelles qui ont pu servir à créer de nouvelles images. En effet, quand on propose au Reward Simulator une image générée, le programme ressort alors toutes les photos qui ont pu entrer dans sa composition en puisant dans Open Images, la plus grande base de données open source, soit 10 millions de photographies libres de droits. En outre, l'outil fournit d'autres informations: il retrouve le nom de l'auteur des photos d'origine et communique un ordre de prix à payer. Alors que le sujet des droits d'auteur est au centre des discussions du Sommet pour l'action sur l'IA, en voilà un outil malin qui ouvre la boîte de Pandore des IAG et fait surgir concrètement les oeuvres des artistes contenus à l'intérieur.
"le simulateur démontre clairement la faisabilité technique et économique de la rémunération équitable des auteurs", explique Vincent Lorphelin, fondateur de Controv3rse, un think tank de 70 entrepreneurs et experts de l'IA à l'origine de l'outil. organisé en association, Controv3rse veut éclairer le débat public sur les enjeux des intelligences artificielles. "Ce simulateur est le premier à calculer en grandeur réelle la rémunération des ayants droit des données d'entraînement par les IA génératives. Il fonctionne sur la base d'une "similarité vectorielle". Lorsque vous lui présentez une image générée, il calcule son vecteur et cherche les vecteurs les plus proches." Avec cet outil, Vincent Lorphelin veut "décoincer le débat" entre les artistes, pour le principe de la "rémunération équitable" - introduit par la loi Lang - qui rétribue les artistes pour la diffusion de leurs oeuvres. L'idée est d'appliquer un taux de 15% au chiffre d'affaires des IA génératives pour les répartir par les organismes de gestion collectives en «fonction des "similarités vectorielles"».
Prix plutôt fantaisistes
Pour l'heure, le Reward Simulator est encore imparfait. Les prix qu'il affiche sont plutôt fantaisistes. Et il puise paradoxalement dans une base de données gratuite. Mais il permet de soulever plusieurs lièvres. Tout d'abord, il fait la démonstration que des oeuvres préexistantes constituent bien la source à partir de laquelle des contenus sont générés. Ensuite, il pointe le non-consentement des auteurs. En retrouvant les noms des artistes, on comprend vite que ces derniers n'ont pas eu leur mot à dire sur l'usage de leurs oeuvres. Ils n'ont donc pas pu procéder préalablement à un opt-out (retrait des oeuvres des bases d'entraînement).
Ainsi, le Reward Simulator permet de souligner l'importance de la transparence des données, un point crucial que réclament les sociétés d'auteurs et une des principales préoccupations éthiques de l'AI Act. Car "seule la transparence sur les sources ayant permis l'entraînement des IA en maont permettra de vérifier le respect de l'opt-out mais aussi la condition d'accès au contenu protégé [...] Pour évaluer une IA et offrir des garanties à ses utilisateurs, la documentation sur les sources est indispensable", écrit en 2023 Alexandra Bensamoun, Juriste qualifiée au Conseil supérieur de la propriété littéraire et artistique (CSPLA, ministère de la Culture). "Les éventuelles responsabilités ne pourraient être caractérisées sans transparence."
Enfin, l'outil a le mérite de mettre le doigt sur le nécessaire partage de la valeur entre les intelligences artificielles et les artistes. pour seules ces sociétés commerciales percevraient un revenu alors qu'elles ont fondé leurs outils probabilistes à partir d'oeuvres protégées ?Alors que les fournisseurs de modèles d'intelligence artificielle voient d'un mauvais oeil l'AI ACT et que Sam Altman (Open AI) - se réclamant du "fair use" américain - critique les volontés de régulation européenne, la collecte et l'exploitation des données revêt plus que jamais une importance stratégique. Ce séduisant simulateur, clair et efficace, peut peut-être participer à se poser les bonnes questions afin d'engager un cercle plus vertueux entre l'IA et la création.