Réflexion : IA et licences

16 août 2023

De la licence sous laquelle je publie mon contenu
Des implications
Google, informatique hostile, etc.
De la réalisation des fantasmes
De la licence de mon blog

L'actualité de 2023 a été remplie par l'Intelligence Artificielle. Jusqu'à l'écœurement, en ce qui me concerne. Et nous ne sommes qu'au mois d'août.

Alors que j'ai en projet cet article concernant les licences et les IA depuis plusieurs mois, la goutte d'eau qui a fait déborder mon vase aujourd'hui, c'est cette annonce par Google de l'intégration dans Chrome de résumés automatiques sur les pages visitées, qui ferait presque passer mes réflexions sur l'intégration de l'IA dans les moteurs de recherche pour des broutilles.

De la licence sous laquelle je publie mon contenu

Jusqu'à présent, voici le texte inclus sur chaque page de mon site :

Sauf mention contraire, l'intégralité du contenu de ce site est publié sous licence CC BY-SA 4.0.

Le désir d'empêcher les IA de se servir de mon contenu grandit de jour en jour. Telle quelle, la CC BY-SA n'est pas discriminante : le contenu est publié sous cette licence, que le contenu soit utilisé par un humain ou une IA n'y change rien.

On pourrait croire qu'il suffirait d'ajouter une exception pour l'IA, mais la CC BY-SA est explicite : il est interdit d'ajouter la moindre restriction aux règles de la licence.

No additional restrictions — You may not apply legal terms or technological measures that legally restrict others from doing anything the license permits.

Si je continue de publier sous licence CC BY-SA, j'accepte que mon contenu soit utilisé par les IA, peu importe l'objectif. J'accepte que lorsque vous visitez mon site hébergé sur mon serveur, Google vous affiche le résumé généré par son IA d'un contenu que j'ai produit.

Je remets donc en cause l'utilisation de cette licence pour mon contenu, mais attardons-nous un peu sur les implications de la nouvelle "fonctionnalité" proposée par Google, .

Des implications

Résumé erratique

La première implication est simple : le résumé généré peut tout simplement être faux. Il peut me faire dire ce que je n'ai pas dit (ce qui peut avoir des conséquences dramatiques). Il peut aussi vous faire croire que je transmets une opinion alors que mon but est de transmettre l'inverse : une IA, même venant de Google, pourrait s'avérer incapable de comprendre mes tournures de phrases et saisir toutes les subtilités du langage, l'essence-même qui justifie que je suis l'auteur de mon blog, la raison pour laquelle vous lisez mes articles.

Tromperie

La deuxième implication est la tromperie opérée par Google sur l'auteur du contenu d'un site. Cela rejoint l'idée développée par les Arsouyes, dont la portée va décidément bien au-delà de ce que j'ai pu croire en première lecture. (Au passage, ça fait du bien de lire du contenu avec une vraie profondeur.)

Je m'en fous que Google affiche "clairement" que le résumé est auto-généré ou qu'il soit nécessaire de cliquer sur un bouton : si vous venez sur mon site et que Chrome vous affiche le résumé d'une page, vous croirez que j'en suis l'auteur, parce que l'enrobage autour de ce résumé reste le mien. Il suffit que l'IA ponde un résumé foireux pour que je me retrouve taxé de raciste, voire pire.

Violation de la neutralité du Net

La troisième implication est la violation de la neutralité du Net puisque le contenu réel est altéré par Google. On avait connu une problématique similaire avec AMP. On a mis 7 ans avant de tuer ce "service".

Ici, telle que présentée, la "fonctionnalité" s'apparenterait davantage à un système de traduction automatique comme on peut déjà le voir intégré aux navigateurs. Cela ne semble pas forcément problématique, jusqu'à ce que Google décide que le résumé sera affiché en lieu et place du contenu original, et que c'est ce contenu original qui sera planqué derrière un bouton. Comme ils l'ont déjà fait avec AMP, en fait. Là, on commencera peut-être à se dire qu'ils vont trop loin... peut-être dans dix ans.

Vide technico-juridique

La quatrième implication est la responsabilité que cela fait peser sur les producteurs de contenu. Je ne veux pas légitimer la violation de la neutralité du Net par Google, mais il m'est impossible de l'en empêcher puisque mon contenu est "publiquement visible".

Il y a à la fois un vide juridique, puisqu'il n'existe actuellement aucune licence publiquement reconnue permettant de s'opposer à ce genre de pratique, et un vide technique puisqu'il est impossible pour les producteurs de contenu de demander à Google de ne pas proposer cette fonctionnalité.

Et même si la contrainte technique existait, il faudrait faire confiance à Google pour l'appliquer...

Débilitation des consommateurs de contenu

La cinquième implication est à la fois plus subtile et plus controversée. Je fait partie des gens qui sont férocement convaincus que le temps d'attention des internautes est en baisse significative et inquiétante depuis l'avènement des réseaux sociaux, où les formats courts sont privilégiés. J'inclus évidemment twitter et facebook, mais aussi YouTube et surtout Vine qui, jusqu'en 2017, a pavé la voie aux formats courts dont tiktok est le descendant spirituel. Or, cette tendance devrait être inversée pour le bien de l'humanité.

J'ai conscience que cette dernière phrase va forcément susciter l'ire de certains de mes lecteurs, mais il est pourtant bien inconcevable qu'un contenu compressé dans, disons 500 caractères ou 5 minutes de vidéo soit aussi instructif et intellectuellement nourrissant qu'un contenu de 5000 caractères ou 50 minutes de vidéo. Et si vous pensez le contraire, il est de toute façon peu probable que vous soyez parvenus jusqu'à ces lignes...

Exploitation du travail des autres

La sixième implication est la nécessité d'imposer une discrimination à une société qui promeut activement l'inclusion : il va devenir nécessaire de distinguer (discriminer) Intelligence Artificielle et Humain, ne serait-ce que dans la gestion des licences et de la publication de contenu. Cette discrimination, par essence, s'oppose aux valeurs modernes de la société, évidemment, mais sans elle, n'importe qui peut s'arroger le travail des autres.

Il y a là un point de bascule, à la fois fragile et critique. On doit promouvoir la diffusion massive d'éléments culturels, mais cette diffusion doit pouvoir être contrôlée un minimum. Même en sortant du paradigme capitaliste, personne ne peut, en son âme et conscience, se féliciter qu'un autre soit valorisé pour une idée qu'il lui a volé puis exploité, sans consentement et sans mention. D'où l'existence de licences forçant la mention de l'auteur original tout en octroyant la possibilité de transformer l'œuvre initiale (c'est le cas de la CC BY-SA pour laquelle j'ai opté).

L'exemple me vient alors en tête de certains ateliers chinois, capables de reproduire les traits de pinceaux typiques de Van Gogh, à un point tel que même pour des experts, le premier coup d'œil est trompeur : l'IA va nous mener à la contrefaction de tout ce qui est produit, et générer des marchés financiers probablement colossaux, dont aucune rétribution ne sera offerte aux auteurs originaux.

Or, l'IA vient industrialiser l'exploitation du contenu des autres, le transformant par la stochastique, rendant difficile ou impossible la traçabilité du contenu original et donc sa parenté, réduisant de fait à l'inutilité toute licence existante, qu'elle soit d'ailleurs Libre, Ouverte, ou propriétaire. Par ailleurs, si l'on considère l'IA comme étant l'auteur du contenu modifié, on en viendra à questionner l'identité de l'auteur au sens littéral du terme.

Cette implication pourrait être rendue caduque si l'IA tient compte de la licence du contenu dont elle génère le résumé : elle pourrait alors indiquer en introduction l'auteur original du contenu, indiquer la licence détectée, et préciser que l'auteur du contenu original n'est pas l'auteur du résumé. Mais il est peu probable que Google soit aussi transparent...

Impossibilité de s'y soustraire

D'après l'article publié sur The Verge :

The feature is designed to work “only on articles that are freely available to the public on the web”; Google says it won’t work with websites that publishers mark as paywalled.

Autrement dit, la seule façon d'empêcher Google de proposer un résumé du contenu consiste à faire payer les lecteurs. La licence sous laquelle le contenu est publié n'entre jamais dans l'équation : il suffit que le contenu soit disponible publiquement.

Il est peu probable que les blogs personnels de geeks tels que moi vont planquer leur contenu derrière un paywall. Cette technique que je range dans la catégories des dark patterns est essentiellement exploitée par des médias qui suivent déjà Google comme des moutons. Non, je ne m'excuserai pas de cette généralisation outrancière.

Dans tous les cas, retenons simplement qu'il est impossible de se soustraire au service de résumé automatique de Google, ce qui a une autre implication, plus technique.

Support des coûts techniques et financier par les auteurs

Si le service de Google ne fonctionne pas avec les paywalls, c'est parce que ce sont leurs serveurs qui font le travail de résumé (et non la machine cliente - PC, téléphone, tablette). J'imagine que le protocole employé devrait être similaire à cela :

un internaute arrive sur un site
il clique sur le bouton pour afficher le résumé
l'URL de la page est envoyée à Google
Google télécharge la page (si la page est derrière un paywall, Google ne peut pas y accéder)
Google produit le résumé
Google envoie le résumé au navigateur de l'internaute

Donc le serveur qui héberge la page devra répondre à au moins deux requêtes par visiteur utilisant Google Chrome. Du point de vue de ce serveur, il s'agira de deux clients distincts. Il devra donc supporter deux fois l'affichage de la même page : une fois pour l'internaute, une fois pour Google. Il devra produire la page et l'envoyer deux fois sur le réseau. Inutile de s'attarder davantage sur les chiffres : pour peu que l'on s'héberge à la maison, comme moi, on devra supporter le double de visiteurs, sans en tirer le moindre avantage. Pire, on nous force à servir un contenu qu'on n'a pas nous-même produit.

Il faut juste que Google garde à l'esprit que nous ne sommes pas tous Google : les petits bloggeurs qui ne mettront pas en place un paywall devront supporter une double charge. J'imagine ceux qui font tourner leur blog sous Wordpress...

Cette charge est tout sauf anodine : double consommation de CPU, de mémoire et de réseau, vieillissement prématuré des supports de stockage. La charge doublée sur le réseau engendre deux problèmes : la réduction de la bande passante disponible pour d'autres visiteurs, et surtout, la consommation énergétique, qui a un coût financier.

Le tout, sans possibilité de s'en affranchir. Merci Google.

Google, informatique hostile, etc.

Il devient difficile d'avoir des principes sur Internet. Si, auparavant, on pouvait croire à l'idée qu'on aurait d'un côté le web "commercial" et de l'autre un web plus sain, je pense que cette idée relève désormais du fantasme. L'hostilité de Google contre les internautes ne cesse de croître et de se renforcer avec le temps, alors que le bon sens supposait son extermination. Ses incursions les plus récentes dans la vie privée ou dans la neutralité du Net ont beau ne pas être surprenantes tant elles constituent le cœur de métier de l'entreprise, elles n'en sont pas moins comme autant de coups de couteau dans le cœur du Web : ses "petits producteurs". Google est cet être répugnant et abjecte, capturant ses innombrables victimes, les rouant de coups jusqu'à l'abandon total de leur volonté propre, les obligeant à ne plus satisfaire que les exigences de leur maître.

Internet en est là, avec des retours d'expérience "très positifs jusque là". De toute façon, à quoi bon se débattre, puisque le gourou prétend que "c'est juste comme ça que [Google] Search va fonctionner avec le temps".

De la réalisation des fantasmes

La littérature et le cinéma s'en donnent à cœur joie depuis plusieurs décennies à nous présenter l'IA comme maléfique, inarrêtable, sauf par le héros parce que bon, il faut bien qu'un humain sauve le monde. On pourrait donc croire que l'humanité ferait tout pour empêcher la science fiction de devenir prophétique. Pourtant, on fait exactement l'inverse.

Cela me fait également penser à un thème conspirationniste pour le coup : une entité crée à la fois le problème et sa solution. Peut-être que c'est ce que Google cherche à faire : créer un gros problème avec l'IA (ils en sont à l'étape de recherche et développement), et fournir de quoi s'en prémunir, en faisant croire au passage à tout le monde que ce sont eux, les sauveurs. Comme ils l'ont fait avec Android et avec Chrome.

À moins que, plus prosaïquement, l'être humain n'ait foncièrement tendance à vouloir mettre ses fantasmes à exécution. Dites aux Hommes que leurs industries polluent et vont amener leur extinction pendant quatre ou cinq décennies : ils vont produire encore plus, réduire les sources d'énergie propres, rallumer les centrales à charbon, manipuler les nuages, etc. En gros, ils vont scier la branche sur laquelle ils sont assis avec une vigueur redoublée.

Google n'aura de cesse de phagocyter Internet jusqu'à ce que plus rien ne leur échappe. L'IA est une brique de leur stratégie, la plus importante à l'heure actuelle, et la seule chose qui nous permettrait de l'éviter nous manque : un cadre juridique à opposer. Sans des licences ou d'autre moyens de pression, on ne pourra pas les empêcher d'absorber tout le web. C'est la raison pour laquelle il est capital que des entreprises comme Apple ou Microsoft, que l'on peut aimer ou détester, tiennent tête à l'hégémonie de Google. Pour l'instant, c'est notre seul rempart.

De la licence de mon blog

La licence CC BY-SA ne changera rien à ce que Google est en train de mettre en place. Néanmoins, il me semble important d'exprimer au plus tôt mon désaccord total sur l'utilisation de mon contenu par une IA, quel que soit son but. Il faut rendre clair, dès aujourd'hui, que je ne suis pas d'accord qu'un visiteur puisse demander à une entreprise tierce de modifier mon contenu pour l'ajuster à ses préférences. J'ai choisi mes mots, ils font partie de mon identité, ils sont la raison pour laquelle je suis lu, et il est hors de question qu'une entreprise, par l'intermédiaire d'une IA, transforme mes idées. Elles convoient des sentiments que j'exprime et que je partage, et leur transformation ne peut que les altérer. Transformer mes mots revient à me priver de ce qui fait de moi un humain, et de mes droits les plus fondamentaux.

Pour un visiteur, c'est juste un résumé de la page qu'il lit. Pour moi, c'est la violation de mon identité. Publier des textes longs est mon choix, pas celui de mes visiteurs, ni celui de Google. Si j'avais l'intention de publier des articles courts, je n'aurai pas choisi le medium du blog pour le faire. Et si les internautes veulent une information succincte, ils se détournent de mes articles en constatant leur longueur.

Je ne tolère pas que Google transforme mon contenu, que ce soit pour faire un résumé ou quoi que ce soit d'autre. Mais je ne peux pas l'empêcher. Pas avec une licence CC BY-SA.

Malheureusement, il n'y a aucune alternative évidente.

Avec un peu de chance, il sera possible de bloquer les requêtes de Google en filtrant sur son User Agent, mais je doute que cela soit aussi simple. À moins qu'une méthode du type robots.txt apparaisse et soit respectée par Google...

De la licence sous laquelle je publie mon contenu¶

Des implications¶

Résumé erratique¶

Tromperie¶

Violation de la neutralité du Net¶

Vide technico-juridique¶

Débilitation des consommateurs de contenu¶

Exploitation du travail des autres¶

Impossibilité de s'y soustraire¶

Support des coûts techniques et financier par les auteurs¶

Google, informatique hostile, etc.¶

De la réalisation des fantasmes¶

De la licence de mon blog¶