Anthropic pour payer les auteurs 1,5 milliard de dollars pour régler le procès sur le matériel de formation de chatbot piraté

NEW YORK – La société d'intelligence artificielle Anthropic a accepté de payer 1,5 milliard de dollars pour régler un recours collectif par des auteurs de livres qui disent que la société a pris des copies piratées de leurs œuvres pour former son chatbot.

Le règlement historique, s'il était approuvé par un juge dès lundi, pourrait marquer un tournant dans les batailles juridiques entre les sociétés de l'IA et les écrivains, les artistes visuels et d'autres professionnels de la création qui les accusent de violation du droit d'auteur.

La société a accepté de payer aux auteurs environ 3 000 $ pour chacun des 500 000 livres estimés couverts par le règlement.

« Du mieux que nous pouvons le dire, c'est la plus grande reprise du droit d'auteur de tous les temps », a déclaré Justin Nelson, avocat des auteurs. « C'est le premier du genre à l'ère de l'IA. »

Un trio d'auteurs – le romancier thriller Andrea Bartz et les écrivains non fictionnels Charles Graeber et Kirk Wallace Johnson – ont poursuivi l'année dernière et représentent maintenant un groupe plus large d'écrivains et d'éditeurs dont les livres Anthropic ont téléchargé pour former son chatbot Claude.

Un juge fédéral a traité l'affaire une décision mixte en juin, constatant que la formation des chatbots d'IA sur les livres protégés par le droit d'auteur n'était pas illégale mais qu'Anthropic a acquis à tort des millions de livres via des sites Web de pirate.

Si Anthropic ne s'était pas réglé, les experts disent que la perte de l'affaire après un procès prévu en décembre aurait pu coûter encore plus à la société basée à San Francisco.

« Nous envisageons une forte possibilité de plusieurs milliards de dollars, suffisamment pour potentiellement paralyser ou même mettre anthropic hors travail », a déclaré William Long, analyste juridique de Wolters Kluwer.

Le juge de district américain William Alsup de San Francisco a prévu une audience de lundi pour examiner les conditions du règlement.

Anthropic a déclaré vendredi dans un communiqué que le règlement, s'il était approuvé, « résoudre les réclamations héritées restantes des demandeurs ».

« Nous restons déterminés à développer des systèmes d'IA sûrs qui aident les personnes et les organisations à étendre leurs capacités, à faire avancer la découverte scientifique et à résoudre des problèmes complexes », a déclaré Aparna Sridhar, avocate adjointe générale de la société.

Dans le cadre du règlement, la société a également accepté de détruire les fichiers de livres originaux qu'il a téléchargés.

Les livres sont connus pour être d'importantes sources de données – en substance, des milliards de mots soigneusement formulés – qui sont nécessaires pour construire les modèles de grande langue de l'IA derrière des chatbots comme Claude d'Anthropic et son principal rival, le chatppt d'Openai.

La décision de juin d'Alsup a constaté qu'Anthropic avait téléchargé plus de 7 millions de livres numérisés qu'il « savait qu'il avait été piraté ». Il a commencé avec près de 200 000 d'une bibliothèque en ligne appelée Books3, assemblée par des chercheurs en IA à l'extérieur d'OpenAI pour correspondre aux vastes collections sur lesquelles le chat de chatte a été formé.

Le premier thriller roman de Bartz, un demandeur principal dans l'affaire, faisait partie de ceux trouvés dans l'ensemble de données Books3.

Anthropic a ensuite pris au moins 5 millions d'exemplaires de la bibliothèque de sites Web Pirate Genesis, ou Libgen, et au moins 2 millions d'exemplaires du Mirror de la bibliothèque Pirate, a écrit Alsup.

La Guild des auteurs a déclaré à ses milliers de membres le mois dernier qu'elle s'attendait à ce que « les dommages-intérêts seraient au minimum de 750 $ par travail et pourraient être beaucoup plus élevés » si anthropic était trouvé au procès pour avoir volontairement violé leurs droits d'auteur. Le prix plus élevé du règlement – environ 3 000 $ par travail – reflète probablement un plus petit bassin de livres affectés, après avoir pris des doublons et ceux sans droit d'auteur.

Vendredi, Mary Rasenberger, PDG de la Auteur Guild, a qualifié la colonie « un excellent résultat pour les auteurs, les éditeurs et les droits en général, envoyant un message fort à l'industrie de l'IA qu'il y a de graves conséquences lorsqu'ils piratent les œuvres des auteurs pour former leur IA, en volant les moins en mesure de se le permettre. »

La Danish Rights Alliance, qui a réussi à éliminer l'une de ces bibliothèques fantômes, a déclaré vendredi que le règlement serait peu utile aux écrivains et éditeurs européens dont les œuvres ne sont pas enregistrées auprès du Copyright Office américain.

« D'une part, il est réconfortant de voir que la compilation des ensembles de données de formation d'IA en téléchargeant des millions de livres à partir de sites de partage de fichiers illégaux connus a un prix », a déclaré Thomas Heldrup, responsable de la protection et de l'application du groupe.

D'un autre côté, Heldrup a déclaré qu'il s'adapte à un livre de jeu de l'industrie technologique pour développer d'abord une entreprise et plus tard, payer une amende relativement petite, par rapport à la taille de l'entreprise, pour enfreindre les règles.

« Je crois comprendre que ces entreprises voient un règlement comme celui anthropique comme le prix de la conduite des affaires dans un espace farouchement concurrentiel », a déclaré Heldrup.

L'anthropique privé, fondé par des anciens dirigeants d'Openai en 2021, plus tôt cette semaine, a mis sa valeur à 183 milliards de dollars après avoir augmenté 13 milliards de dollars d'investissements.

Anthropic a également déclaré qu'il prévoyait de réaliser 5 milliards de dollars de ventes cette année, mais, comme OpenAI et de nombreuses autres startups d'IA, il n'a jamais déclaré réaliser un profit, s'appuyant plutôt sur les investisseurs pour soutenir les coûts élevés de développement de la technologie d'IA pour l'attente de paiements futurs.

Le règlement est susceptible d'influencer d'autres litiges, notamment un procès en cours par les auteurs et les journaux contre OpenAI et son partenaire commercial Microsoft.

« Cela indique que peut-être pour d'autres cas, il est possible pour les créateurs et les sociétés d'IA de parvenir à des règlements sans avoir à opter essentiellement pour se casser devant le tribunal », a déclaré Long, analyste juridique.

L'industrie, y compris anthropic, avait largement félicité la décision d'Alsup en juin parce qu'il a constaté que la formation des systèmes d'IA sur les œuvres protégées par le droit d'auteur afin que les chatbots puissent produire leurs propres passages de texte qualifiés de « utilisation équitable » en vertu de la loi sur le droit d'auteur américain parce qu'elle était « typiquement transformatrice ».

En comparant le modèle d'IA à « tout lecteur qui aspire à être écrivain », Alsup a écrit qu'Anthropic « formé sur les œuvres de ne pas courir à l'avance et de les reproduire ou de les supplanter – mais pour tourner un coin dur et créer quelque chose de différent ».

Mais les documents divulgués devant le tribunal ont montré que les préoccupations internes des employés anthropes concernant la légalité de leur utilisation des sites pirates. La société a ensuite déplacé son approche et a embauché Tom Turvey, l'ancien dirigeant de Google en charge de Google Books, une bibliothèque consultable de livres numérisés qui ont réussi des années de batailles en matière de droit d'auteur.

Avec son aide, Anthropic a commencé à acheter des livres en vrac, en arrachant les liaisons et en scannant chaque page avant de nourrir les versions numérisées dans son modèle d'IA, selon des documents judiciaires. Mais cela n'a pas annulé le piratage précédent, selon le juge.