La Boston Public Library, l'un des plus anciens et des plus grands systèmes de bibliothèque publique du pays, lance un projet cet été avec Openai et Harvard Law School pour rendre sa mine de documents gouvernementaux historiquement importants plus accessibles au public.
Les documents remontent au début des années 1800 et comprennent des antécédents oraux, des rapports du Congrès et des enquêtes sur différentes industries et communautés.
« C'est vraiment un référentiel incroyable de matériel source primaire couvrant toute l'histoire des États-Unis, car il a été exprimé par des publications gouvernementales », a déclaré Jessica Chapel, chef des services numériques et en ligne de la Boston Public Library.
Actuellement, les membres du public qui souhaitent accéder à ces documents doivent apparaître en personne. Le projet améliorera les métadonnées de chaque document et permettra aux utilisateurs de rechercher et de référencer des textes entiers de n'importe où dans le monde.
Chapel a déclaré que la bibliothèque publique de Boston prévoyait de numériser 5 000 documents d'ici la fin de l'année, et si tout se passe bien, développez le projet à partir de là.
Faire une bonne affaire avec l'IA
En raison de la taille et de la fragilité massives de cette collection historique, atteindre cet objectif est un processus intimidant. Chaque élément doit être exécuté par un scanner à la main. Il faut environ une heure pour faire 300 à 400 pages.
L'Université de Harvard a déclaré que cela pourrait aider. Les chercheurs de l'initiative de données institutionnelles de la Harvard Law School Library travaillent avec des bibliothèques, des musées et des archives sur un certain nombre de fronts, notamment la formation de nouveaux modèles d'IA pour aider les bibliothèques à améliorer la recherche de leurs collections.
Les entreprises d'IA aident à financer ces efforts et, en échange, puissent former leurs grands modèles de langue sur des matériaux de haute qualité qui ne sont pas du droit d'auteur et donc moins susceptibles de conduire à des poursuites. (Microsoft et Openai sont parmi les nombreux joueurs de l'IA ciblés par les récentes poursuites contre la violation du droit d'auteur, dans lesquelles des plaignants tels que les auteurs affirment que les entreprises ont volé leurs œuvres sans autorisation.)
« Avoir des institutions d'information comme les bibliothèques impliquées dans la construction d'un écosystème de données durables pour l'IA est essentielle, car elle n'améliore pas seulement la quantité de données dont nous disposons, elle améliore la qualité des données et notre compréhension de ce qui contient », a déclaré Burton Davis, vice-président du groupe de propriété intellectuelle de Microsoft.
Accès pour tous
Greg Leppert, le directeur exécutif de l'initiative des données institutionnels de la Harvard Lad School Library, a déclaré que ce n'était pas l'objectif de l'initiative d'accorder l'accès privilégié aux entreprises d'IA aux riches troves d'informations hors dupyright détenues dans les bibliothèques et les archives. Tout le monde peut avoir accès aux données après sa numérisation.
« C'est une rue à double sens, où nous améliorons les données d'une manière qui aidera l'IA, mais ces améliorations se rendent dans la bibliothèque », a déclaré Leppert. « Cela améliore donc également l'expérience du patron. »
OpenAI aide la bibliothèque publique de Boston à couvrir des coûts tels que la numérisation et la gestion de projet. La société technologique n'a pas de droits exclusifs sur les données numérisées.
« Nous bénéficions, comme d'autres, de leurs efforts pour numériser le domaine public, élargissant les données de haute qualité et les connaissances publiques sur lesquelles les systèmes d'IA, y compris le nôtre, peuvent s'appuyer », a déclaré la société dans un communiqué à NPR.
Défis des partenariats public-privé
Les professionnels de la bibliothèque disent que travailler avec les sociétés d'IA fournira un accès plus large à l'information.
« Je pense que c'est un partenariat vraiment utile dont nous allons obtenir des collections plus accessibles », a déclaré la chapelle de la Boston Public Library.
Et, parce que les bibliothécaires sont impliqués dans la conservation et la catégorisation de ces informations, l'intégrité des matériaux utilisés par les sociétés d'IA peut être plus facilement protégée.
« Le fait d'avoir des professionnels formés avec des connaissances profondes sur les sujets est cruciale à ce moment alors que nous commençons à développer ce que l'avenir apportera », a déclaré le président de l'American Library Association Sam Helmick.
Mais les experts en bibliothèque ont également exprimé leur prudence à propos de ces partenariats en raison des différences culturelles entre les institutions publiques et les sociétés.
« Le genre d'éthique de la« Silicon Valley «Move Fast and Break Things» est contraire aux valeurs de la bibliothéconomie, qui concernent l'accès et la transparence », a déclaré Michael Hanegan, co-auteur du nouveau livre.
« Tout cela évolue si rapidement: la technologie évolue rapidement. Les entreprises se déplacent rapidement », a déclaré Chapel. « Et les bibliothèques travaillent sur une échelle de temps très différente. Il y a donc un petit affrontement culturel. »