L'IA s'améliore pour simuler les foules. Voici pourquoi cela est un problème de préoccupation

Un concert Will Smith vidéo Aivelé sur Internet récemment – non pas pour sa performance, mais pour la foule. Les téléspectateurs aux yeux d'aigle ont remarqué des doigts et des visages étranges, dans le public, entre autres problèmes visuels et une manipulation suspectée d'IA.

Les scènes de foule présentent un défi technologique particulier pour les outils de création d'images de l'IA – en particulier la vidéo. (L'équipe de Smith n'a pas commenté publiquement – ou répondu à une demande de NPR sur – comment la vidéo a été réalisée.) « Vous gérez tant de détails complexes », a déclaré l'artiste visuel et chercheur basé à San Francisco, Kyt Janae, un expert en création d'images de l'IA. « Vous avez chaque être humain individuel dans la foule. Ils se déplacent tous indépendamment et ont des caractéristiques uniques – leurs cheveux, leur visage, leur chapeau, leur téléphone, leur chemise. »

Mais les derniers modèles de génération de vidéos IA tels que Google Veo 3 Et Openai Sora 2 deviennent assez bien. « Nous entrons dans un monde où, dans une généreuse estimation d'un an, les lignes de réalité vont devenir vraiment floues », a déclaré Janae. « Et vérifier ce qui est réel et ce qui n'est pas réel devra presque devenir comme une pratique. »

Pourquoi les images de la foule comptent

Cette observation pourrait potentiellement avoir de graves conséquences dans une société où des images de grandes foules engagées lors d'événements publics comme des concerts de rock, des manifestations et des rassemblements politiques ont une monnaie majeure. « Nous voulons une métrique visuelle, un moyen de déterminer si quelqu'un réussit ou non », a déclaré Thomas Smith, PDG de Images gadoune entreprise qui utilise l'IA pour aider à gérer les archives visuelles. « Et la taille de la foule en est souvent un bon indicateur. »

UN rapport De la société de conseil mondiale, Capgemini montre que près de trois quarts des images partagées sur les réseaux sociaux en 2023 ont été générées en utilisant l'IA. La technologie devenant de plus en plus habile à créer des scènes de foule convaincantes, la manipulation des visuels n'a jamais été aussi simple. Avec cela, à la fois une opportunité créative – et un danger sociétal. « L'IA est un bon moyen de tricher et de gonfler la taille de votre foule », a déclaré Smith.

Il a ajouté qu'il y a aussi un revers de la médaille à ce phénomène. « S'il y a une vraie image qui fait surface et que cela montre quelque chose qui est politiquement gênant ou dommageant, il y aura aussi une tendance à dire: » Non, c'est un faux IA. « »

Un exemple de cela s'est produit en août 2024, lorsque le candidat du Parti républicain Donald Trump répartir les fausses réclamations Cet équipe démocratique de Kamala Harris a utilisé l'IA pour créer une image d'une grande foule de supporters.

Le conférencier de l'Université de Chapman, Charlie Fink, qui écrit sur l'IA et d'autres technologies émergentes, a déclaré qu'il était particulièrement facile de duper les gens pour croire qu'une fausse scène de foule est réelle ou qu'une vraie scène de foule est fausse en raison de la façon dont les images sont livrées. « Le défi est que la plupart des gens regardent du contenu sur un petit écran, et la plupart des gens ne sont pas terriblement critiques à l'égard de ce qu'ils voient et entendent », a déclaré Fink. « Si ça a l'air réel, c'est réel. »

Équilibrer la créativité et la sécurité publique

Pour les sociétés technologiques derrière les générateurs d'images et les plateformes de médias sociaux, où les images fixes et les vidéos générées par l'AI ont un équilibre délicat à trouver entre permettre aux utilisateurs de créer un contenu de plus en plus réaliste et crédible – y compris des scènes de foule détaillées – et des dommages potentiels.

« Plus nous pouvons créer les résultats plus réalistes et crédibles, plus il offre aux gens d'expression créative », a déclaré Oliver Wang, scientifique principal de Google DeepMind qui co-dirige les efforts de génération d'images de l'entreprise. « Mais la désinformation est quelque chose que nous prenons très au sérieux. Nous tressons donc toutes les images que nous générons avec un filigrane visible et un filigrane invisible. »

Cependant, le filigrane visible – c'est-à-dire le public – actuellement affiché sur les vidéos créées à l'aide de VEO3 de Google est minuscule et facile à manquer, niché dans le coin de l'écran. (Filigranes invisibles, comme Google Synthétiquene sont pas visibles aux yeux des utilisateurs réguliers; Ils aident les entreprises technologiques à surveiller le contenu d'IA dans les coulisses.)

Et les systèmes d'étiquetage d'IA sont toujours appliqués de manière assez inégale sur toutes les plates-formes. Il n'y a pas encore de normes à l'échelle de l'industrie, bien que les entreprises avec lesquelles NPR se soient entretenues pour cette histoire ont déclaré qu'elles sont motivées à les développer.

Meta, la société mère d'Instagram, actuellement Étiquettes Téléchargées du contenu généré par l'IA lorsque les utilisateurs le divulguent ou lorsque leurs systèmes le détectent. Les vidéos Google créées à l'aide de ses propres outils d'IA génératives sur YouTube ont automatiquement une étiquette dans la description. Il demande Ceux qui créent des médias à l'aide d'autres outils pour divulguer de s'auto-divulguer lorsque l'IA est utilisé. Tiktok nécessite Les créateurs pour étiqueter un contenu généré par l'AI-généré ou considérablement édité qui montre des scènes ou des personnes réalistes. Le contenu non étiqueté peut être supprimé, restreint ou étiqueté par notre équipe, selon le préjudice qu'il pourrait causer.

Pendant ce temps, Will Smith s'amuse plus avec l'IA depuis la sortie de cette vidéo de concert controversée. Il a posté un joueur ludique suivi dans lequel la caméra se déroule des images du chanteur se produisant énergiquement sur scène pour révéler un public rempli de chats à pompage. Smith a inclus un commentaire: « La foule était poppin 'tonite !! »