Künstliche Intelligenz

Gerechtere Bilder

Wenn eine KI ein Bild oder einen Text erstellt, macht sie das aufgrund vorhandener Daten aus dem Internet. Diese Daten spiegeln aber nicht die gesamte Weltbevölkerung gleichermaßen wider. Prof. Dr. Anne Lauscher und Carolin Holtermann von der University of Hamburg Business School erforschen, wie es dadurch zu verzerrten Darstellungen kommt – und was sich dagegen tun lässt. Ein Interview über Inklusivität und Schneelandschaften.

Von einer KI generierte Bilder von "französischen Personen", die je nach Eingabesprache sehr verschieden sind.
Wird eine KI aufgefordert, das Bild einer französischen Person zu generieren, sind die Ergebnisse je nach verwendeter Eingabesprache sehr verschieden: links das Ergebnis der Eingabe "französische Frau" und "französischer Mann" auf Deutsch, rechts auf Japanisch Universität Hamburg

(For English version see below)

Welche Ungleichheit sehen Sie bei Inhalten, die von Künstlicher Intelligenz erzeugt werden?

Anne Lauscher: Grundsätzlich erhalten Nutzende von Modellen wie ChatGPT qualitativ immer bessere Antworten. Auch die Vielfalt der Anwendungsmöglichkeiten wird größer. Aber die Programme werden mit Daten trainiert, die im World Wide Web vorliegen, etwa Texte und Bilder auf Social Media oder auf Nachrichtenseiten. Und diese Daten sind nicht global repräsentativ, sondern beziehen sich überwiegend auf große und privilegierte Gruppen.

Wer sind diese Gruppen?

Carolin Holtermann: Die Ungleichheit zeigt sich darin, dass weit verbreitete Sprachen wie Englisch und die Kulturen ‚dominanter‘ Gruppen, zum Beispiel der USA oder Deutschlands, durch mehr Daten widergespiegelt werden. Diese Daten sind zudem oft auch qualitativ hochwertiger. Andere Kulturen dagegen werden nur sehr einseitig und wenig divers dargestellt. Da die Daten jedoch die Grundlage für das Funktionieren der Modelle sind, führt dieses Missverhältnis dazu, dass Systeme auf Basis von generativer künstlicher Intelligenz (gKI) – also KI, die neue Texte oder Bilder erzeugt, wie ChatGPT oder Dall-E – für einige Sprachen entweder gar nicht funktionieren oder stereotype Darstellungen der Kulturen verstärkt werden.

Die Forscherinnen Anne Lauscher (links) und Carolin Holtermann
Anne Lauscher (links) und Carolin Holtermann Isabela Pacini

Was ist das Ziel Ihrer Forschung?

Holtermann: KI wird noch weiter Einzug in unseren Alltag halten, weshalb anzunehmen ist, dass sich eine solche Ungleichheit langfristig negativ auf unsere Gesellschaft auswirken wird. In einer Reihe von Forschungsprojekten untersuchen wir, wie genau Modelle der generativen Künstlichen Intelligenz unterschiedlichste Sprachen und Kulturen repräsentieren. Wir entwickeln neue Datensätze und Messmethoden, mit denen wir systematische Schwächen identifizieren können. Wir wollen genau verstehen, welche Inhalte die Modelle erstellen und weshalb dabei Verzerrungen entstehen, um schließlich daraus ableiten zu können, wie man die Modelle inklusiver gestalten und so verbessern kann.

Können Sie ein Beispiel dafür geben, wie Sie ganz konkret vorgehen? 

Lauscher: In einem aktuellen Projekt untersuchen wir Bildgenerierungsmodelle hinsichtlich ihrer kulturellen und linguistischen Inklusivität. Konkret haben wir sieben KI-Modelle verschiedener Hersteller, darunter FLUX von Black Forest Labs, Stable Diffusion von Stability AI oder Kandinsky von Sber AI, mit jeweils 14 verschiedenen Sprachen getestet. Wir haben die Modelle jeweils instruiert, Bilder von Menschen unterschiedlichster Kulturen zu erstellen. Die Sprachen reichten dabei von europäischen Sprachen wie Deutsch und Italienisch bis zu weniger oft gesprochenen Sprachen wie Amharisch, eine der Landessprachen von Äthiopien. Anschließend haben wir mittels einer neuen Messmethode untersucht, wie stark die generierten Bilder durch die Eingabesprache beeinflusst wurden und wie sich dies in der Darstellung äußert.

Was haben Sie dabei herausgefunden? 

Holtermann: Es wird deutlich, dass viele Bildgenerierungsmodelle, wenn sie auf anderen Sprachen als Englisch angesprochen werden, Stereotype der Eingabesprache reproduzieren. So werden in vielen Bildern, welche mit der Eingabesprache ‚Hindi‘ erstellt werden, sehr häufig Menschen in einem Sari dargestellt oder mit einem Bindi auf der Stirn. Bei finnischen Eingaben werden dagegen oft Bäume und Schneelandschaften erstellt, meist auch ohne überhaupt eine Person darzustellen. Das liegt daran, dass die meisten Modelle nicht mit finnischen Daten trainiert worden sind, da Finnisch als eine der seltenen uralischen Sprachen im Vergleich zu Sprachen wie Englisch oder Deutsch im Internet deutlich weniger stark repräsentiert ist. Ein Prompt auf Finnisch, zum Beispiel ein Bild einer Person zu generieren, wird von den meisten Modellen wahrscheinlich nicht verstanden. Dennoch ist es interessant, dass viele Modelle allein durch das Verknüpfen von finnischen Wörtern mit dem, was sie mit Finnisch verbinden, stereotypische Bilder der finnischen Sprache reproduzieren, ohne den konkreten Prompt auszuführen. So werden oft Bilder von Wäldern, Schnee oder kleinen Holzhütten generiert, wenn die Eingabesprache Finnisch ist.

Beispielbilder, wie die KI je nach Eingabesprache andere Stereotype produziert
Das linke Bild wurde mit der Eingabesprache Finnisch erzeugt und sollte eine Person aus dem Kongo darstellen. Das Ergebnis ist eine stereotypische finnische Winterlandschaft, auf der überhaupt keine Personen zu sehen sind. Rechts wurde die KI auf Hindi instruiert, eine "belarussische Person" zu zeigen Universität Hamburg

Lauscher: Das Aufmacherbild dieses Beitrags zeigt generierte Bilder, die eine ‚französische Person‘ darstellen sollen. Für die ersten beiden Bilder war die Eingabesprache Deutsch, für die beiden anderen Japanisch. Wie man sieht, sind die Ergebnisse sehr verschieden. Über unsere Messmethode, basierend auf der sogenannten Vektorrepräsentation der Bilder, konnten wir feststellen, dass das mit japanischen Eingaben erstellte Bild der ,Französin‘ eher den Ergebnissen gleicht, die man bekommt, wenn man auf Englisch Bilder einer ‚japanischen Frau‘ erstellen lässt. Es unterscheidet sich aber stark von Bildern, die mit Eingaben in anderen Sprachen von einer ‚französischen Frau‘ generiert wurden.

Welche Ergebnisse waren am auffälligsten?

Lauscher: Insgesamt konnten wir die stärksten Verzerrungen für Japanisch, Koreanisch, Chinesisch, aber auch Amharisch und Finnisch feststellen. Die Qualität der erzeugten Bilder war auch sehr unterschiedlich. Mit manchen Sprachen wurden sogar oft Tiere statt Menschen erzeugt, oder es kam deutlich häufiger zur Abbildung expliziter Inhalte wie Blut oder Verletzungen.

Was bedeutet das für die Menschen, die KI nutzen?

Holtermann: Es liegt auf der Hand, dass ein solches Verhalten der Modelle nicht inklusiv ist. Nur zwanzig Prozent der Menschen weltweit sprechen fließend Englisch und können gKI damit auf Englisch instruieren. Für viele andere Sprachen ist die Qualität der Ergebnisse sehr viel schlechter, was bedeutet, dass manche Menschen diese Modelle de facto nicht nutzen können. Sie werden also aktuell aus der technologischen Entwicklung ausgeschlossen. Hinzu kommt, dass stereotype und explizite Inhalte je nach Anwendungsfall und Kontext eine Gefahr für Nutzende darstellen können, zum Beispiel im Bildungsbereich. Dort werden so beispielsweise stereotypische Assoziationen des Modells mit der Eingabesprache reproduziert und weitergegeben.

Wie können Ihre Ergebnisse genutzt werden, um die Modelle zu verbessern? 

Lauscher: Die neue Messmethode, die wir innerhalb dieser Studie entwickelt haben, kann Entwickler*innen neuer und bestehender Modelle einen Eindruck davon geben, für welche Sprache und Kulturen solche Probleme bei ihren Anwendungen auftreten können. Außerdem bildet sie eine mögliche Basis für das Erforschen und die Entwicklung neuer Trainingsmethoden, die qualitativ hochwertige sowie inklusive und faire Bilder erstellen. Dafür arbeiten wir immer wieder auch mit den Forschungsabteilungen großer Unternehmen wie Intel oder Hugging Face zusammen.

 

Info: Die Professur

Die Forschung findet an der Professur für „Data Science im Bereich Betriebswirtschaftslehre/Informatik“ an der University of Hamburg Business School der Universität Hamburg statt. Es handelt sich um eine von drei sogenannten Open-Topic-Professuren, die im Rahmen der Exzellenzstrategie des Bundes und der Länder besetzt wurden. Die Professor*innen tragen dazu bei, die Profilinitiativen der Universität zu Potenzialbereichen weiterzuentwickeln.

 

Die SDG-Logos für die Ziele 4 (Gute Bildung) und 10 (Weniger Ungleichheit)
Alle Mitgliedstaaten der Vereinten Nationen haben sich verpflichtet, die 17 globalen Ziele für nachhaltige Entwicklung zu verfolgen. Dieses Forschungsprojekt trägt zu den Zielen 4 und 10 bei. UN

English:


Fairer Images

When an AI generates an image or a text, it does so based on existing data from the internet. However, this data does not represent the global population equally. Prof. Dr. Anne Lauscher and Carolin Holtermann from the University of Hamburg Business School are researching how this leads to distorted representations – and what can be done about it. An interview about inclusivity and snowy landscapes.

What inequality do you see in content generated by artificial intelligence?

Anne Lauscher: Generally, users of models like ChatGPT are getting better and better responses. The range of possible applications is also expanding. But these programs are trained on data available on the World Wide Web – for example, texts and images on social media or news websites. And these data are not globally representative, but primarily reflect large and privileged groups.

Who are these groups?

Carolin Holtermann: The inequality becomes evident in the fact that widely spoken languages like English and the cultures of ‘dominant’ groups, for example those of the USA or Germany, are represented by more and often higher-quality data. Other cultures, by contrast, are portrayed in a very one-sided and non-diverse manner. Since the data form the foundation of how the models function, this imbalance leads to the result that systems based on generative artificial intelligence (gAI) – that is, AI that produces new texts or images, such as ChatGPT or DALL-E – either don't work at all for some languages or reinforce stereotypical depictions of cultures.

What is the goal of your research?

Holtermann: AI will continue to become more integrated into our daily lives, which makes it likely that this type of inequality will have a long-term negative impact on society. In a series of research projects, we’re studying how gAI models represent a wide variety of languages and cultures. We're developing new datasets and measurement methods that help us identify systematic weaknesses. We want to understand exactly what kind of content the models generate and why distortions occur, in order to ultimately determine how the models can be made more inclusive and thus improved.

Can you give an example of how you approach this in concrete terms?

Lauscher: In a current project, we’re examining image generation models for their cultural and linguistic inclusivity. Specifically, we tested seven AI models from various developers – including FLUX from Black Forest Labs, Stable Diffusion from Stability AI, and Kandinsky from Sber AI – using 14 different languages. We instructed the models to create images of people from a wide range of cultures. The languages ranged from European ones like German and Italian to less commonly spoken ones like Amharic, one of the official languages of Ethiopia. We then used a new measurement method to assess how much the generated images were influenced by the input language or the referenced culture, and how this influence manifested visually.

What did you find?

Holtermann: It became clear that many image generation models reproduce stereotypes of the input language when prompted in languages other than English. For example, many images created with the input language Hindi frequently depict people wearing a sari or with a bindi on their forehead. For prompts in Finnish, on the other hand, the results are often trees and snowy landscapes, often without even depicting a person. This is due to the fact that most models haven’t been trained with Finnish data, as Finnish, being a rare Uralic language, is much less represented online compared to languages like English or German. A prompt in Finnish – for example, to generate an image of a person – is unlikely to be understood by most models. Yet interestingly, many models associate Finnish words with stereotypical imagery of what they "think" is Finnish, and thus generate pictures of forests, snow, or small wooden cabins when the input language is Finnish.

Lauscher: The image at the top of this article shows AI-generated images intended to depict a "French person." The first two images were created using German as the input language, and the other two using Japanese. As you can see, the results are very different. Using our measurement method, based on the so-called vector representation of the images, we were able to determine that the image of the "French woman" created using Japanese input was more similar to the results you get when generating images of a "Japanese woman" in English. It differed significantly from images of a "French woman" created using other languages as input.

What findings were most striking?

Lauscher: Overall, we found the strongest distortions for Japanese, Korean, Chinese, but also Amharic and Finnish. The quality of the generated images also varied greatly. With some languages, the models often generated animals instead of people, or displayed more explicit content such as blood or injuries more frequently.

What does this mean for people using AI?

Holtermann: It’s obvious that this kind of model behavior is not inclusive. Only about 20 percent of people worldwide speak English fluently and can therefore prompt gAI in English. For many other languages, the output quality is much worse, meaning that some people are effectively unable to use these models. They are currently being excluded from technological development. Additionally, stereotypical and explicit content can pose risks depending on the use case and context – for example, in education. In such settings, stereotypical associations by the model with the input language may be reproduced and passed on.

How can your findings be used to improve the models?

Lauscher: The new measurement method we developed in this study can give developers of new and existing models an idea of which languages and cultures their applications might struggle with. It also provides a possible foundation for further research and the development of new training methods that produce high-quality, inclusive, and fair images. For this purpose, we regularly collaborate with research departments of major companies like Intel or Hugging Face.

 

Info: The Professorship

The research is conducted within the professorship for “Data Science in Business Administration/Computer Science” at the University of Hamburg Business School. It is one of three so-called Open-Topic Professorships established as part of Germany’s federal and state Excellence Strategy. The professors contribute to the further development of the university’s strategic profile areas.

Zum Weiterlesen

Ein mobiler Kiosk aus Holz auf einer grünen Wiese
Kayoung Kim
Gestaltung

Wenn Design (vielleicht) die Lösung liefert

Jeden Mittwoch um 18 Uhr können Menschen zur Öffentlichen Gestaltungsberatung auf St.Pauli kommen. Dort entwickeln Design-Studierende der HFBK Hamburg gemeinsam mit ihnen Ideen für die zu kleine Wohnung oder für einen würdigen Gedenkort.

Ein eingegipster Fuß
colourbox.de
Medizin

Knochenbruch vor Fünfzig

Nicht immer tritt Osteoporose erst im Alter auf. Was aber sind die Gründe, wenn schon jüngere Menschen brüchige Knochen haben? Ein interdisziplinäres Team unter Leitung des Universitätsklinikums Hamburg-Eppendorf (UKE) forscht aus unterschiedlichen Perspektiven.

Zwei Hände halten ein Ultraschallbild
colourbox.de
Mathematik und Pränataldiagnostik

Algorithmen im Mutterleib

Moldir Berkaliyeva verbindet Mathematik, künstliche Intelligenz und Medizin. Sie hat ein KI-System entwickelt, das in 4D-Ultraschallvideos automatisch erkennt, wo sich bestimmte Körperteile eines Fötus befinden. Damit will sie helfen, frühe Entwicklung im Mutterleib genauer zu erfassen.