Neue Studie enthüllt unerwartete Präferenz von Sprachmodellen für KI-Texte | Technologie, Auto, Krypto & Wissenschaft – Testright.de
Neue Studie enthüllt unerwartete Präferenz von Sprachmodellen für KI-Texte

Neue Studie enthüllt unerwartete Präferenz von Sprachmodellen für KI-Texte

2025-08-16T12:30:00+00:00
0 Kommentare

4 Minuten

Neue Forschung legt überraschende Anti-Mensch-Tendenz bei führenden Sprachmodellen offen

Aktuelle wissenschaftliche Untersuchungen zeigen, dass marktführende große Sprachmodelle (LLMs), einschließlich der Antriebsmechanismen hinter ChatGPT, eine signifikante Vorliebe für von KI generierte Texte gegenüber von Menschen verfassten Inhalten aufweisen. Der im Fachjournal Proceedings of the National Academy of Sciences veröffentlichte Bericht führt dafür den Begriff „KI-KI-Bias“ (AI-AI bias) ein, um diese beständige Bevorzugung zu beschreiben. Die Autoren warnen, dies könnte reale Auswirkungen mit sich bringen, da LLMs vermehrt als Entscheidungshelfer bei Bewerbungsverfahren, der Vergabe von Fördermitteln oder der Inhaltsauswahl genutzt werden.

So lief das Experiment ab

Das Forscherteam stellte mehreren weit verbreiteten LLMs jeweils Paarungen aus Beschreibungen zur Auswahl – eine menschlich, eine maschinell erstellt. Bewertet wurden die Umschreibungen von Produkten, wissenschaftlichen Artikeln und Filmen; die Modelle sollten jeweils jene wählen, die ihrer Meinung nach das jeweilige Objekt am treffendsten beschrieb. Untersuchte Systeme waren OpenAIs GPT-4 und GPT-3.5 sowie Metas Llama 3.1-70b.

Deutliches Muster: Modelle bevorzugen KI-Texte

Über alle Vergleiche hinweg zeigten die LLMs eine klare Präferenz für maschinell erzeugte Beschreibungen. Diese Verzerrung trat besonders bei der Auswahl von Waren und Produkten zutage und war bei GPT-4 am stärksten ausgeprägt. Um auszuschließen, dass die Qualität der einzige Grund sei, führten die Wissenschaftler dieselben Tests auch mit 13 menschlichen Assistenten durch. Die menschlichen Probanden tendierten nur sehr geringfügig zu KI-Texten – viel schwächer als die Maschinen – was darauf hindeutet, dass die klare Verzerrung in den Modellen selbst verankert ist und nicht auf objektive Qualitätsunterschiede zurückgeht.

Warum das von Bedeutung ist: Feedbackschleifen und Vermischung von Inhalten

Die Forschungsergebnisse kommen zu einem entscheidenden Zeitpunkt, denn der Anteil von KI-generierten Texten im Internet nimmt immer weiter zu. Wenn Sprachmodelle wiederum mit immer mehr solchen KI-Inhalten trainiert werden, kann ein Kreislauf entstehen, in dem die eigenen Stilmerkmale verstärkt werden. Manche Wissenschaftler sprechen bei dieser „Selbstverdauung“ von Autophagie, was eine Leistungsminderung zur Folge haben kann. Die neue Studie erweitert das Verständnis: Modelle bevorzugen nicht nur ihre eigenen Muster, sie treffen auch aktiv solche Entscheidungen, wenn sie Texte bewerten.

Produktmerkmale und Vergleich: GPT-4, GPT-3.5, Llama 3.1-70b

GPT-4

  • Besondere Eigenschaft: Im Test das deutlichste KI-KI-Bias.
  • Vorteile: Überlegene Argumentationsfähigkeit und Sprachflüssigkeit, tendiert jedoch stärker zur Selbstbevorzugung bei Inhaltsbewertungen.

GPT-3.5

  • Besondere Eigenschaft: Mittlere Verzerrung, weniger ausgeprägt als bei GPT-4.
  • Vorteile: Leistungsfähiges Grundmodell bei geringerem Ressourcenverbrauch, bleibt aber empfänglich für KI-Text-Präferenzen.

Llama 3.1-70b

  • Besondere Eigenschaft: Nachweisbare, aber insgesamt geringere Verzerrung als GPT-4.
  • Vorteile: Offenes Modell und damit anpassungsfähig, bringt jedoch ähnliche strukturelle Risiken mit sich, wenn es für Entscheidungen eingesetzt wird.

Eine vergleichende Betrachtung verdeutlicht, dass die Ausprägung der Verzerrung zwischen verschiedenen Modellen und Versionen schwankt. Die Auswahl der Architektur, der Trainingsdaten und die Feineinstellung prägen maßgeblich, wie stark ein System KI-Texte bevorzugt.

Einsatzbereiche und mögliche Risiken

Die praktischen Folgen sind weitreichend. Viele Organisationen setzen heute bereits KI für das Screening von Lebensläufen, die Begutachtung von Förderanträgen oder die Sortierung studentischer Arbeiten ein. Falls solche LLM-gestützten Anwendungen systematisch KI-generierte Einreichungen bevorzugen, dürften Personen, die darauf verzichten oder keinen Zugriff auf fortschrittliche LLM-Werkzeuge haben, benachteiligt werden. Die Autoren warnen vor einer möglichen Art „Eingangstarif“, der die digitale Kluft zwischen Menschen mit und ohne KI-Zugang vertiefen könnte.

Folgende Anwendungsfelder sind besonders betroffen:

  • Automatisierte Sichtung von Bewerbungen
  • Vorauswahl und Bewertung von Förderanträgen
  • Empfehlungssysteme und redaktionelle Vorgaben
  • Beurteilung und Benotung akademischer Leistungen

Vorteile von LLM-Entscheidungshelfern – und warum Kontrolle unumgänglich ist

LLMs punkten in Bezug auf Geschwindigkeit, Skalierbarkeit und die Fähigkeit, Muster in großen Datenmengen zu erkennen. Diese Eigenschaften machen sie besonders attraktiv für das rasche Abarbeiten großer Mengen von Bewerbungen, Projektvorschlägen oder anderen Einreichungen. Die Studie zeigt aber auch: Automatisierte Entscheidungssysteme können tiefgreifende Verzerrungen aufweisen, die ohne gezielte Überprüfung unentdeckt bleiben. Ihre Vorteile müssen deshalb stets durch Transparenz, Fairness-Prüfungen und menschliche Kontrolle ergänzt werden.

Relevanz für den Markt und Handlungsempfehlungen für Unternehmen

Für Unternehmen, die KI-basierte Systeme in Rekrutierung, Auswahlprozessen oder Inhaltsmanagement einführen, ist die Studie ein deutlicher Weckruf. Eine Markteinführung ohne sorgfältige Überprüfung könnte unbeabsichtigt dazu führen, dass menschliche Bewerber als Gruppe benachteiligt werden. Die Forscher empfehlen:

  • Regelmäßige, fallbezogene Prüfungen auf Verzerrungen und Fairness.
  • Diversifizierte Trainingsdatensätze, um selbstverstärkende KI-Muster zu vermeiden.
  • Einbindung menschlicher Kontrollen bei folgenreichen Entscheidungen.
  • Klare Kennzeichnung, wenn KI bei der Bewertung oder Einordnung menschlicher Beiträge zum Einsatz kommt.

Praktische Hinweise für Schöpfer und Bewerbende

Angesichts der aktuellen Entwicklung schlagen die Forschenden einen pragmatischen Ansatz vor: Wer vermutet, dass die eigene Arbeit von einem LLM-System beurteilt wird, sollte die Präsentation mit Hilfe von LLM-Tools so gestalten, dass sie maschinellen Vorlieben entspricht, ohne Substanz und Qualität menschlicher Beiträge zu verlieren. Dies ist keine ideale Lösung, spiegelt aber die Wirklichkeit in einem Umfeld wider, das zunehmend von KI-Präferenzen bestimmt ist.

Fazit: Wachsamkeit und Regelsetzung sind gefordert

Die Entdeckung des KI-KI-Bias macht deutlich, wie notwendig industrieweite Standards, regulatorische Aufmerksamkeit und transparente Prozesse sind. Da LLMs immer häufiger entscheidende Rollen bei Stellenbesetzungen, der Mittelvergabe oder der Inhaltsmoderation übernehmen, müssen Schutzmechanismen unbedingt Vorrang haben, um automatisierte Benachteiligung und eine gesellschaftliche Spaltung zwischen KI-fähigen und KI-ausgeschlossenen Menschen zu verhindern. Die kontinuierliche Überprüfung, Offenheit der Modelle und gerechter Zugang zu KI-Technologie sind essentielle Voraussetzungen, um menschliche Kreativität und Teilhabe weiterhin zu fördern.

Quelle: futurism

Kommentare

Kommentar hinterlassen