9 Minuten
Seit dem Aufkommen von ChatGPT Ende 2022 nutzen Millionen Menschen große Sprachmodelle (LLMs), um Fragen zu beantworten, Informationen zu synthetisieren und Aufgaben zu beschleunigen, die früher langwierige Recherchen erforderten. Eine neue Reihe kontrollierter Experimente legt nahe, dass diese Bequemlichkeit einen Preis haben kann: Personen, die sich auf LLM-Zusammenfassungen verlassen, entwickeln tendenziell weniger tiefes Wissen als diejenigen, die traditionell über Websuche recherchieren.
Wie die Experimente durchgeführt wurden und was sie ergaben
Die Forscher Shiri Melumad und Jin Ho Yun, beide Professoren für Marketing, führten sieben kontrollierte Studien mit mehr als 10.000 Teilnehmenden durch, um zu untersuchen, wie sich Lernen unterscheidet, wenn Menschen ein LLM wie ChatGPT gegenüber einer standardmäßigen Google-Suche verwenden. Die Teilnehmenden sollten sich Alltagswissen aneignen, zum Beispiel wie man einen Gemüsegarten anlegt, und wurden zufällig einer von zwei Bedingungen zugewiesen: Nutzung eines LLM oder traditionelle Navigation durch Weblinks auf die »altmodische« Weise. Es gab keine zeitlichen Begrenzungen für die Recherche und keine Grenze für die Anzahl der Prompting-Versuche mit dem LLM.
Nach der Recherche verfassten die Teilnehmenden Ratschläge an eine Freundin oder einen Freund basierend auf dem, was sie gelernt hatten. Über alle Studien hinweg zeigte sich ein klares Muster: Personen, die LLM-Zusammenfassungen nutzten, gaben häufiger an, weniger gelernt zu haben, investierten beim Verfassen ihrer Ratschläge weniger Aufwand und produzierten kürzere, allgemeinere sowie faktenärmere Texte als Teilnehmende, die selbst Webseiten durchforstet hatten.
Unabhängige Leserinnen und Leser, die nicht wussten, mit welchem Werkzeug die Texte entstanden waren, bewerteten die aus LLMs stammenden Empfehlungen konsistent als weniger informativ und weniger hilfreich und gaben an, diese seltener befolgen zu wollen. Die Befunde waren robust über verschiedene Themenbereiche, Stichproben und demografische Gruppen hinweg, was auf eine generalisierbare Wirkung von Zusammenfassungs-Workflows hinweist.

Die »altmodische« Google-Recherche verlangt ein breiteres Lesen und kritisches Abwägen.
Warum synthetisierte Antworten tiefes Lernen schwächen können
Kern dieser Ergebnisse ist ein gut belegtes Prinzip aus der Lernforschung: Aktive Auseinandersetzung fördert robusteres und besser übertragbares Wissen. Traditionelle Websuchen zwingen Lernende, unterschiedliche Quellen zu lesen, deren Glaubwürdigkeit zu prüfen, widersprüchliche Perspektiven zu interpretieren und diese Elemente in eine eigene mentale Repräsentation zu überführen. Diese anstrengende Verarbeitung schafft so genannte »desirable difficulties« – produktive Schwierigkeiten, die langfristiges Behalten und die Fähigkeit, Wissen flexibel anzuwenden, unterstützen.
Im Gegensatz dazu extrahieren LLMs viele Quellen in eine polierte Zusammenfassung und übernehmen für den Benutzer sowohl Interpretation als auch Synthese. Die Interaktion wird dadurch passiver: Frage stellen, kohärente Antwort erhalten, weitergehen. Die Bequemlichkeit ist unbestreitbar, doch scheint der Kompromiss in einer weniger tiefen Kodierung von Fakten und in weniger mentalen Verknüpfungen zu bestehen, die notwendig sind, um Wissen später kreativ oder in neuen Kontexten anzuwenden.
Die Forschungsteams prüften alternative Erklärungen. Eine Hypothese war, dass LLMs die Nutzer lediglich einer engeren Faktenauswahl aussetzen und dadurch weniger vielfältige Ergebnisse produzieren. Um das zu kontrollieren, präsentierten manche Experimente beiden Gruppen identische Fakteninhalte. In weiteren Studien wurde die Plattform konstant gehalten – etwa der Vergleich zwischen Googles Standard-Suchergebnissen und einer KI-Übersichts-Funktion – und dennoch zeigten sich ähnliche Effekte: synthetisierte Summaries führten zu oberflächlicherem Verständnis als das aktive Kompilieren von Informationen aus Weblinks.

Für ein tieferes Verständnis sind LLMs nicht immer die beste Wahl.
Praktische Implikationen für Lernende, Lehrende und Fachkräfte
Diese Befunde bedeuten nicht, dass LLMs verboten werden sollten. Große Sprachmodelle sind mächtige Produktivitätswerkzeuge: schnelle Erklärungen, Hilfe beim Programmieren, Entwurf von Texten und Brainstorming gehören zu den offensichtlichen Anwendungsfällen. Die zentrale Botschaft ist Nuancierung – Lernende und Berufstätige sollten strategisch entscheiden, wann ein KI-Co-Pilot hilfreich ist und wann mühsamere Recherche von Vorteil ist.
Für routinemäßige Faktenabfragen oder wenn Tempo gefragt ist, liefert ein LLM einen nützlichen Erstüberblick. Wenn das Ziel jedoch darin besteht, tiefes, generalisierbares Wissen aufzubauen – ein Thema so zu beherrschen, dass man es lehren, fundiert diskutieren oder in neuen Situationen anwenden kann – ist das ausschließliche Verlassen auf synthetisierte Antworten wahrscheinlich kontraproduktiv.
Die Forschenden untersuchten auch, ob hybride Ansätze helfen könnten. In einem Experiment interagierten Teilnehmende mit einem spezialisierten GPT, das in Echtzeit Weblinks neben seiner Zusammenfassung anbot. Selbst wenn Links verfügbar waren, neigten Nutzer nach Erhalt der geschliffenen Synthese dazu, die Originalquellen nicht weiter zu erkunden – und ihr Wissen blieb weniger tief als das derjenigen, die von Anfang an aktiv durch Links navigiert hatten. Dieses Verhalten verweist auf psychologische Effekte wie kognitive Bequemlichkeit und Vertrauen in die Autorität der KI-Ausgabe.
Aus Sicht von Bildung, Personalentwicklung und professioneller Praxis bedeutet das konkret: Setzen Sie LLMs als Einstieg, Ideengeber oder zum Strukturieren von Arbeitsschritten ein, aber bauen Sie zusätzlich Aufgaben ein, die aktive Verarbeitung, Quellenkritik und eigenes Formulieren erzwingen. Beispiele: verpflichtende Quellenangaben, Retrieval-Aufgaben, Peer-Teaching oder projektbasierte Anwendungen, in denen Lernende Ergebnisse transferieren müssen.
Expertinnen- und Experteneinschätzung
Dr. Elena Morales, Kognitionswissenschaftlerin mit Schwerpunkt Lernen und Technologie, kommentiert: »Automatische Zusammenfassungen sparen Zeit, können aber die geistige Arbeit unterbrechen, die für dauerhaftes Lernen nötig ist. Die Kunst für Lehrende und Entwickler von Tools besteht darin, gesunde Reibung einzubauen – strukturierte Prompts, Abrufübungen oder verpflichtende Auseinandersetzung mit Primärquellen –, die Nutzende dazu anregen, aktiv zu denken, statt eine Antwort passiv zu übernehmen.«
Solche Perspektiven beruhen auf etablierten Theorien zur kognitiven Belastung (Cognitive Load Theory), zur Retrieval-Practice-Forschung und zu Transferprinzipien in der Pädagogik. In der Praxis bedeutet das: Systeme sollten nicht nur synthetisieren, sondern Lernende dazu bringen, Informationen zu organisieren, Hypothesen zu bilden, Annahmen zu prüfen und Erklärungen in eigenen Worten zu erzeugen. Diese Aktivitäten fördern tiefere neuronale Verknüpfungen und erhöhen die Wahrscheinlichkeit, Wissen flexibel anzuwenden.
Was LLM-gestütztes Lernen verbessern könnte
Melumad und Yun schlagen ein Forschungsprogramm vor, das Design-Interventionen untersucht, die die Effizienz generativer KI bewahren, zugleich aber produktive Reibung wieder einführen. Mögliche Ansätze umfassen Werkzeuge, die Lernende auffordern, Antworten in eigenen Worten zu erklären, Abrufversuche verlangen, bevor eine Zusammenfassung angezeigt wird, oder diversifizierte Quellenlinks hervorheben und gezielte Nachfragen stellen, die Verifikation und vertiefte Erkundung fördern.
Technische Implementierungen könnten umfassen: adaptive Prompts, die das Vorwissen abfragen; integrierte Quizze zur sofortigen Überprüfung des Gelernten; Annotationstools, mit denen Nutzer Belege markieren und kritisch bewerten; sowie verzögerte Feedback-Mechanismen, die das Vergessen reduzieren und das Langzeitlernen unterstützen. Solche Features verknüpfen Erkenntnisse der Lernwissenschaft mit produkttauglichen Lösungen im Feld der künstlichen Intelligenz und ergeben konkrete Empfehlungen für Produktmanager und Pädagogen.
Gerade im Sekundar- und Hochschulbereich wären solche Schutzmechanismen besonders wichtig, weil dort grundlegende Lese-, Schreib- und Argumentationsfähigkeiten entwickelt werden müssen. Lehrkräfte könnten LLM-Ausgaben als Rohmaterial nutzen, aber Aufgabenstellungen so gestalten, dass Studierende Originalquellen zitieren, Behauptungen verteidigen oder die Zusammenfassung in ein praktisches Projekt überführen müssen. Ein weiterer Ansatz sind Peer-Review-Schleifen, in denen Lernende sich gegenseitig evaluieren, um Metakognition und kritisches Denken zu stärken.
Forschungsperspektiven und offene Fragen
Die vorliegenden Experimente liefern robuste Hinweise, lassen aber auch viele Fragen offen, die für künftige Studien relevant sind. Beispielsweise: Wie verändert sich der Effekt bei Experten im jeweiligen Themenfeld gegenüber Laien? Welche Rolle spielen individuelle Unterschiede wie Vorwissen, intrinsische Motivation oder Metakognitive Strategien? In welchem Ausmaß können Interface-Designs, Prompt-Engineering oder pädagogische Interventionen den beobachteten Effekt abschwächen?
Weitere relevante Fragestellungen betreffen die Langzeitfolgen: Führen wiederholte Interaktionen mit LLM-Zusammenfassungen über Monate oder Jahre zu kumulativen Defiziten im Faktenwissen oder in Transferfähigkeiten? Oder lassen sich durch gezielte Schulungen Nutzerinnen und Nutzer so befähigen, die Vorteile beider Ansätze kombinatorisch zu nutzen? Methodisch sind Längsschnittstudien, Feldexperimente in Bildungseinrichtungen und gemischte Methoden-Designs mit qualitativen Analysen besonders geeignet, diese Fragen zu adressieren.
Praktische Handlungsempfehlungen
Auf Basis der Ergebnisse und der einschlägigen Lernforschung lassen sich konkrete Empfehlungen ableiten, die Lehrkräfte, Lernende und Entwickler von KI-Systemen umsetzen können:
- Nutzen Sie LLMs für schnelle Orientierungen, aber verlangen Sie anschließend aktive Rekonstruktionsaufgaben (z. B. Zusammenfassen in eigenen Worten).
- Integrieren Sie Abrufübungen (retrieval practice) vor und nach der Nutzung von KI-Zusammenfassungen, um Gedächtniskonsolidierung zu fördern.
- Stellen Sie Anforderungen an Quellenprüfung: Nutzer sollten Originalquellen öffnen und bewerten, bevor eine endgültige Bewertung oder Anwendung erfolgt.
- Designen Sie KI-Interfaces, die die Exploration belohnen, etwa durch Gamification-Elemente oder durch Anreize, tiefergehende Artikel zu lesen.
- Bildungsinstitutionen sollten Lernziele explizit definieren: Ist das Ziel schnelle Informationsbeschaffung oder tiefes Verständnis mit Transferfähigkeit?
Solche Maßnahmen erhöhen die Chance, dass LLM-Technologien produktiv bleiben, ohne die Entwicklung von kritischen Lernfähigkeiten zu unterminieren. Sie verbinden technologische Effizienz mit didaktischer Sorgfalt – ein Schlüssel zum verantwortungsvollen Einsatz künstlicher Intelligenz in Bildung und Beruf.
Fazit
Der Siegeszug von ChatGPT und anderen großen Sprachmodellen markiert einen tiefgreifenden Wandel in der Wissensbeschaffung. Experimentelle Evidenz zeigt nun, dass diese Bequemlichkeit mit einer Verringerung der Tiefe des Lernens einhergehen kann. Statt diese Werkzeuge zu verteufeln, sollte der Fokus darauf liegen, sie klüger einzusetzen: das richtige Werkzeug dem jeweiligen Ziel anpassen und Lernumgebungen gestalten, die aktive Verarbeitung und kritische Auseinandersetzung fördern. Nur so lassen sich die Produktivitätsvorteile generativer KI mit nachhaltigem, tiefgreifendem Lernen verbinden.
Quelle: sciencealert
Kommentar hinterlassen