DeepSeek R1: Neue KI steht unter Verdacht unerlaubter Datennutzung

2 Minuten

DeepSeek, ein aufstrebendes KI-Startup, hat vor Kurzem sein neuestes künstliche Intelligenz-Modell R1 vorgestellt. Das Modell beeindruckt durch herausragende Leistungen im mathematischen Denken sowie bei Codierungsaufgaben. Allerdings wurden die Quellen der Trainingsdaten für DeepSeek R1 bislang nicht veröffentlicht. Dies hat zu Spekulationen unter KI-Forschenden geführt, dass Teile der Daten eventuell aus Googles Gemini-Modellen stammen könnten.

Vorwürfe zur Datennutzung

Sam Peach, ein Entwickler aus Melbourne, der sich auf Tests zur Bewertung der „emotionalen Intelligenz“ von KI-Modellen spezialisiert hat, behauptet, Beweise zu besitzen, dass DeepSeeks R1-0528-Modell bestimmte Wortwahl und Strukturen bevorzugt, wie sie typisch für Gemini 2.5 Pro sind. In einem Beitrag auf der Social-Media-Plattform X erklärte Peach, dass R1-0528 sprachliche Muster aufweist, die auch bei Gemini 2.5 Pro beobachtet werden.

Obwohl Peachs Beobachtungen allein keinen eindeutigen Nachweis darstellen, verweist ein weiterer Entwickler unter dem Pseudonym SpeechMap, der „Redefreiheit“ in KI-Modellen untersucht, auf große Ähnlichkeiten in den Denk- und Verarbeitungsprozessen von DeepSeek und den Gemini-Modellen.

Hintergrund und frühere Vorwürfe

Dies ist nicht das erste Mal, dass DeepSeek bezüglich seiner Trainingsmethoden in der Kritik steht. In der Vergangenheit gab es Berichte, dass sich das DeepSeek V3-Modell häufig selbst als ChatGPT identifizierte. Dies deutete auf die mögliche Einbindung von ChatGPT-Konversationsprotokollen in die Trainingsdaten hin. OpenAI gab zudem an, Hinweise darauf zu haben, dass DeepSeek die Methode des „Distillings“ nutzt. Bei dieser Technik werden Daten leistungsfähiger Modelle extrahiert, um kleinere Modelle effektiver zu trainieren.

Herausforderungen beim Training von KI-Modellen

In der KI-Community ist bekannt, dass viele Modelle sich versehentlich selbst falsch identifizieren oder ähnliche Sprache verwenden, da KI-generierte Inhalte im Internet stark verbreitet sind und häufig als Trainingsdatenquelle dienen. Dadurch kommt es zwangsläufig zu Überschneidungen im Sprachgebrauch und Verhalten verschiedener KI-Modelle. Dies erschwert es, unabhängig entwickelte Modelle eindeutig von solchen zu unterscheiden, die von bestehenden KIs beeinflusst wurden.

Fazit

Die Diskussionen um DeepSeeks R1-Modell verdeutlichen die Vielschichtigkeit und ethischen Herausforderungen im Bereich KI-Training. Während die Entwicklung von künstlicher Intelligenz voranschreitet, sind Transparenz bei Datensätzen und Trainingsmethoden entscheidend, um Vertrauen und Integrität innerhalb der KI-Gemeinschaft zu erhalten. Eine anhaltende Überprüfung und ein offener Dialog bleiben nötig, um diese Fragen anzugehen und die verantwortungsvolle Entwicklung neuer KI-Technologien sicherzustellen.

Quelle: smarti

Kommentare

Kommentar hinterlassen

DeepSeek R1: Neue KI steht unter Verdacht unerlaubter Datennutzung

Vorwürfe zur Datennutzung

Hintergrund und frühere Vorwürfe

Herausforderungen beim Training von KI-Modellen

Fazit

Kommentare

Ähnliche Beiträge

Jony Ive prägt Rivians erstes E-Bike: Verschmelzung von Vision und Innovation

Sniper Elite 5: Mobile-Premiere für iOS angekündigt

DeepSeek präsentiert DeepSeek-R1-0528: Fortschrittliche KI mit überlegenen logischen Fähigkeiten

Apple enthüllt KI-Innovationen auf der WWDC: Neue Maßstäbe bei Übersetzungsfunktionen

Drinkbox Studios stellt mit 'Blighted' das bisher ambitionierteste Action-RPG vor

Jurassic World Evolution 3: Innovativer Dinosaurier-Park-Manager erscheint im Oktober

Atomic Heart 2 und The CUBE offiziell auf dem Summer Game Fest vorgestellt

The Cube: Ein innovatives MMORPG-Shooter-Erlebnis von Mundfish

RGG Studio und Sega präsentieren 'Stranger Than Heaven'