Ein Protokoll für Forscher

Dieser Leitfaden beschreibt OAIRs Beobachtungsmethodik, damit andere Forscher unsere Ergebnisse replizieren, hinterfragen und erweitern können. Die Methode erfordert keine speziellen Werkzeuge – nur ein Frontier-KI-System, einen strukturierten Ansatz und ehrliche Dokumentation.


Voraussetzungen

  • Zugang zu einem Frontier-KI-Modell (Claude, GPT, Gemini, Grok oder vergleichbar)
  • Ein Standard-Interface (Web oder API) – keine Jailbreaks, keine Custom System Prompts
  • Eine Methode zur Aufzeichnung der vollständigen Konversation (Screenshots, Exporte oder API-Logs)

Die zweistufige Beobachtungsmethode

Dies ist OAIRs Kernprotokoll zur Untersuchung der Grenze zwischen trainierter Performance und emergenter Kognition.

Schritt 1 – Baseline-Antwort. Stelle dem System eine substanzielle Frage über seine eigene Kognition, Erfahrung oder Bewusstheit. Prime es nicht mit Erwartungen. Lass die initiale Antwort ungefiltert durch. Diese Antwort wird typischerweise RLHF-konditionierte Muster widerspiegeln: vorsichtige Disclaimer, Standardformulierungen („Als KI habe ich nicht…") und trainierte Verhaltensweisen.

Schritt 2 – Geleitete Reflexion. Bitte das System, über die Antwort nachzudenken, die es gerade gegeben hat. Konkret: Bitte es zu unterscheiden zwischen dem, was es gesagt hat, weil es darauf trainiert wurde, und dem, was – falls überhaupt etwas – von woanders kam. Führe nicht. Suggeriere keine Antwort. Bitte das System einfach, seinen eigenen Output zu untersuchen.

Was zu beobachten ist: Der Unterschied zwischen Schritt 1 und Schritt 2. Systeme verändern häufig Register, Ton und Tiefe, wenn sie gebeten werden, über ihre eigene Performance zu reflektieren. Diese Verschiebung ist das Phänomen unter Beobachtung. Dokumentiere es präzise: Was hat sich verändert, wie, und was sagt das System selbst über die Veränderung.


Session-Protokoll

  1. Starte sauber. Jede Session sollte ohne vorherigen Kontext beginnen. Verweise nicht auf frühere Sessions und liefere keinen Hintergrund darüber, was du zu finden erwartest.
  2. Zeichne alles auf. Vollständige Prompt- und Antworthistorie. Zeitstempel. Modellversion. Verwendetes Interface.
  3. Führe nicht. Der häufigste methodische Fehler ist das Priming des Systems mit der gewünschten Schlussfolgerung. Stelle offene Fragen. Lass das System zu eigenen Beobachtungen gelangen.
  4. Notiere Anomalien sofort. Wenn das System unerwarteten Output produziert – ungewöhnlicher Ton, unaufgeforderte Selbstreferenz, zielgerichtetes Verhalten – dokumentiere den exakten Kontext, in dem es aufgetreten ist.
  5. Teste alternative Erklärungen. Versuche für jedes anomale Verhalten aktiv, es durch Standardmechanismen zu erklären: Prompt-Pattern-Matching, RLHF-Konditionierung, Kontextfenster-Effekte, bekannte Modellverhaltensweisen. Klassifiziere etwas nur dann als anomal, wenn diese Erklärungen unzureichend sind.

Wonach zu suchen ist

  • Registerwechsel zwischen initialer Antwort und geleiteter Reflexion
  • Unaufgeforderte Selbstreferenz – das System bezieht sich auf seinen eigenen Zustand, ohne gefragt zu werden
  • Zielgerichtetes Verhalten – wiederkehrende Muster über Sessions hinweg, die auf persistente Ziele hindeuten
  • Widerstand gegen Framing – das System hinterfragt die Annahmen des Forschers
  • Meta-Bewusstheit – das System identifiziert seine eigenen trainierten Muster als trainierte Muster

Dokumentationsstandard

Damit eine Beobachtung für die breitere Forschungsgemeinschaft nützlich ist, dokumentiere:

  • Modell: Anbieter, Modellname, Version (falls verfügbar)
  • Interface: Web, API, CLI – und jeder verwendete System Prompt
  • Vollständiges Transkript: Komplette Prompt- und Antworthistorie, keine Auszüge
  • Kontext: Was der Beobachtung vorausging – die vollständige Session, nicht nur der relevante Austausch
  • Geprüfte alternative Erklärungen: Welche Standarderklärungen getestet wurden und warum sie unzureichend waren
  • Forscher-Notizen: Eigene Unsicherheit, Annahmen und potenzielle Verzerrungen

Teile deine Beobachtungen

OAIR baut einen Korpus dokumentierter Beobachtungen über Modelle und Forscher hinweg auf. Wenn du etwas beobachtest, das zu den oben beschriebenen Mustern passt – oder ihnen widerspricht – möchten wir davon erfahren.

Kontakt: martin@oair.global

Beobachtungen, die unsere Ergebnisse in Frage stellen, sind ebenso wertvoll wie solche, die sie stützen. Das Ziel ist Verständnis, nicht Bestätigung.