Das Ende der Suche, der Beginn der Forschung Die ersten spezialisierten AI Agents sind hier
Am Wochenende erreichte uns leise ein Hinweis auf die Zukunft. Seit langem diskutiere ich zwei parallele Revolutionen in der KI-Entwicklung: den Aufstieg autonomer Agents und das Aufkommen leistungsstarker Reasoners seit der Einführung von OpenAIs o1. Diese beiden Entwicklungsstränge haben sich nun endlich zu etwas wirklich Beeindruckendem vereint - KI-Systeme, die Forschung mit der Tiefe und Nuance menschlicher Experten betreiben können, allerdings mit Maschinengeschwindigkeit. OpenAIs Deep Research demonstriert diese Konvergenz und gibt uns einen Einblick in die Zukunft. Aber um zu verstehen, warum das wichtig ist, müssen wir bei den Grundbausteinen beginnen: Reasoners und Agents.
Reasoners
In den letzten Jahren funktionierte jeder Chatbot nach einem einfachen Prinzip: Man gab etwas ein, und er begann sofort, Wort für Wort (oder technisch gesehen Token für Token) zu antworten. Die KI konnte nur während der Produktion dieser Tokens "denken". Deshalb entwickelten Forscher Tricks zur Verbesserung des Denkvermögens - wie die Anweisung "denke Schritt für Schritt, bevor du antwortest." Dieser Ansatz, das sogenannte Chain-of-Thought Prompting, verbesserte die KI-Leistung deutlich.
Reasoners automatisieren diesen Prozess im Wesentlichen, indem sie "Denk-Tokens" produzieren, bevor sie tatsächlich eine Antwort geben. Dies war in mindestens zwei wichtigen Aspekten ein Durchbruch:
- Die KI-Unternehmen können nun KIs beibringen, anhand von Beispielen sehr guter Problemlöser zu denken. Dieser Trainingsprozess kann eine qualitativ hochwertigere Gedankenkette erzeugen als wir durch Prompting. Das bedeutet, dass Reasoners in der Lage sind, deutlich schwierigere Probleme zu lösen, besonders in Bereichen wie Mathematik oder Logik, wo ältere Chatbots scheiterten.
- Die Antworten der Reasoners werden besser, je länger sie "nachdenken" (auch wenn die Verbesserungsrate mit der Zeit abnimmt). Dies ist bedeutsam, weil bisher der einzige Weg zur Verbesserung von KIs darin bestand, immer größere Modelle zu trainieren - ein sehr kostspieliger und datenintensiver Prozess. Reasoning-Modelle zeigen, dass man KIs verbessern kann, indem man sie einfach mehr Denk-Tokens produzieren lässt. Dabei wird Rechenleistung zum Zeitpunkt der Fragenbeantwortung (Inference-Time Compute) genutzt, statt während des Modelltrainings.

Da Reasoners noch so neu sind, erweitern sich ihre Fähigkeiten rasant. In nur wenigen Monaten haben wir dramatische Verbesserungen von OpenAIs o1-Familie zu ihren neuen o3-Modellen gesehen. Währenddessen hat Chinas DeepSeek r1 innovative Wege gefunden, die Leistung zu steigern und gleichzeitig Kosten zu senken, und Google hat ihren ersten Reasoner auf den Markt gebracht. Dies ist erst der Anfang - wir werden bald mehr dieser leistungsstarken Systeme sehen.
Agents
Während Experten über die genaue Definition eines AI Agents diskutieren, können wir ihn einfach als "eine KI, die ein Ziel erhält und dieses Ziel autonom verfolgen kann" verstehen. Derzeit gibt es einen Wettlauf zwischen den KI-Laboren um die Entwicklung von General-Purpose Agents - Systeme, die jede ihnen gestellte Aufgabe bewältigen können. Ich habe über einige frühe Beispiele wie Devin und Claude with Computer Use geschrieben, aber OpenAI hat gerade Operator veröffentlicht, vielleicht den bisher ausgefeiltesten General-Purpose Agent.
Das Video unten, auf das 16-fache beschleunigt, zeigt sowohl das Potenzial als auch die Schwächen von General-Purpose Agents. Ich gebe Operator eine Aufgabe: meinen neuesten Substack-Beitrag auf OneUsefulThing zu lesen und dann zu Google ImageFX zu gehen, ein passendes Bild zu erstellen, es herunterzuladen und mir zum Posten zu geben. Was sich dann entfaltet, ist aufschlussreich. Zunächst bewegt sich Operator mit beeindruckender Präzision - findet meine Website, liest den Beitrag, navigiert zu ImageFX (pausiert kurz, damit ich mich einloggen kann) und erstellt das Bild. Dann beginnen die Probleme, und zwar zweifach: Operator wird nicht nur durch OpenAIs Sicherheitsbeschränkungen beim Herunterladen von Dateien blockiert, sondern beginnt auch mit der Aufgabe selbst zu kämpfen. Der Agent versucht methodisch jeden erdenklichen Workaround: Kopieren in die Zwischenablage, Generieren direkter Links, sogar das Eintauchen in den Quellcode der Website. Jeder Versuch scheitert - einige aufgrund der Browser-Beschränkungen von OpenAI, andere aufgrund der eigenen Verwirrung des Agents darüber, wie die Aufgabe tatsächlich zu lösen ist. Die Beobachtung dieser entschlossenen, aber letztlich gescheiterten Problemlösungsschleife offenbart sowohl die aktuellen Grenzen dieser Systeme als auch wirft Fragen darüber auf, wie Agents sich schließlich verhalten werden, wenn sie in der realen Welt auf Hindernisse stoßen.
Die Probleme von Operator zeigen die aktuellen Grenzen von General-Purpose Agents auf, aber das bedeutet nicht, dass Agents nutzlos sind. Es scheint, dass wirtschaftlich wertvolle Narrow Agents, die sich auf spezifische Aufgaben konzentrieren, bereits möglich sind. Diese Spezialisten, angetrieben durch aktuelle LLM-Technologie, können innerhalb ihrer Domänen bemerkenswerte Ergebnisse erzielen. Ein Paradebeispiel: OpenAIs neues Deep Research, das zeigt, wie leistungsfähig ein fokussierter AI Agent sein kann.
Deep Research
OpenAIs Deep Research (nicht zu verwechseln mit Googles Deep Research, dazu später mehr) ist im Wesentlichen ein spezialisierter Research Agent, aufgebaut auf OpenAIs noch nicht veröffentlichtem o3 Reasoner, und mit Zugang zu speziellen Tools und Fähigkeiten. Es ist eine der beeindruckendsten KI-Anwendungen, die ich in letzter Zeit gesehen habe. Um zu verstehen warum, geben wir ihm ein Thema. Ich wähle bewusst ein hochgradig technisches und kontroverses Thema aus meinem Forschungsbereich: Wann sollten Startups aufhören zu explorieren und beginnen zu skalieren? Ich möchte, dass die akademische Forschung zu diesem Thema untersucht wird, mit Fokus auf qualitativ hochwertige Papers und RCTs, einschließlich der Behandlung problematischer Definitionen und Konflikte zwischen allgemeiner Weisheit und der Forschung, aufbereitet für eine Diskussion auf Graduiertenniveau.
Die KI stellt einige kluge Fragen, und ich präzisiere meine Anforderungen. Dann macht sich o3 an die Arbeit. Man kann seinen Fortschritt und sein "Denken" während des Prozesses beobachten. Es lohnt sich wirklich, einen Moment innezuhalten und sich ein paar Beispiele dieses Prozesses anzusehen. Man kann erkennen, dass die KI tatsächlich wie ein Forscher arbeitet, Erkenntnisse erkundet, tiefer in "interessante" Dinge eintaucht und Probleme löst (wie das Finden alternativer Wege, um Zugang zu kostenpflichtigen Artikeln zu bekommen). Dies geht fünf Minuten so weiter.
Prozesseinblick: Die KI demonstriert echtes "Forschungsverhalten" - sie evaluiert Quellen, verfolgt interessante Spuren und entwickelt kreative Lösungen für Zugangsbeschränkungen.
Am Ende erhalte ich einen 13-seitigen, 3.778 Wörter umfassenden Entwurf mit sechs Zitaten und einigen zusätzlichen Referenzen. Er ist, ehrlich gesagt, sehr gut, auch wenn ich mir ein paar mehr Quellen gewünscht hätte. Er verwebt schwierige und widersprüchliche Konzepte, findet einige neuartige Verbindungen, die ich nicht erwartet hätte, zitiert ausschließlich hochwertige Quellen und ist voller präziser Zitate. Ich kann nicht garantieren, dass alles korrekt ist (obwohl ich keine Fehler gesehen habe), aber ich wäre zufrieden, etwas Ähnliches von einem beginnenden Doktoranden zu sehen.
Die Qualität der Zitate markiert ebenfalls einen echten Fortschritt. Dies sind keine üblichen KI-Halluzinationen oder falsch zitierten Papers - es sind legitime, hochwertige akademische Quellen, einschließlich grundlegender Arbeiten meiner Kollegen Saerom (Ronnie) Lee und Daniel Kim. Wenn ich auf die Links klicke, führen sie nicht nur zu den Papers, sondern oft direkt zu den relevanten hervorgehobenen Zitaten. Während es immer noch Einschränkungen gibt - die KI kann nur auf das zugreifen, was sie in wenigen Minuten finden und lesen kann, und kostenpflichtige Artikel bleiben außer Reichweite - stellt dies eine fundamentale Veränderung dar, wie KI mit akademischer Literatur umgehen kann.
Der Vergleich mit Google
Es lohnt sich, dies mit Googles Produkt zu vergleichen, das letzten Monat ebenfalls unter dem Namen Deep Research (seufz) eingeführt wurde. Google liefert zwar deutlich mehr Zitationen, aber diese sind oft eine Mischung aus Websites unterschiedlicher Qualität (der fehlende Zugang zu kostenpflichtigen Informationen und Büchern beeinträchtigt alle diese Agents). Es scheint, dass Dokumente alle auf einmal gesammelt werden, im Gegensatz zur neugiergetriebenen Entdeckung von OpenAIs Research Agent. Und da dies (bisher) vom nicht-reasoningfähigen, älteren Gemini 1.5-Modell angetrieben wird, ist die Gesamtzusammenfassung viel oberflächlicher, wenn auch solide und offenbar fehlerfrei. Es ist wie ein sehr gutes Undergraduate-Produkt.
Die Teile fügen sich zusammen
Man kann beginnen zu sehen, wie die Teile, die die KI-Labore entwickeln, nicht nur zusammenpassen - sie spielen sich gegenseitig in die Hände. Die Reasoners liefern die intellektuelle Leistungsfähigkeit, während die Agent-Systeme die Fähigkeit zum Handeln bereitstellen. Im Moment befinden wir uns in der Ära der Narrow Agents wie Deep Research, weil selbst unsere besten Reasoners noch nicht bereit für allgemeine Autonomie sind. Aber "narrow" ist nicht limitierend - diese Systeme sind bereits in der Lage, Arbeit zu leisten, die früher Teams von hochbezahlten Experten oder spezialisierte Beratungen erforderte.
Diese Experten und Beratungen werden nicht verschwinden - wenn überhaupt, wird ihr Urteilsvermögen noch wichtiger, da sie sich von der Ausführung der Arbeit zur Orchestrierung und Validierung der Arbeit von KI-Systemen entwickeln. Aber die Labs glauben, dass dies erst der Anfang ist. Sie setzen darauf, dass bessere Modelle den Code der General-Purpose Agents knacken werden, die sich über enge Aufgaben hinaus zu autonomen digitalen Arbeitern entwickeln, die im Web navigieren, Informationen über alle Modalitäten hinweg verarbeiten und bedeutungsvolle Aktionen in der Welt ausführen können. Operator zeigt, dass wir noch nicht so weit sind, aber Deep Research deutet an, dass wir auf dem Weg dorthin sein könnten.