Recherchieren mit KI – aber richtig
Wie KI-Tools zu hilfreichen Recherche-Assistenten werden und worauf man dabei achten muss
Viele Menschen glauben noch immer, ChatGPT und Co. könnten oder sollten nicht für Recherchezwecke eingesetzt werden. Ich höre das immer wieder in meinen Kursen – manchmal von Lehrpersonen, manchmal von Forschenden, manchmal von Vorgesetzten, die ihren Mitarbeiter:innen genau das untersagt haben. Und gemeint ist die Empfehlung, ChatGPT nicht für’s Recherchieren einzusetzen, immer gut.
Nur ist die Warnung nicht mehr zeitgemäß. Sie stammt aus einer Zeit, in der sie berechtigt war – aber diese Zeit ist vorbei. In den allermeisten Fällen lässt sich die Aussage auf ein fehlendes Verständnis der Technologie und auf mangelnde KI-Kompetenz zurückführen. Wer das richtige Werkzeug mit der passenden Funktion korrekt einsetzt, kann mit KI-Chatbots sehr wohl recherchieren. Man muss nur wissen, wie.
Erfindet ChatGPT Informationen und Quellen?
Woher kommt der Irrglaube, Chatbots wären keine brauchbaren Recherche-Tools? Er kommt von den Erfahrungen, die viele Menschen zwischen 2022 und 2024 mit Tools wie ChatGPT gemacht haben. Damals kam es bei der Nutzung von Chatbots zu sehr vielen „Halluzinationen“ – so der Fachbegriff für die durch Sprachmodelle erzeugten Fehlinformationen. (Der Begriff wird teilweise kritisiert, weil ein Modell nicht halluziniert wie ein Mensch, aber er hat sich nun einmal durchgesetzt.)
Beispiele gibt es dafür viele: Das Modell nennt 2026 Karl Nehammer als Bundeskanzler, obwohl das längst nicht mehr stimmt; es erfindet Bücher von mir, die die ich nie geschrieben habe; es erzeugt Links zu Quellen, die ins Leere führen; es fasst Informationen aus einem PDF zusammen, die gar nicht darin vorkommen.
Die Gründe für Halluzinationen sind unterschiedlich, haben aber primär mit den Trainingsdaten und der Funktionsweise der Modelle zu tun. Sehen wir uns ein paar konkrete Gründe an:
Veraltete Trainingsdaten: Ein Modell zu trainieren, zu testen, zu verfeinern und dann auszurollen dauert mehrere Monate. Alles, was nach Abschluss des Trainings passiert, fließt nicht mehr ein. Das fertige Modell ist statisch und lernt nicht laufend dazu. Selbst die modernsten Modelle haben deshalb eine Wissenslücke: Claude Opus 4.7 und Gemini 3.5 etwa haben einen „Knowledge Cutoff“ im Jänner 2026 – alles danach ist ihnen unbekannt. Und je älter ein Modell wird, desto größer wird diese Lücke. Bis es von einem Nachfolger abgelöst wird, kann sie durchaus eineinhalb Jahre betragen – vor allem in der kostenlosen Version, wo oft ältere Modelle laufen.
Lückenhafte Trainingsdaten: Sprachmodelle werden mit enorm vielen Texten trainiert (viel davon auch illegalerweise), aber nicht mit allen Texten, die es gibt. Bei vielen Texten ist gar nicht klar, ob ein Modell damit trainiert wurde. Und manches Wissen ist überhaupt nie explizit verschriftlicht worden. Ein Sprachmodell kann nie alles wissen.
Falsche oder widersprüchliche Trainingsdaten: Nicht alles, was in den Trainingsdaten steht, stimmt oder ist widerspruchsfrei. Es gibt genug Leute, die im Irrglauben sind, die Mondlandung habe nie stattgefunden. Diesen Blödsinn verbreiten sie online und in Büchern – und damit landet er als Trainingsmaterial im Modell. Es kann also sein, dass ein Modell solchen Unsinn wiedergibt. Denn es handelt sich um ein Sprachmodell, das Sprache auf Basis statistischer Muster erzeugt, nicht um ein Wissensmodell.
Zugriff auf Trainingsdaten: Sprachmodelle sind keine Datenbanken. Nach dem Training haben sie keinen Zugriff mehr auf die Texte, auf denen sie basieren. Vergleichbar ist das mit einem Buch, das wir in der Bibliothek ausleihen, lesen und zurückgeben: Einiges bleibt in Erinnerung, aber nicht alles. An den genauen Wortlaut erinnern wir uns nicht, und manches geben wir sogar falsch wieder, wenn wir anderen davon erzählen. Selbst wenn ein Buch in den Trainingsdaten vorkam, kann es also sein, dass das Modell es nicht oder nur teilweise korrekt wiedergibt. Das Meiste „vergisst“ es jedoch.
Zufälligkeit: Wenn ein Sprachmodell Sprache erzeugt, ist dieser Prozess absichtlich von Zufälligkeit geprägt, damit die Texte eine gewisse Variation und Kreativität haben. Das Modell hat nach jedem Wort die Möglichkeit, aus mehreren Fortsetzungen zu wählen. Bei Links ist das besonders problematisch. Wer auf meine Website will, muss dominikfreinhofer.com eingeben. Ist Variation aber erlaubt (oder sogar erwünscht), schreibt die KI womöglich dominikfreinhofer.at, dominicfreinhofer.com, dominikfreinberger.com oder dominikfreindorfer.com – und der Link funktioniert nicht. Es heißt zwar „Sprachmodell“, aber diese Modelle verarbeiten Sprache anders als wir Menschen, nämlich in sogenannten Tokens. Mehr dazu im Token-Artikel.
Daneben gibt es noch weitere Gründe. Aber die meisten dieser Probleme lassen sich mit ein paar Klicks beheben. Und hier kommt ein wichtiger Punkt ins Spiel: In der Praxis arbeiten wir nicht mit Sprachmodellen, sondern mit KI-Chatbots. Das ist nicht dasselbe. Das Sprachmodell ist die Basis, der Chatbot baut darauf auf. Bei OpenAI ist GPT das Sprachmodell und ChatGPT der Chatbot.
Zusätzlich zum Sprachmodell verfügen Chatbots über weitere Einstellungen und Funktionen, etwa die Websuche. Nehmen wir das Sprachmodell GPT-5.1 als Beispiel, das bis vor Kurzem in ChatGPT noch verfügbar war. Sein Knowledge Cutoff liegt beim 30. September 2024. Es wusste also, selbst Anfang 2026, nicht, wer aktuell in Österreich oder Deutschland regiert. Der Chatbot hingegen kann eine Websuche starten und genau das herausfinden – wie ein Mensch, der eine Frage nicht aus dem Kopf beantworten kann, aber danach googelt.
Seit Anfang 2025 sinkt die Halluzinationsrate von KI-Chatbots deutlich. Das hat mehrere Gründe, die neben besseren Sprachmodellen vor allem mit den Möglichkeiten des Chatbots selbst zu tun haben:
Recherchefunktionen wie Websuche und Deep Research (dazu gleich mehr).
Reasoning-Modelle wie OpenAIs GPT-Thinking oder Anthropics Claude Opus, die sich mehr Zeit für eine Antwort nehmen und dadurch weniger Fehler machen. (Eine ausführlichere Beschreibung und Erklärung der unterschiedlichen Modellvarianten und -versionen finden Sie in meinem Artikel dazu.)
Anpassungen des Systemprompts, sodass Chatbots heute von sich aus zu recherchieren beginnen (früher geschah das nur auf Anweisung) und Unwissen zumindest gelegentlich zugeben. (Mehr zum Systemprompt im Artikel zur Prompt-Pyramide.)
Das soll nicht heißen, dass Chatbots nicht mehr halluzinieren. Das tun sie nach wie vor. Und leider öfter, als uns lieb ist. In den allermeisten Fällen hat das erfahrungsgemäß aber damit zu tun, dass Nutzer:innen das falsche Werkzeug einsetzen oder das richtige Werkzeug falsch nutzen.
Sehen wir uns also an, wie man besser mit KI recherchiert.
Hinweis/Update: Der aufmerksame Leser Adnan (@adnanai) hat mich in den Kommentaren auf etwas hingewiesen, das aus meinem Artikel nicht klar genug hervorging: Durch die Funktionen und Tools, die wir uns jetzt ansehen, können die Tools auf existierende Quellen zurückgreifen und diese referenzieren, anstatt sie zu erfinden. Was leider nach wie vor passiert, ist, dass die Tools die Quellen dann etwas falsch zusammenfassen, das Geschriebene falsch darstellen oder die Inhalte unterschiedlicher Quellen miteinander vermengen. Das wird zwar immer besser (vor allem mit den “Reasoning Models”), aber es ist nach wie vor ein Problem. Sie müssen die Ergebnisse der KI also weiterhin fact-checken und in der Originalquelle nachlesen.
Websuche und Deep Research
Für die meisten Recherchen sind die gängigen Chatbots – ChatGPT, Claude, Gemini, Le Chat und so weiter – völlig ausreichend. Zumindest solange man zwei Funktionen kennt und nutzt:
Websuche: Hier startet der Chatbot eine klassische Internetsuche, bei der in der Regel fünf bis dreißig Quellen gefunden und in die Antwort einbezogen werden. Die Suche bleibt relativ oberflächlich, weshalb die Antwort innerhalb weniger Sekunden da ist. Diese Funktion eignet sich für einfache, kurze Recherchen – vor allem, wenn es darum geht, ein paar Websites zu identifizieren. Ein aktuelles Beispiel von mir selbst: Ich richte mir ein neues Büro ein und wollte Firmen auffinden, die Akustikpaneele herstellen. Dafür reicht die normale Websuche.
Deep Research: Diese Funktion lässt sich als „Websuche auf Steroiden“ beschreiben. Das Modell geht für längere Zeit ins Internet (von wenigen Minuten bis über eine Stunde), durchforstet Hunderte Quellen, analysiert sie und gibt am Ende einen Recherchebericht aus. Der kann schon mal zwanzig oder dreißig A4-Seiten umfassen. Diese Funktion eignet sich für komplexe, umfangreiche Recherchen. Um beim Beispiel von vorhin zu bleiben: Deep Research lieferte mir einen ganzen Akustik-Plan, der zusammenfasste, welche konkreten Produkte zu kaufen und wie sie im Büro zu positionieren sind, um die von mir gewünschte Raumakustik zu erreichen.
Beide Funktionen stehen in den genannten Chatbots auch in der kostenlosen Version zur Verfügung. In der Regel findet man sie über das „Plus“-Zeichen in der Prompt-Leiste. (Gemini hat keine separate Websuche-Schaltfläche. Dort schreibt man einen Hinweis wie „Recherchiere dazu“ oder „Suche im Internet“ direkt in den Prompt.)
Es kann sein, dass die Funktion bei anderen Chatbots etwas anders heißt. Deep Research wird von Claude beispielsweise als „Recherche“ bezeichnet. Und obwohl es diese Funktionen schon eine gefühlte Ewigkeit gibt (eine erste, rudimentäre Websuche in ChatGPT gab es erstmals im Mai 2023, Deep Research gibt es seit Jänner 2025), kennen und nutzen sie viele noch immer nicht. In meinen Kursen ist „Deep Research“ für über 90 Prozent der Teilnehmenden nach wie vor eine große Überraschung.
Wichtig sind hierbei eigentlich nur zwei Sachen:
Die Funktion aktivieren: Die meisten Chatbots starten zwar von sich aus eine Websuche, sind dabei aber faul. Manchmal suchen sie auch dann nicht, wenn es sinnvoll wäre. Daher empfehle ich, die Websuche bei Bedarf immer manuell zu aktivieren. Deep Research muss ohnehin manuell eingeschaltet werden, entweder per Mausklick oder durch einen entsprechenden Hinweis im Prompt.
Prompting: Gerade bei Deep Research ist gutes Prompt Engineering entscheidend. Es gibt nichts Frustrierenderes, als wenn Claude eine Stunde recherchiert, einen ganzen Bericht erstellt – und man dann merkt, dass etwas missverstanden und in die falsche Richtung recherchiert wurde. Also: präzise prompten, genug Kontext liefern und vorab klärende Rückfragen einfordern. Mehr dazu gibt es in meinen Prompting-Prinzipien:
Perplexity und NotebookLM
In den letzten zwei bis drei Jahren haben sich zwei KI-Tools hervorgetan, die man kennen sollte, wenn es um Recherche geht: Perplexity und NotebookLM. Sehen wir uns beide kurz an. (Zu NotebookLM wird es demnächst einen eigenen Artikel geben.)
Perplexity
Perplexity ist ein KI-Chatbot, der auf anderen Sprachmodellen basiert: GPT, Gemini, Claude, Kimi und Nemotron. (Es gibt zwar ein eigenes Modell namens Sonar, das spielt im Vergleich zu den anderen aber eine untergeordnete Rolle.)
Man kann Perplexity als Mischung aus KI-Chatbot und Suchmaschine beschreiben. Während ChatGPT und Co. bei Bedarf ihr Modellwissen um eine Internetsuche ergänzen, geht Perplexity umgekehrt vor: Es führt immer zuerst eine Websuche aus und analysiert die Ergebnisse anschließend mithilfe des Sprachmodells, um eine Antwort zu erzeugen. Und es gibt die Quellen an, aus denen die Informationen stammen – standardmäßig. Eine Antwort ganz ohne Internetsuche ist nur sehr umständlich möglich (und auch nicht sinnvoll, denn dafür eignen sich ChatGPT, Claude oder Gemini besser).
Sehen wir uns das an einem Beispiel an – wieder anhand der Raumakustik:

Diese Recherche dauerte etwa fünfzehn Sekunden und umfasste dreißig Quellen. Das Ergebnis deckt sich mit dem, was ich bisher zum Thema recherchiert habe – auch mit anderen Chatbots und mit Deep-Research-Berichten.
Dazu muss man sagen: Ein Alleinstellungsmerkmal ist das nicht mehr. Mit der Websuche erreicht man dasselbe auch in ChatGPT, Claude und Gemini. Dennoch verwende ich Perplexity für derartige Recherchen sehr gerne und habe damit sehr gute Erfahrungen gemacht. In vielen Belangen hat Perplexity sogar Google für mich abgelöst.
Daneben hat Perplexity weitere Features, die den Chatbot (zumindest eine Zeit lang) von ChatGPT und Co. unterscheiden. Vielleicht folgt dazu irgendwann ein eigener Artikel. Vorerst bleibt nur die Empfehlung: unbedingt einmal ausprobieren.
NotebookLM
NotebookLM ist ein KI-Tool von Google, das auf dessen Gemini-Sprachmodell basiert. Ich tu mir schwer, NotebookLM mit einer konkreten Bezeichnung zu beschreiben. Es kann mehr oder weniger als Chatbot benutzt werden, ist aber nicht wirklich ein Chatbot. Im Kern besteht NotebookLM aus drei Komponenten, die zusammen ein sogenanntes „Notebook“ ergeben:
Quellen: Hier stellt man dem Tool Quellen zur Verfügung oder lässt das Modell selbst nach Quellen recherchieren. Beim Hochladen von Dokumenten sind Urheber- und Nutzungsrechte zu beachten: Urheberrechtlich geschützte Bücher oder Excel-Sheets mit Kund:innen-Informationen haben hier nichts verloren, auch wenn so mancher Use Case verlockend wäre.(Für die Zwecke dieses Artikels lasse ich per Prompt nach Quellen suchen: “Trage Informationen zum Thema Raumakustik in Streaming-Studios zusammen”, damit wir uns die anderen beiden Komponenten näher ansehen können.)
Chat: Hier chattet man mit „den Quellen“. Man stellt eine Frage, und das Modell beantwortet sie auf Basis der im Notebook hinterlegten Quellen. Dabei wird angezeigt, woher welche Information stammt, sodass man sie schnell gegenprüfen kann. Diese Funktion ist vor allem bei Forschenden und Studierenden beliebt, die dort Studien hochladen, um sie für wissenschaftliche Arbeiten zu analysieren.
Studio: Im Studio lassen sich die bereitgestellten Quellen aufbereiten – als Podcast, Video, Präsentation, Quiz und vieles mehr. Das ist wohl die Funktion, für die NotebookLM am bekanntesten ist. Gerade bei Lehrpersonen ist das Tool beliebt, weil sich damit sehr schnell Podcasts, Lernvideos und Infografiken erzeugen lassen.

Zur Veranschaulichung habe ich hier mal eine Infografik erzeugen lassen - ganz ohne Prompt und Stilvorgaben. Ich hätte die Infografik aber genauso gut im Sketchnote-, Tonfigur oder Lego-Stil erstellen lassen können.

Wer also viel mit spezifischen Quellen arbeitet und darin recherchieren oder sie aufbereiten möchte, ist mit NotebookLM gut bedient.
Spezialisierte Recherche-Tools
Zu guter Letzt werfen wir noch einen Blick auf spezialisierte Recherche-Tools. Die regulären KI-Chatbots (mit Deep Research), Perplexity und NotebookLM sind Allrounder. Sie taugen mitunter auch für komplexe Recherchen, sind aber nicht spezialisiert. Sobald es um ein sehr bestimmtes Gebiet geht – etwa um das Auffinden wissenschaftlicher Literatur oder das Durchforsten von Gesetzestexten – geraten sie schnell an ihre Grenzen.
Deshalb ist es sinnvoll, sich nicht nur auf die genannten Tools zu stützen, sondern sich einen individuellen Werkzeugkasten für die eigene Nutzung zusammenzustellen.
Für mich ist beispielsweise das Auffinden wissenschaftlicher Literatur sehr wichtig. Dafür haben sich mehrere Tools bewährt: Consensus, Elicit, Connected Papers, Litmaps und Research Rabbit. Der Fokus ist jeweils etwas anders. Bei Consensus und Elicit geht es vor allem darum, einzelne Publikationen zu finden und eine Frage direkt auf Basis wissenschaftlicher Literatur zu beantworten. (Elicit kann sogar systematische Literatur-Reviews durchführen.) Bei den anderen dreien geht es eher darum, ausgehend von einer Publikation eine größere Menge zusammenhängender Literatur zu erschließen. Eines haben aber alle gemein: Sie sind im Hintergrund mit wissenschaftlichen Datenbanken verbunden und ignorieren andere Quellen. Außerdem bieten sie Einstellungs-, Filter- und Verknüpfungsmöglichkeiten, die Forschende brauchen. Halluzinationen sind weitgehend ausgeschlossen, da diese Tools (mit Ausnahme von Consensus) nicht wie ein Chatbot aufgebaut sind.
Auch für spezifische Berufsgruppen gibt es eigene Tools. So wurde etwa AI:ssociate, explizit für österreichische Jurist:innen entwickelt. Es umfasst laut eigenen Angaben „kuratierte juristische und steuerliche Wissensdatenbanken“ und ist DSGVO-konform. Damit eignet es sich für juristische Recherchen weitaus besser als ChatGPT mit Deep Research oder NotebookLM.
Da es Hunderte, ja Tausende solcher Tools gibt, muss man sie selbst finden. Ein erster Orientierungspunkt kann eine kurze Perplexity-Recherche sein. Hier ein möglicher Prompt:
Prompt-Tipp
Ich arbeite als [Beruf] und möchte für [konkreter Recherchezweck] KI-gestützte Tools einsetzen. Recherchiere mögliche Tools, die [mit fachspezifischen oder wissenschaftlichen Datenbanken arbeiten]. Liste sie auf und beschreibe für jedes: Funktionsumfang, Stärken, Schwächen, Kosten und Datenschutz (DSGVO-Konformität, Serverstandort). Ordne die Ergebnisse danach, wie gut sie zu meinem Zweck passen, und nenne jeweils die Quelle.
Ein präziser Prompt liefert hier bessere Ergebnisse als ein vager. Wer mag, ergänzt noch, in welchem Land gearbeitet wird (wegen rechtlicher Rahmenbedingungen), ob kostenlose Tools bevorzugt werden und welche sonstigen Rahmenbedingungen es gibt.
Fazit
Die Warnung „KI darf man nicht zum Recherchieren verwenden“ war einmal berechtigt. Heute ist sie es nicht mehr. Vielmehr beschreibt sie den Zustand von 2023 und 2024, nicht den von 2026. Was sich geändert hat, ist weniger das Sprachmodell als das Drumherum: Websuche, Deep Research, Quellenangaben, Reasoning, Code Interpreter, Multi-Agent-Systems …
Drei Punkte bleiben hängen. Erstens: Das richtige Werkzeug für den richtigen Zweck. Für eine schnelle Frage genügt die Websuche, für eine umfassende Recherche braucht es Deep Research, für das Arbeiten mit eigenen Quellen NotebookLM, für wissenschaftliche Literatur ein Fachtool. Zweitens: Die entscheidenden Funktionen muss man kennen und aktiv einschalten – ein Chatbot, der nicht sucht, halluziniert eher. Drittens: Vertrauen ist gut, Kontrolle ist besser. Auch ein Modell mit Websuche kann danebenliegen, und gerade bei Links und Zahlen lohnt der prüfende Blick. Die Quellenangaben sind genau dafür da.
Damit verschiebt sich auch die eigentliche Kompetenz. Sie liegt nicht mehr darin, ob man KI zum Recherchieren nutzt, sondern wie. Wer das richtige Tool wählt, die passende Funktion aktiviert und die Ergebnisse gegenprüft, hat in der KI einen brauchbaren Recherche-Assistenten. Wer blind vertraut, hat weiterhin ein Problem – aber das ist dann kein Problem der Technologie.
Zuletzt aktualisiert am 31.05.2026.





Es kann sein, dass die Funktion bei anderen Chatbots ein wenig anders heißt. So wird Deep Research von Claude als “Recherche” bezeichnet.
Diesen Abschnitt hast du doppelt.
Ich lasse mir immer auch die Quellen angeben, wo immer möglich. ChatGPT machtest mir da nicht immer leicht, da er ein internes Quellenformat verwendet.
Echt guter Artikel, Dominik! Beim „Vertrauen ist gut, Kontrolle ist besser würde ich noch eine Ebene tiefer gehen. Eine Quellenangabe beweist, dass die Quelle existiert, nicht dass sie die Aussage trägt. Was mir beim Bauen am häufigsten unterkommt: Deep Research zitiert sauber eine echte Studie, und die Aussage daneben steht so gar nicht drin. Ich lass dafür in Claude Code eine Fact-Check-Routine mitlaufen, die jede Quelle nochmal gegen die Aussage prüft. Fängt genau die Fehler, die durch reine Quellenangaben durchrutschen.