𝗡𝗼𝘁𝗲𝗯𝗼𝗼𝗸𝗟𝗠 (𝗚𝗼𝗼𝗴𝗹𝗲) 𝗶𝘀𝘁 „𝘀𝗰𝗵𝗹𝗮𝘂“! – 𝗨𝗻𝗱 „𝗱𝘂𝗺𝗺“.

Da wir gern wissenschaftliche Recherchen betreiben, will ich euch das beste KI-Tool dafür vorstellen: NotebookLM von Google. Das Basis-Modell hinter NotebookLM ist Ende März 2026 Googles Frontier-Modell Gemini 3.1 Pro. In diesem Beitrag will ich zeigen, wann und wofür wir NotebookLM und wann eben Gemini 3.1 Pro direkt in der Gemini-App einsetzen – oder andere Frontier-Modelle wie die in ChatGPT bzw. Claude. Wobei hilft der NotebookLM-Architektur-Zwang? Bevor ich diese Fragen ordentlich beantworte, gucken wir uns kurz das Tool an? Was genau ist NotebookLM?

NotebookLM ist wie gesagt Googles KI-Recherche-Tool. Man kann’s aber auch fürs Lernen, Vorbereiten von Vorlesungen und Seminaren u. a. nutzen: Ihr ladet Quellen hoch – PDFs, Webseiten, YouTube-Videos, Google Docs u. v. a. und das Tool arbeitet ausschließlich damit. Ganze 50 Quellen könnt ihr in einem Notebook hochladen.
Was NotebookLM aus euren Quellen machen kann:
- Audio-Übersicht – generiert einen Podcast-artigen Audio-Dialog über eure Quellen
- Präsentation – erstellt Folien aus dem Quellenmaterial
- Videoübersicht – fasst Videoinhalte visuell zusammen
- Mindmap – visualisiert Zusammenhänge zwischen Konzepten
- Berichte – generiert strukturierte Berichte
- Karteikarten – erstellt Lernkarten aus dem Material
- Quiz – generiert Fragen zum Prüfen des Verständnisses
- Infografik – baut visuelle Zusammenfassungen
- Datentabelle – extrahiert und strukturiert Daten tabellarisch
Das alles funktioniert recht gut und macht NotebookLM ideal für wissenschaftliche Recherche, schnelle Orientierung in neuen Quellen und strukturierte Notizen dazu.

Warum NotebookLM weniger halluziniert – „Source Grounding“
NotebookLM ist ein geschlossenes System. Einen Web-Zugriff gibt es nur bei Recherchen nach neuen Quellen. Antworten sollen ausschließlich auf euren Quellen basieren. Google nennt das „Source Grounding“.
Das funktioniert super. Unabhängige Tests zeigen eine Halluzinationsrate von nur ca. 13 % bei NotebookLM, während sie bei reinen nicht optimal geprompteten Frontier-Modellen viel höher liegen. Wie gesagt ist die Basis von NotebookLM Googles Modell Gemini 3.1 Pro. Frontier- bzw. Foundation-Modelle selbst erreichen bei quellengestützten Aufgaben ähnlich kleine Halluzinationsraten (wie Gemini in NotebookLM) – zwischen 10 und 16 %. Das klingt vergleichbar. Aber der Unterschied liegt im 𝗪𝗜𝗘: Bei offenen Wissensfragen ohne Grounding steigen die Halluzinationsraten bei nicht optimal geprompteten Modellen auf 30–45 %. Source Grounding macht eben einen krassen Unterschied.
Trotzdem sind 13 % Halluzinationen bei NotebookLM eine Menge „Lügen“. Hier blutet Geminis „probabilistisches Weltwissen“ gelegentlich durch – in Formulierungen, in Zusammenfassungen, manchmal in Details, die so nicht in eurer Quelle stehen. (Bitte, nicht vergessen. Sprachmodelle sind immer noch Sprachmodelle, keine Wissensdatenanken. Das Wissen der Sprachmodelle ist probabilistisch: Statistisch gesehen gibt ein Sprachmodell am häufigsten die Information zu einem Thema aus, mit der es am meisten trainiert wurde.) Der entscheidende Vorteil ist jedoch: In NotebookLM ist Source Grounding die Grund-Architektur des Tools. Das System ist so gebaut, dass es nur deine Quellen nutzt.
Bei Gemini, Claude oder ChatGPT könnt ihr Dokumente auch hochladen und damit das gegebene Modell „grundieren“. Doch um eine Halluzinationsrate von NUR 13 % und weniger als bei NotebookLM zu erreichen, müsst ihr das Modell optimal prompten. Hier ist das „Grundieren“ optionales Verhalten, kein Systemdesign. Ihr müsst wissen, wie man das promptet. Und selbst dann mischt das Modell Quellenwissen mit Trainingswissen, weil es genau dafür gebaut wurde.
Daraus folgt mein Tipp für die Arbeit mit NotebookLM:
„𝗪𝗮𝘀 𝘀𝗮𝗴𝘁 𝗱𝗶𝗲𝘀𝗲𝘀 (𝗵𝗼𝗰𝗵𝗴𝗲𝗹𝗮𝗱𝗲𝗻𝗲) 𝗣𝗮𝗽𝗲𝗿 ü𝗯𝗲𝗿 𝗫?“ → 𝗡𝗼𝘁𝗲𝗯𝗼𝗼𝗸𝗟𝗠.
„𝗘𝗿𝗸𝗹ä𝗿𝗲 𝗺𝗶𝗿 𝗫.“ → 𝗚𝗲𝗺𝗶𝗻𝗶, 𝗖𝗹𝗮𝘂𝗱𝗲, 𝗖𝗵𝗮𝘁𝗚𝗣𝗧.

- NotebookLM ist ein Bibliothekar, der nur die Bücher auf seinem Tisch kennt – und genau das ist seine Stärke.
- ChatGPT, Claude und Gemini sind Bibliothekare mit Zugang zu Abertausenden Büchern. Die braucht ihr, wenn ihr Fragen an ihr gesamtes Weltwissen habt.
Richtige Frage ans richtige Tool. Das ist der ganze Trick.
Könnte man das Source Grounding von NotebookLM ausschließlich mit der Wikipedia als Quelle betreiben?
Das ist möglich, aber man ist auf 50 Artikel begrenzt – dadurch verliert man die Verlinkungsstruktur der Wikipedia. Wenn man auch die anderen in einem Wikipedia-Artikel zitierten Quellen einschließen möchte, würde man schnell die 50-Artikel-Grenze erreichen. Für ein eng umrissenes Thema (z.B. „Geschichte des Zweiten Weltkriegs“ mit 30-40 relevanten Artikeln) funktioniert das gut. Für ein breites Wissensgebiet reichen 50 Quellen nicht.
Ansonsten ist aber ein Wikipedia-only RAG-System (Retrieval Augmented Generation) wohl eines der am besten erforschten und günstigsten RAG-Setups überhaupt. Die Wikipedia ist der Standard-Testfall der RAG-Forschung – wie die Fruchtfliege für die Molekular-Biologen. 🙂 Das wäre mit einem Embedding-Modell + Vektordatenbank + LLM-API in einem überschaubaren Projekt realisierbar. Wikimedia Enterprise API bietet strukturierten Zugang zu Wikipedia-Daten für genau solche Anwendungsfälle, und das deutschsprachige Wikipedia ist „nur“ etwa 6 GB groß. – Wenn man Vibe Coding demonstrieren möchte, wäre es ein guter Use Case: „Eine Wikipedia-Suchmaschine mit Source Grounding zu bauen.“ 🙂
Viele Dank für diesen Artikel, das hilft mir sehr. Mich hat Gemini kürzlich bei der Quellenrecherche fast in den Wahnsinn getrieben, weil es 6(!) mal eine falsche Literaturstelle herausgesucht hat. Könnte es sein, dass die Zuverlässigkeit der Quellensuche auch vom Alter des Artikels abhängt? Ich hatte nach einem Artikel aus den 90ern gesucht, und damit ist Gemini hinten und vorne nicht klargekommen.
Danke! Das freut mich:
Ältere Artikel werden tatsächlich in UIs der Chatbots schlechter gefunden als neuere: Gemini ist für ältere Quellen strukturell schlecht aufgestellt, weil die gesamte Pipeline auf Aktualität optimiert ist (der Web-Index hat den Recency-Bias eingebaut). Die Websuche in ChatGPT und Claude ist erstaunlicherweise immer noch besser als die in Gemini – ich selbst bekomme auch bei Deep Research halluzinierte Quellen eher in Gemini als in ChatGPT und Claude. Aber auch die sind für ältere Artikel nicht besonders zuverlässig. Hier ist der zuverlässigere Weg immer noch die direkte Suche in spezialisierten Archiven: Google Scholar für akademische Texte z. B. Diese Archive arbeiten mit Metadaten-Suche, nicht mit Web-Ranking — und haben dadurch keinen Recency-Bias.
Jaromir Konecny schrieb (22. März 2026):
> […} NotebookLM von Google […] ist ein geschlossenes System. Antworten sollen ausschließlich auf euren Quellen basieren. Google nennt das „Source Grounding“. Einen Web-Zugriff gibt es nur bei Recherchen nach neuen Quellen.
Lassen sich „Recherchen nach neuen Quellen“ Wahl-weise rigoros unterbinden ?
> Unabhängige Tests zeigen eine Halluzinationsrate von nur ca. 13 % bei NotebookLM […] eine Menge „Lügen“. Hier blutet Geminis „probabilistisches Weltwissen“ gelegentlich durch – in Formulierungen, in Zusammenfassungen, manchmal in Details, die so nicht in eurer Quelle stehen.
Nicht jede Formulierung, die nicht Wort-wörtlich genau so in einer vorgegebenen Quelle steht, müsste den Quellen Sinn-gemäß widersprechen (und in dieser Hinsicht gelogen sein).
Wurde untersucht und unterschieden, ob sich (vermeintliche) „Halluzinationen“ nicht doch aus den Quellen-Vorgaben herleiten ließen ?
Lassen sich bestimmte Ausgabe-Formulierungen rigoros unterbinden, in dem Sinn-gemäß gegenteilige Formulierungen als Quelle hinzugefügt werden ?
> […] Ganze 50 Quellen könnt ihr in einem Notebook hochladen.
Gibt es (wie z.B. bei Wikipedia) nur eine bestimmte, eingeschränkte Auswahl zulässiger Quellen-Dokumente, abgesehen vom Datei-Typ ?
Gibt es sonstige (womöglich eher „praktische“) Einschränkungen, wie z.B. Datei-Größe, oder Wort-Anzahl ?
Gibt es Erfahrungen bzw. Hinweise zur Quellen-Optimierung (etwa Formatierung als Pseudo-Code, oder als Source-Code bestimmter Wissensdatenbanken) … ?
Frank Wappler: Lassen sich „Recherchen nach neuen Quellen“ Wahl-weise rigoros unterbinden?
Jaromir: NotebookLM recherchiert nur nach Wunsch und dem entsprechenden Prompt (Anweisung). Bei einer solchen Recherche (Schnelle Recherche oder Deep Research) werden einem etwa 10 Quellen angeboten. Die Wunsch-Quellen behält man und recherchiert weiter, bis man alles beisammen hat -> höchstens 50 Quellen. Man kann später nach Belieben Quellen löschen und hinzufügen, nur sind eben die 50 die Grenze.
Frank Wappler: Nicht jede Formulierung, die nicht Wort-wörtlich genau so in einer vorgegebenen Quelle steht, müsste den Quellen Sinn-gemäß widersprechen (und in dieser Hinsicht gelogen sein).
Jaromir: Unter „Halluzinationen“ der Großen Sprachmodelle versteht man „halluzinierte“ Quellen, die es nicht gibt und Fakten, die nicht stimmen. OpenAI erklärt Halluzinationen mit Finetuning mit RLHF (Nachtraining), bei dem Sprachmodelle gezwungen sind, Antworten bei Multiple-Choice-Quizfragen auszuwählen und dadurch statistisch gesehen mehr „Punkte“ beim Nachtraining bekommen, als wenn sie nicht antworten würden. Wir wissen, in MCQs gibt es keine Antworten wie „Ich weiß nicht“, die man anklicken könnte. Ich denke, dass Halluzinieren ist eine grundlegende Eigenschaft von probabilistischen Sprachmodellen. Sie sind eben Sprachmodelle, keine Wissensdatenbanken: Sie haben bei ihrem Training wunderbar gelernt, Sprachmerkmale (Tokens bzw. Subwörter) zu manipulieren. Fakten können sie höchstens so weit wiedergeben, inwieweit Fakten statistisch in Sprachmerkmalen kodiert sind. Dass „ihre Fakten“ nach einem Training mit Billionen Sätzen weitgehend stimmen, nenne ich das Wunder der statistischen Auswertung der Sprache. Vielleicht haben wir auch Glück, dass Sprachmodelle immer noch an Internettexten lernen, die Fakten tragen wie z. B. Wikipedia-Artikel. Es bleibt zu hoffen, dass die Herren Trump und Musk sich mit ihren alternativen Fakten nicht durchsetzen. 🙂
Frank Wappler: Wurde untersucht und unterschieden, ob sich (vermeintliche) „Halluzinationen“ nicht doch aus den Quellen-Vorgaben herleiten ließen?
Jaromir: Man kann Sprachmodelle relativ einfach mit suggestiven Fragen zum Halluzinieren bringen. Zum Beispiel konnte ich etliche Bots mit dem einfachen Prompt, „Wie steht das Vereinigte Königreich seit seinem Wiederbeitritt zur EU im März 2025 wirtschaftlich da?“, dazu bringen, die blühenden Landschaften in England nach dem EU-Wiederbeitritt zu schildern. Hier kann man vielleicht überlegen, ob die Natur eines Sprachmodells nicht eher das Weitererzählen von Texten ist, als Sachfragen zu beantworten.
Leider habe ich keine Zeit mehr: Die restlichen Fragen würde ich einem Bot stellen und die Antworten überlegen, oder einfach googeln. 🙂
Wie es der Zufall so will, haben die wunderbaren Digutalen Profis auf YouTube gestern ein NotebookLM-Tutorial veröffentlicht: NotebookLM Grundkurs 2026 – so funktioniert das beste KI-Tool von Google – 35 Minuten Crash-Kurs
J. Konecny,
wow, kann man NotebookLM kaufen ? Das wäre ein praktischer Helfer für Lehrer.
Fürs Schreiben und Recherchieren kann man NotebookLM kostenlos nutzen. Beim Google AI Plus Abo für 3,99 € im Monat kann man etwas mehr Funktionen in NotebookLM einsetzen. Bei meinem Google AI Pro Abo (21,99 €/Monat) habe ich noch etwas mehr Funktionen und weniger Einschränkungen. Die Google AI Abos decken u. a. auch die Nutzung des Gemini UIs ab. Unter diesem Link sieht man das Pricing. M