Geometric Deep Learning und die Suche nach dem passenden Wirkstoff

Jan Stühmer hat Papier und Schere dabei. „Ich habe mir überlegt, wie man Geometric Deep Learning anschaulich erklären kann, und bin auf die Idee mit der Schneeflocke gekommen.“ In den folgenden Minuten schaue ich interessiert dabei zu, wie der Leiter der Forschungsgruppe „Machine Learning and Artificial Intelligence“ am HITS das Blatt mehrmals faltet und mit der Schere ein Muster hineinschneidet. Das Ergebnis ist ein (fast) perfekt symmetrisches Gebilde, anhand dessen er mir das Prinzip des Geometric Deep Learning erläutert. Doch dazu später mehr.

Künstliche Intelligenz: Starke Meinungen, wenig Ahnung

Zunächst einmal geht es allgemein um etwas, von dem zurzeit alle reden – wir am HITS auch. Kaum etwas wird so emotional diskutiert, selten trifft Ahnungslosigkeit so ungebremst auf Meinungsstärke wie beim Thema „Künstliche Intelligenz“. Die einen haben Angst, dass KI kurz davor steht, die Weltherrschaft zu übernehmen, die anderen sehen in ihr ein Heilsversprechen für die großen Probleme unserer Zeit. Spätestens seit mit ChatGPT ein Tool aus der generativen KI die Büros und Schulen erobert hat, das darauf ausgelegt ist, neue Inhalte zu erzeugen, fragen sich nicht nur Lehrkräfte und Journalist*innen, wie sie in Zukunft damit umgehen sollen und welchen Quellen man noch trauen kann.

“Das Problem mit Tools wie ChatGPT ist, dass sie mit einer Unmenge an Daten gefüttert werden müssen, um einen einigermaßen akzeptablen Output liefern zu können, mit dem man auch etwas anfangen kann und der einen Sinn ergibt. Dadurch werden sie jedoch extrem komplex und manuell nicht mehr inspizierbar“, so Jan Stühmer. „Unsere Forschung fokussiert sich auf kleinere Modelle mit weniger Parametern, die weniger Trainingsdaten brauchen und dadurch flexibler und leichter zu handhaben sind.“

Neue Algorithmen für neue Proteine

Mit seinem Team am HITS entwickelt er im Bereich “Geometric Deep Learning” neue Algorithmen. In der Theorie greift er dabei auf Konzepte aus der Graphen- und Gruppentheorie zurück. In der Praxis lassen sich mithilfe der dabei verwendeten neuronalen Netze zum Beispiel molekulare Eigenschaften vorhersagen und Proteine mit ganz bestimmten Eigenschaften entwerfen.

Doch was genau bedeutet Geometric Deep Learning? Geprägt wurde der Begriff von dem Informatiker Michael Bronstein, er bezeichnet die Verarbeitung speziell nichteuklidischer geometrischer Datenstrukturen. Denn während euklidische Daten bereits seit Jahren bei der Bilderkennung oder auch bei Genomsequenzen inzwischen routiniert verarbeitet werden, ist dies bei nichteuklidischen Daten noch lange nicht der Fall. Aber warum ist das so?

Von neuronalen Netzen und versteckten Schichten

Dafür lohnt sich ein kurzer Ausflug in die Geschichte der Geometrie. Lange Zeit war die Euklidische Geometrie das Maß aller Dinge, sie teilte Objekte in rigide zwei- oder dreidimensionale Formen und steht bis heute auf dem Lehrplan der Schulen. Doch daneben entwickelte sich die abstrakt-mathematische nichteuklidische Geometrie, die von Carl Friedrich Gauß und seinem Studenten Bernhard Riemann mitbegründet wurde und eine der Grundlagen des Geometric Deep Learning ist. Zu ihren Unterarten gehören z.B. die affine, elliptische, projektive und nicht zuletzt die hyperbolische Geometrie, die den Weg zur Relativitätstheorie ebnete.

Bekannt geworden ist in diesem Zusammenhang das Erlanger Programm, das von dem deutschen Mathematiker Felix Klein 1872 bei seinem Eintritt in die Universität Erlangen vorgestellt wurde. Es ordnet die verschiedenen Geometrien erstmals systematisch nach ihren Symmetriegruppen ein. Ein Lehrsatz aus diesem Programm interessiert uns – auch im Hinblick auf unsere Schneeflocke – hier besonders: Klein geht davon aus, dass es keine Rolle spielt, wo im Raum sich ein Objekt befindet, da seine Eigenschaften davon unberührt bleiben. Und Deep Learning? Dieses Teilgebiet des Maschinellen Lernens arbeitet mit künstlichen neuronalen Netzwerken (KNN), die aus einer Ein- und einer Ausgabeschicht bestehen. Dazwischen befinden sich beliebig viele sogenannte Hidden Layers, versteckte Schichten, die „lernen,“ komplexe Muster aus den eingegebenen Daten zu erkennen und diese an die Ausgabeschicht weiterleiten. Je mehr Hidden Layers ein solches Netzwerk besitzt, desto leistungsfähiger ist es.

KI-Karussell: das Konzept der Äquivarianz

Doch zurück zu unserer Schneeflocke vom Anfang: Schaut man sich das symmetrische Gebilde aus Papier zunächst im gefalteten und dann im aufgeklappten Zustand genauer an, erkennt man, dass die Winkel und Abstände bei allen Ecken immer dieselben sind, auch wenn man das Objekt um verschiedene Achsen rotiert. Auf chemische Moleküle übertragen spricht man von den winkel- und distanzerhaltenden Eigenschaften zwischen den einzelnen Atomen. Mathematisch gesprochen bedeutet dies, dass es keine Rolle spielt, wie ich ein Molekül im Raum rotiere, die Eigenschaften des Moleküls, wie zum Beispiel seine Wasserlöslichkeit oder Bindungseigenschaften, ändern sich dadurch nicht.

„Ein Kernbestandteil des Geometric Deep Learning ist das Konzept der Äquivarianz: Das heißt, die internen Repräsentierungen im neuronalen Netz, die sogenannten Feature-Vektoren, rotieren mit den Eingabedaten“, so Stühmer. „Feature-Vektoren dienen dazu, all die Merkmale zu codieren, die benötigt werden, um das Modell entsprechend zu trainieren.“

Für das Training neuronaler Netze kann man sich darüber hinaus Symmetrien zunutze machen: Das heißt, man braucht ein neuronales Netz für ein Molekül mit hexagonaler Struktur lediglich mit den Daten eines Sechstels dieser Struktur zu „füttern“, um ein vollständiges Bild seiner Struktur und damit seiner Eigenschaften zu erhalten.

Welches Netzwerk für welche Daten?

Bleibt zu klären, welche neuronalen Netze sich für diese Art der Datenverarbeitung anbieten, wie Jan Stühmer und sein Team sie für ihre Forschung brauchen. Denn nicht alle sind aufgrund ihrer Architektur gleichermaßen geeignet. Die bekanntesten NN sind die Convolutional Neural Networks (CNN), mit denen vorwiegend Bild- und Audiodateien und ausschließlich Daten aus der Euklidischen Geometrie verarbeitet werden, und die großen Sprachmodelle, besser bekannt unter ihrem englischen Namen Large Language Models (LMM), mit denen ChatGPT arbeitet (mehr über LLMs im Vortrag unseres ehemaligen Journalist in Residence Anil Ananthaswamy auf Youtube).

Dazu Jan Stühmer: „Graph Neural Networks haben den Vorteil, dass sie sich auf eine Vielzahl von Daten – auch unstrukturierten – anwenden lassen, so zum Beispiel auf Moleküle und geometrische Daten wie Oberflächenscans und Punktwolken. Momentan arbeiten wir damit an Diffusionsmodellen für das Proteindesign.“

Durch KI die Spreu effektiv vom Weizen trennen

Bei seiner Forschung profitiert Stühmer neben der exzellenten Computerinfrastruktur am HITS auch von der Interdisziplinarität, die in der DNA des Instituts fest verankert ist: Für das oben erwähnte Projekt arbeitet er mit der Gruppe „Molecular Biomechanics“ um Gruppenleiterin Frauke Gräter zusammen. 

Die Grundlagenforschung von Jan Stühmer und seiner Gruppe „Machine Learning and Artificial Intelligence“ trägt nicht nur dazu bei, in der Biochemie die Spreu vom Weizen zu trennen. Sie kommt außerdem überall dort zum Einsatz, wo es um dateneffizientes Lernen geht und darum, mit wenig Trainingsdaten optimale Ergebnisse zu erzielen, wie zum Beispiel in den Materialwissenschaften.

Im nächsten Teil der Reihe „Wie aus Computerdaten Wissenschaft wird“ wird es persönlich: Drei Mitglieder der Junior-Forschungsgruppe „Computational Carbon Chemistry“, deren Aufenthalt im März 2024 nach fünf jahren am HITS planmäßig endet, sprechen im Interview über ihre Zeit am Institut, zukünftige Projekte und ihre ganz eigenen Erfahrungen mit dem Motto des Instituts: „Think beyond the limits!“.

Mehr über die Forschung der Gruppe „Machine Learning and Artificial Intelligence“ allgemein unter https://www.h-its.org/de/forschung/mli/.

Avatar-Foto

Das Heidelberger Institut für Theoretische Studien (HITS) betreibt Grundlagenforschung in den Naturwissenschaften, der Mathematik und der Informatik. Dabei werden große Datenmengen verarbeitet, strukturiert und analysiert. Der methodische Schwerpunkt liegt auf der Theorie- und Modellbildung. Die rund 120 HITS-Forscherinnen und -Forscher aus 22 Ländern befassen sich unter anderem mit theoretischer Biochemie, molekularer Biomechanik, wissenschaftlichen Datenbanken, Computerlinguistik, theoretischer Astrophysik, statistischen Methoden und Informatik.

3 Kommentare

  1. bin auf die Idee mit der Schneeflocke gekommen.

    Ein Beispiel für eine Schneeflocke ist das da,

    https://de.wikipedia.org/wiki/Koch-Kurve

    wobei ich diese Kurve mal vor ein paar Jahren simuliert habe.

    https://www.geogebra.org/m/yyf4tvg7

    Am Anfang hat man ein gleichseitges Dreieck. Nach jedem Klick auf “+” kommt
    eine Erweiterung hinzu. Mit “-” kann man die Erweiterungen wieder rückgängig
    machen. Wie die Erweiterungen genau funktionieren, kann man auf der Wikiseite
    nachlesen. Man kann aber auch einfach nur spielen und so müsste sich auch ohne Theorie ermitteln lassen, wie das Ganze funktioniert.

    Bei unendlich vielen Erweiterungen bekommt das Ganze einen unendlichen Umfang, nur die Fläche wird niemals das 1,6 fache des Ausgangsdreiecks
    (welches man nach Belieben ein und ausschalten kann) erreichen.

    Wer hier mit Mathe gar nichts anfangen kann, das macht nix. Einfach nur ein
    bisschen spielen, das reicht schon.

  2. Yan Le Cun hält die Fähigkeit in Symmetrien und Raumbeziehungen zu denken für zentral für wirklich intelligente KI‘s. Wirkliches tiefes Denken gäbe es bei den grossen Sprachmodellen nicht, was sich schon daran ablesen lasse, dass die Antwortzeiten für praktische alle Fragen in einer ähnlichen Grössenordnung liegen. Deshalb verwende man zum Beispiel das Chain of thoughts – Verfahren, also die Aufforderung an das Sprachmodell schrittweise vorzugehen. Dadurch kommen ChatGPT&Co schon etwas näher ans Denken, aber dennoch nicht genügend nahe um etwa hierarchisch planen und wirklich denken zu können.

Schreibe einen Kommentar


E-Mail-Benachrichtigung bei weiteren Kommentaren.
-- Auch möglich: Abo ohne Kommentar. +