Proteine realisieren alle Prozesse des Lebens. Unsere Gene bestimmen, wie unsere Proteine aussehen, welche dreidimensionalen Strukturen sie annehmen. Welche Virusvarianten für uns problematisch sind, steht in diesen Proteinstrukturen und letztlich in den Proteinsequenzen geschrieben. Können wir diese molekulare Sprache des Lebens verstehen, sie entschlüsseln?
Ja, indirekt ist es uns durch die Herangehensweise der neuesten Algorithmen aus der Spracherkennung möglich. Seit fünf Jahrzehnten versucht die Forschung Proteinstrukturen aus Proteinsequenzen vorherzusagen. Der Durchbruch kommt jetzt aus einer unerwarteten Richtung: nicht nur durch ein Verständnis der biophysikalischen Grundlagen, sondern primär durch Entwicklungsschübe in der Künstlichen Intelligenz, die durch moderne Großrechenanlagen und deren Fähigkeit, enorme Datenmengen zu verdauen, ermöglicht wurden. Implizit beginnen wir damit die Sprache des Lebens zu dekodieren. Der Trick besteht darin, implizites Wissen von vielen Sequenzen (Texten) zu nutzen, um Zusammenhänge zu verstehen (Grammatik). Dieses Verständnis ist der Hebel, um von viel kleineren, sorgfältig vorhergesagten Datenmengen zu profitieren (Transfer-Lernen). Das wiederum verbessert und/oder beschleunigt Vorhersagen von Proteinstruktur und -funktion, was langfristig Strom spart und damit CO2 verringert: einmal viel bezahlt (große Computer), vielfach gespart (jede neue Vorhersage). Das Beste ist:
Mit besseren Algorithmen und mehr Daten scheint alles täglich einfacher zu werden. Besonders faszinierend an diesen neuen Entdeckungen ist, dass die fulminante Wichtigkeit evolutionärer Information bisher nur teilweise zur Entschlüsselung der Sprache des Lebens genutzt worden ist. Vielleicht kommen wir damit noch weiter. Aber wenn wir auch ohne diese Information schon so weit kommen, wo sind dann die Grenzen des Nutzens von Transfer-Lernen?
Mehr unter: www.deutsches-museum.de