Siegel der Universität Heidelberg
Bild / picture

Gebändigte Erkenntnisflut

Die Molekularbiologie produziert auf Grund ihrer vielfältigen Fragestellungen und Methoden eine enorme Datenfülle. Ohne Computer kann die immense Menge an komplexen Erkenntnissen schon lange nicht mehr bewältigt werden. Eine eigenständige Disziplin – die Bioinformatik – stellt der modernen Biowissenschaft die dazu notwendigen Analysesysteme zur Verfügung. Roland Eils erforschte am Interdisziplinären Zentrum für Wissenschaftliches Rechnen, was intelligente Bioinformatiksysteme zu leisten vermögen, – beispielsweise, um das menschliche Erbgut nicht nur kennen zu lernen, sondern auch zu verstehen.

Illustration

Das Bild zeigt ein handgefertigtes Rekonstruktionsmodell der Photorezeptorzellen der Netzhaut.
Es wurde anhand von 90 elektronenmiskroskopischen Schnitten erstellt.

Angesichts der enormen Fortschritte der Molekularbiologie ist es heute nur schwer vorstellbar, dass die berühmte Doppelhelix-Struktur der Desoxyribonukleinsäure (DNS) erst im Jahr 1953 entdeckt wurde. Diese Entdeckung, gefolgt von der Entschlüsselung der genetischen "Sprache" bis Ende der 60er Jahre, war der Anfang einer langen Kette bahnbrechender Erfindungen in der Molekularbiologie. Die stetig zunehmende Geschwindigkeit des genetischen Entschlüsselungsprozesses hat bereits zur Dekodierung des kompletten Erbguts (Genoms) verschiedener Modellorganismen geführt. Immer kürzer werden die Innovationszyklen in der Molekularbiologie; die Datenbanken, in denen der genetische Code gespeichert wird, wachsen exponentiell an. Diese Wachstumsrate wird wohl nur noch von der Computertechnologie übertroffen. Parallel zu den fortschreitenden Entwicklungen in der Molekularbiologie ist eine eigenständige Disziplin – die Bioinformatik – entstanden. Sie stellt den Biowissenschaften computerbasierte Methoden bereit, um die komplexen Prozesse und die immense Datenmenge zu analysieren.

Menschen verstehen und begreifen am Besten über visuelle Eindrücke. Dies gilt vor allem für empirisch arbeitende Biowissenschaftler. Bei der Entwicklung von Bioinformatik-Verfahren muss daher eine Kluft zwischen den theoretisch arbeitenden Vertretern der Mathematik oder Informatik und den Anwendern in den Biowissenschaften überbrückt werden. Hierbei übernimmt die Computergrafik als eigenständige Wissenschaft im Bereich der Mathematik eine zentrale Rolle, weil sie das Potenzial besitzt, komplexe Zusammenhänge und Strukturen anschaulich darzustellen. Somit wird die Computergrafik mit Recht als Schlüsseltechnologie für die zweite Revolution in der Computertechnologie bezeichnet.

Eine besondere Bedeutung in der Molekularbiologie erlangt die Computergrafik bei der Rekonstruktion von dreidimensionalen Objekten wie Chromosomen im Zellkern. Gemäß den bereits im 19. Jahrhundert beschriebenen physikalischen Prinzipien der mikroskopischen Optik müssen dicke Objekte optisch "geschnitten" werden, um sie anschließend zu einem dreidimensionalen Objekt zusammenzusetzen. Das menschliche Gehirn ist nicht in der Lage, diese Serienschnitte zu einem dreidimensionalen Objekt zu rekonstruieren. Ein Grund hierfür mag sein, dass eine solche Aufgabe in der Natur nicht vorkommt.

Die ersten dreidimensionalen Rekonstruktionen erfolgten bereits vor fünfzig Jahren. Freilich standen damals keine Computer zur Verfügung, man behalf sich mit einfachen Wachsplatten-Modellen. Die vielleicht beeindruckendste dreidimensionale Rekonstruktion im Vor-Computerzeitalter stammt aus den fünfziger Jahren. Basierend auf elektronenmikroskopischen Schnitten wurde ein dreidimensionales Modell der Netzhaut geschaffen (Abbildung oben). Die Erstellung dieses Modells, das mehrere Quadratmeter einnimmt, beanspruchte mehr als acht Jahre. Die eigentlich wichtige Aufgabe – die Interpretation der funktionellen Bedeutung der dreidimensionalen Struktur – beanspruchte weit weniger als ein Drittel dieser Zeit. Heute kann eine solche Rekonstruktion innerhalb weniger Minuten am Computer erstellt werden.

Illustration

So genannte Splicingfaktoren (grün umrandet) wurden mit einem fluoreszierenden Protein (GFP) markiert. Dies ermöglichte es, die Interaktion eines Gens mit den Faktoren im Innern der lebenden Zelle zu analysieren.

Den Zusammenhang von dreidimensionaler Form und Funktion zeigen viele Anwendungen. Anschaulich lässt sich das am Beispiel des weiblichen Geschlechtschromosoms zeigen. Jede weibliche Zelle enthält zwei X-Chromosomen. Obwohl der genetische Code der beiden Chromosomen identisch ist, zeigen sie eine vollständig unterschiedliche Funktion: Nur eines der beiden X-Chromosomen ist genetisch aktiv, das andere wird bereits in einem frühen embryonalen Entwicklungszustand deaktiviert.

Für lange Zeit galt in der Zellbiologie, dass diese genetische Deaktivierung von einer starken Kompaktierung des Chromatins des inaktiven X-Chromosoms begleitet oder sogar funktionell ausgelöst wird. Erst die moderne dreidimensionale Mikroskopie und Bildverarbeitung, bei der angefärbte X-Chromosomen lichtoptisch geschnitten und anschließend mittels computergeometrischer Verfahren zu einem dreidimensionalen Modell rekonstruiert werden, konnte dieses Dogma widerlegen. Das Verfahren wurde von Wissenschaftlern des Interdisziplinären Zentrums für Wissenschaftliches Rechnen (IWR) der Universität Heidelberg in Zusammenarbeit mit Thomas Cremer vom Institut für Humangenetik der Universität München entwickelt.

 

Illustration

Zwei Proteine im Innern einer Zelle, die mit unterschiedlich fluoreszierenden Varianten des GFP-Proteins markiert wurden. Dadurch konnte der Transport dieser Proteine in der lebenden Zelle beobachtet werden.

Die dreidimensionalen Modelle zeigen sehr anschaulich, dass nicht die Verpackungsdichte, sondern die dreidimensionale Organisation der beiden X-Chromosomen entscheidend mit ihrer unterschiedlichen genetischen Funktion korrelliert. Während das aktive X-Chromosom eine ausgestreckte Form mit einer relativ großen Oberfläche hat, nimmt das genetisch inaktive Chromosom eine runde Gestalt ein. In der Mathematik ist es ein bekanntes Phänomen, dass der dreidimensionale Körper, der bei gleichbleibendem Volumen seine Oberfläche minimiert, eine Kugel ist; übereinstimmend konnte die Gestalt des inaktiven X-Chromosoms am besten durch eine Kugel modelliert werden. Dieser zunächst sehr einfache Modellansatz erschloss eine grundsätzlich neue Blickweise auf die Kopplung von genetischer Funktion und dreidimensionaler Organisation des Genoms. An Stelle der schlichten Verpackungsdichte des Chromosoms trat nun die Oberfläche als potenzielle Interaktionsfläche mit anderen funktionellen Faktoren in der Zelle in den Vordergrund. Offensichtlich müssen Faktoren nahe an der Oberfläche von Chromosomen liegen, um funktionell aktiv zu werden.

Ausgerechnet eine Qualle leitete eine Revolution in der Zellbiologie ein. Das sogenannte "Grüne Fluoreszierende Protein" (GFP) aus der Qualle Aequorea victoria fluoresziert, wenn man es mit blauem oder ultraviolettem (uv-) Licht bestrahlt. Die fluoreszierende Eigenschaft des GFP ist vollständig in der DNS des dazugehörigen Gens enthalten.

Die "GFP-Technologie" erlebte ihren Durchbruch, als Mitte der 90er Jahre erkannt wurde, dass GFP mit Hilfe biochemischer Verfahren an andere Proteine oder DNS-Abschnitte gebunden und sehr einfach in beliebige Zellen eingebracht werden kann. Mittels UV-Licht können GFP-markierte Faktoren in der natürlichen Umgebung einer lebenden Zelle sichtbar gemacht werden. Diese Entdeckung hat einen wahren Boom in der zellbiologischen Grundlagenforschung ausgelöst, ging doch zum ersten Mal ein alter Traum der Zellbiologie in Erfüllung: Dynamische Prozesse – etwa das Ablesen der Gene und ihre Übersetzung in Proteine (Genexpression) – können in lebenden Systeme (in vivo) betrachtet werden.

Die GFP-Technologie ermöglicht gänzlich neue Einblicke in die dynamische Organisation des menschlichen Erbguts im Zellkern. Es ist zu erwarten, dass die neuen Erkenntnisse zukünftig eine hohe Relevanz für die genetische Diagnostik beziehungsweise Therapie haben werden. Dem entsprechend arbeiten allein in Heidelberg mehr als 50 Arbeitsgruppen mit der GFP-Technologie, weltweit wird die Zahl der GFP-Labors auf 2000 geschätzt. Prognosen besagen, dass sich die Anzahl noch innerhalb dieses Jahres mehr als verdoppeln wird.

Illustration

Das am IWR entwickelte Bioinformatik-System erlaubt es, markierte Chromosomen vollautomatisch zu analysieren. Selbst komplexe Veränderungen können leicht entdeckt und anhand eines Farbcodes entlang der Chromosomen anschaulich dargestellt werden.

Für die Bioinformatik ist diese Entwicklung eine neue Herausforderung. Beobachtet man dynamische, zeitaufgelöste Prozesse, kommt zu den drei Raumdimensionen die Zeit als vierte Dimension hinzu. Eine manuelle Auswertung ist sehr zeitaufwendig – die Analyse einer einzigen Zelle kann mehrere Wochen beanspruchen – und in vielen Fällen bleiben wichtige Erkenntnisse verschlossen, weil der Experimentator die enorme Datenflut nicht bewältigen kann. Die vierdimensionalen Daten erfordern grundsätzlich neue Ansätze der dynamischen Bildverarbeitung und Computergrafik. Wiederum ging hier ein wichtiger Impuls vom IWR der Universität Heidelberg aus.

Illustration

Dreidimensionale Computerrekonstruktion des aktiven und inaktiven X-Chromosoms

Als die ersten Veröffentlichungen zur GFP-Technologie vor fünf Jahren erschienen, begannen Wissenschaftler am IWR ein System zu entwickeln, das mit Hilfe mathematischer Verfahren die Interpretation und Darstellung von dynamischen Prozessen am Computer ermöglicht. Erforderte die manuelle Analyse einer Zelle mehrere Wochen, können mit dem computerbasierten System nun täglich eine Vielzahl von Zellen ausgewertet werden. Dass dies ein kleiner Quantensprung in der zellbiologischen Forschung ist, zeigt das große Interesse an diesem Analysesystem, das von den Unternehmen "T.I.L.L.-Photonics" und "Olympus" weltweit vertrieben wird.

Illustration

Das gesamte Erbgut auf einem Chip : Im Gegensatz zu bisherigen Experimenten, mit denen lediglich ein Gen oder wenige Gene gleichzeitig untersucht werden konnten, wird es mit Hilfe der neuen DNA-Chiptechnologie möglich, das komplette Genom in einem Experiment zu analysieren.

Eine durch Bioinformatik-Systeme gestützte Analyse wird nicht nur in der zellbiologischen Grundlagenforschung, sondern auch in der klinischen, humangenetischen Routinediagnostik eingesetzt. Für Jahrzehnte war hier die so genannte Bänderungstechnik der Goldstandard. Mit Hilfe eines spezifischen Färbeverfahrens werden dabei Chromosomen während einer bestimmten Phase (Metaphase) der Zellteilung mit einem Hell-Dunkel-Muster überzogen. Dieses Muster wird zusammen mit der Länge der Chromosomen benutzt, um Chromosomen zu identifizieren und das menschliche Erbgut auf mögliche krankhafte Veränderungen zu untersuchen.Vor allem nummerische (beispielsweise die Vervielfachung von Chromosomenstücken oder ganzen Chromosomen) und strukturelle Veränderungen (zum Beispiel der Austausch von Chromosomenstücken zwischen unterschiedlichen Chromosomen) haben hier eine große prognostische und therapeutische Relevanz. Bei vielen genetisch bedingten Erkrankungen sind die chromosomalen Veränderungen aber außerordentlich komplex. Selbst für Spezialisten ist die genaue Erfassung aller krankhaften chromosomalen Veränderungen äußerst zeitintensiv und in vielen Fällen sogar unmöglich. In den letzten zehn Jahren wurde vielfach versucht, diesen schwierigen und arbeitsintensiven Diagnoseprozess zu automatisieren. Auf Grund der komplexen Aufgabenstellung im Vergleich zum geringen Bildinformations-Gehalt sind diese Versuche aber sämtlich gescheitert.

Illustration

Dreidimensionale Computer-Rekonstruktion eines Zellkerns mit vier angefärbten Chromosomen

Einen gänzlich neuen Ansatz verfolgt die so genannte Vielfarben-Technik. Im Gegensatz zur einfarbigen Bänderungstechnik wird jedes Chromosom mit einem spezifischen Farbcode versehen. Auf Grund der begrenzten Anzahl verfügbarer Farbstoffe, die im Lichtmikroskop unterschieden werden können, müssen die unterschiedlichen Chromosomen mit einer eindeutigen Kombination von Farbstoffen markiert werden. Einfache Berechnungen zeigen, dass dazu mindestens fünf verschiedene Farbstoffe benötigt werden.

Dies lässt sich an folgendem einfachen Beispiel erläutern: Offensichtlich kann man mit einem Farbstoff nur eine Farbkombination erlangen. Mit zwei Farbstoffen hingegen ergeben sich bereits drei unterschiedliche Kombinationen, nämlich zwei Einzelfärbungen und eine Zweifachfärbung. Mit drei Farbstoffen ergeben sich bereits sieben Kombinationen und mit fünf Farbstoffen 31 – genug, um alle 24 Chromosomen des Menschen differenziert darzustellen.

Illustration

Auf einem Messestand in Washington D.C. präsentiert ein Unternehmenspartner die Bioinformatik-Systeme des IWR

Ein großer Vorteil der Vielfarben-Technik verglichen mit den herkömmlichen Bänderungsverfahren ist, dass selbst komplexe chromosomale Veränderungen anhand eines Farbwechsels entlang eines Chromosoms leicht mit dem Auge erkannt werden können. Darüber hinaus ermöglicht die Vielfarben-Technik eine vollständige Automatisierung der Chromosomenanalyse. Die computergestützte Analyse von kombinatorisch markierten Chromosomen ist für die Bioinformatik aus verschiedenen Gründen eine Herausforderung: Die Bildinformation einer Metaphase entspricht einem fünfdimensionalen Raum; die fünf Dimensionen werden den fünf Fluorochromen zugeordnet, die bei Vielfarben-Experimenten eingesetzt werden. Vom Bioinformatiksystem wird eine eindeutige Zuordnung von Datenpunkten im fünfdimensionalen Raum zu einem bestimmten Chromosom und somit eine eindeutige Identifizierung selbst kleiner chromosomaler Umbauten erwartet.

Schwierig hierbei ist, dass die Dateninformation auf Grund der unterschiedlichen Qualität der Metaphasenpräparation zum Teil erheblich variieren kann. Das am IWR entwickelte Vielfarben-Bildanalysesystem stellt sich flexibel auf solche Variabilitäten ein und hat sich bereits bei vielen automatischen Chromosomenanalysen in der Routinediagnostik bewährt. So konnte in einer engen Zusammenarbeit von Zytogenetikern der Universität München (Arbeitsgruppe Michael Speicher) mit Bioinformatikern am IWR ein über Jahrzehnte unerreichtes Ziel der Zytogenetik realisiert werden: die vollautomatisierte Chromosomenanalyse.

Illustration

Die Zeit-Raum-Rekonstruktion der Interaktion eines Gens mit einem Splicingfaktor in der lebenden Zelle

Die modernen Fragestellungen der Molekularbiologie erfordern eine große Anzahl von zeitaufwendigen Experimenten. Eine deutiche Effizienzsteigerung kann nur mittels einer Parallelisierung der bislang sequenziell erfolgten Experimente erreicht werden. Techniken, die es ermöglichen, Versuche parallel und mit hohem Durchsatz durchzuführen, werden als "High-Throughput-Systeme" bezeichnet. Allen High-Throughput-Systemen ist gemeinsam, dass sie eine enorme Datenflut generieren. Selbst bei einer vollautomatischen Verarbeitung dieser Datenmengen ist man mit dem Problem konfrontiert, wie die Ergebnisse sinnvoll interpretiert werden können. Eine Interpretation erfordert die Formulierung einer Hypothese, die anhand der Daten überprüft werden kann. Um "richtige" Fragen stellen zu können, benötigt man auf Grund der komplexen Daten computergestützte Systeme zur Hypothesengenerierung. Dem entsprechend beschäftigt sich eine eigene Forschungsrichtung der Bioinformatik damit, den Computern das Denken beizubringen – ein Konzept, das unter dem Begriff "Künstliche Intelligenz" zusammengefasst wird.

Den Computern das Denken beibringen

Künstliche Intelligenz meint die Studie und Umsetzung von Intelligenz mit Konzepten der Computertechnologie. Eine genaue Definition von Intelligenz ist nur schwer möglich, da der Begriff mit vielen informations-verarbeitenden und -repräsentierenden Fähigkeiten verknüpft ist. Über Jahrhunderte haben sich Philosophen, Psychologen und Linguisten mit dem Begriff Intelligenz beschäftigt. Die verschiedenen Disziplinen bieten verschiedene Betrachtungsweisen, wegen ihrer nicht-konkreten Darstellung sind sie für eine Abbildung in computerbasierten Berechnungsprozessen aber nicht geeignet. Das Konzept der Künstlichen Intelligenz bietet hier einen grundsätzlich anderen Zugang: Intelligenz – biologischer oder künstlicher Art – wird mit Hilfe von Computermodellen abgebildet und beschrieben.

Intelligente Bioinformatik-Systeme können in der Molekularbiologie beispielsweise eingesetzt werden, um die Expression aller Gene eines Genoms zu studieren. Unter Zuhilfenahme von biologischem Expertenwissen über regulatorische und metabolische Netzwerke erhofft man sich Hypothesen darüber erstellen zu können, wie sich Gene gegenseitig aktivieren. Umgekehrt erleichtert das biologische Expertenwissen die Interpretation von Expressionsdaten, weil bestimmte Expressionsmuster à priori zu erwarten beziehungsweise logisch auszuschließen sind. Derzeit steckt die Umsetzung des Konzepts der künstlichen Intelligenz in der Bioinformatik noch in den Kinderschuhen. Die weiteren Entwicklungen werden zeigen, ob dieses Konzept zu einem wesentlichen Erkenntnisgewinn in der Molekularbiologie führen wird.


Autor:
Dr. Roland Eils
Interdisziplinäres Zentrum für Wissenschaftliches Rechnen (IWR) und Deutsches Krebsforschungszentrum (DKFZ),
Telefon (06 22 1) 42 36 00, Fax(0 62 21) 42 36 20,
e-mail: eils@iwr.uni-heidelberg.de

Seitenbearbeiter: Email
zum Seitenanfang