Die stille Revolution
Biologie und Informatik gehen eine zukunftsweisende Symbiose ein
von Fred Hamprecht
Niemals zuvor wurden in der Biologie so viele Bilder generiert wie heute. Das Auswerten der Datenmassen ist nur mit Computern möglich – die aber „verstehen“ keine Bilder: Für herkömmliche Rechner sind sie nicht mehr als ein Haufen Zahlen. Neue automatische Auswerteverfahren helfen Computern, selbst komplexe Bilder zu interpretieren und ihnen wertvolle wissenschaftliche Informationen abzugewinnen.
Die Biologie hat sich fundamental gewandelt – und mit ihr die Werkzeuge. Im 19. Jahrhundert durfte der Köcher, mit dem Entomologen ihren bunten Schmetterlingen nachjagten, als wichtiges Instrument gelten. Ab dem ausgehenden 19. Jahrhundert verringerte sich der Freizeitwert biologischer Forschung deutlich mit dem Übergang zum Studium von Bakterien, Viren und Zellkulturen: Petrischalen, Mikroskope und Röntgendiffraktometer wurden de rigueur. Im 21. Jahrhundert schließlich hält die Automatisierung und damit der Roboter auf breiter Front Einzug in die Biologie. Damit sind nicht etwa humanoide Roboter gemeint, die versuchen, sich in natürlichen Umgebungen zurechtzufinden, sondern Fließbandmaschinen, wie sie schon lange in der industriellen Fertigung üblich sind.
Erwünschtes Produkt dieser Automatisierung – und zugleich ihr Fluch – sind Daten in einem bislang nicht gekannten Umfang. Heutige Experimente generieren Datenmengen, wie sie bisher nur aus der Beschleunigerphysik oder von großen Himmelsdurchmusterungen bekannt waren. Dieses „Schwimmen in Sensoren und Ertrinken in Daten“ hat die Datenauswertung – vor allem aber das Auswerten der Bilder – zum entscheidenden Engpass werden lassen. Dieser Beitrag stellt aktuelle biologische Forschung und sich daraus ergebende Analyseprobleme an wichtigen Beispielen vor.
Die Bildanalyse steht vor der Herausforderung, Computern „das Sehen“ beizubringen. Die Aufgabe kann beispielsweise sein, die Membranen einer Zelle vom Rest zu unterscheiden. Moderne Programme erlauben es dem Benutzer, sein Vorwissen an den Computer weiterzugeben (farbige Markierungen im Bild oben). Im Gegensatz zu einfachen Schwellwertentscheidungen (Mitte) erlauben derart trainierte statistische Lernverfahren eine verbesserte Unterscheidung (unten).
|
Tausende von Experimenten auf einen Streich
Die im Jahr 2006 mit einem Nobelpreis geehrte Entwicklung sogenannter siRNAs ermöglicht es, auf einem einzigen „Chip“ Tausende winziger Zellkulturen unterzubringen, in denen jeweils genau ein Gen ausgeschaltet wurde. Der komplette Chip kann sodann einem Stimulus, beispielsweise einem HI-Virus, ausgesetzt und anschließend mit automatisierter Mikroskopie erfasst werden. Auf diese Weise lassen sich „auf einen Streich“ Tausende von Experimenten durchführen und – eine geeignete Auswertung vorausgesetzt – diejenigen Gene identifizieren, die für eine Antwort auf den Stimulus verantwortlich sind. Im genannten Beispiel sind das beispielsweise Zellkulturen, die besonders schnell oder besonders langsam von HI-Viren infiziert werden.
Werden alle Gene unseres Erbgutes in je einer separaten Zellkultur ausgeschaltet, spricht man von einem „genomweiten Screen“ (von engl. Screening, Durchmusterung). Heidelberg ist in Deutschland einer der führenden Orte auf diesem Gebiet mit automatisierten Plattformen unter Leitung der Wissenschaftler Holger Erfle (Universität Heidelberg), Michael Boutros (Deutsches Krebsforschungszentrum und Universität Heidelberg) und Rainer Pepperkok (European Molecular Biology Laboratory, Heidelberg).
Nie gesehene Details
Das zweite Beispiel ist einem Durchbruch mikroskopischer Bildgebung gewidmet: Dem Physiker und Neurobiologen Winfried Denk vom Max-Planck-Institut für medizinische Forschung in Heidelberg ist es gelungen, ein Mikroskop zu entwickeln, das es erlaubt, Nervengewebe mit einer zuvor nicht erreichten Signalqualität und Auflösung in allen drei Raumrichtungen aufzunehmen. Die Leistung des neuen Mikroskops wird anschaulich, wenn man sich eine Kugel vom Durchmesser des Punktes am Ende dieses Satzes vorstellt: Diese winzige Kugel würde mit der sogenannten SBFSEM-Technologie konservativ geschätzt in etwa 1012 oder Tausend Milliarden dreidimensionale Bildpunkte zerlegt. Diese enorme Auflösung erlaubt es, neuronales Gewebe in nie gekannter Detailliertheit darzustellen und es gleichzeitig in alle seine einzelnen Nervenzellen (Neuronen) zu zerlegen. Das macht es zum ersten Mal möglich, die Architektur unseres Hirns im Detail zu studieren. Der Traum von einem Verständnis des menschlichen Denkens ist damit keinesfalls erreicht – aber man ist ihm damit ein gutes Stück nähergerückt.
Aus der Nähe: die ersten Stunden eines Lebewesens
Auch das dritte Beispiel entstammt dem 21. Jahrhundert und verdient es, epochal genannt zu werden: Dank eines neuen Mikroskops, einer Entwicklung des Physikers Ernst Stelzer, ist es zum ersten Mal möglich geworden, auf der Ebene einzelner Zellen zu verfolgen, wie ein Wirbeltier entsteht. Dem Heidelberger Biologen Jochen Wittbrodt und seinem Schüler, dem Physiker Philipp Keller (jetzt Gruppenleiter in „Janelia Farm“, Washington), ist es gelungen, die Entwicklung eines Zebrafischs von der sich gerade teilenden Eizelle bis hin zum Stadium von etwa 20 000 Zellen mit einer guten zeitlichen und räumlichen Auflösung zu verfolgen.
Das nächste, bisher noch nicht erreichte Ziel ist, aus diesem vierdimensionalen Datensatz automatisch den Stammbaum sämtlicher Zellen zu extrahieren. Diese Daten gehören zu den umfangreichsten, die jemals in der Biologie erhoben wurden: Sie werden einen erheblichen Teil der am „Bioquant“ geplanten Speicheranlage von fünf Petabyte (das sind fünf Billiarden Byte) ausfüllen.
Den Computer sehen lehren
Die Biologie des ausgehenden 20. Jahrhunderts war geprägt von „Sequenzen“: der Abfolge der Aminosäuren in einem Protein oder der Reihenfolge der Basenbausteine unserer Erbmasse. Einen Höhepunkt erlebte diese Art der Forschung mit der weitgehenden Entzifferung des menschlichen Erbguts, der „Sequenzierung des menschlichen Genoms“, im Jahr 2000. Sequenzen sind, ungeachtet aller Komplikationen, einer Auswertung mit dem Computer noch recht gut zugänglich: Sie sind definiert durch eine eindeutige Abfolge, sie haben in der Regel eine eindeutige Leserichtung und manchmal sind sogar Anfang und Ende klar bestimmt.
Kopf einer Kaulquappe: Jeder Betrachter erkennt markante Strukturen wie das Maul oder das Auge. Für den Computer stellt sich dieses Bild anders dar – als bloße Ansammlung von Zahlen.
Abb.: Ulrike Engel, Nikon Imaging Center, Universität Heidelberg
|
Bilder hingegen sind für einen Computer fundamental schwieriger zu analysieren. Ein räumlicher Zusammenhang ist zwar auch hier gegeben, es ist aber viel schwieriger, Regeln für eine typische Erscheinung aufzustellen. Bis heute gibt es keine „Grammatik“, mit der Bilder regelhaft beschrieben werden könnten. Infolgedessen sind Bilder für den Computer nicht mehr als ein Haufen von Zahlen.
Die Bildanalyse steht damit vor der schwierigen Aufgabe, „dem Computer das Sehen beizubringen“, oder – wo das nicht möglich ist (und das ist die Regel) – den Computer dazu zu bringen, aus einem Bild relevante Kennzahlen auszulesen oder angemessen auf ein Bild zu reagieren. Ein Beispiel ist die Zerlegung eines Bildes in „Zellwand“ und „alles Übrige“, wie es die Abbildung auf Seite 5 zeigt.
Bei den meisten Bildern genügt die Intensität oder Farbe eines einzelnen Bildpunktes nicht, um relevante Inhalte voneinander zu unterscheiden. Es ist allerdings möglich, ein Bild einer Reihe von Transformationen zu unterwerfen, deren Resultat jeweils bestimmte lokale Charakteristiken wiedergibt. Durch diese zusätzlichen Merkmale lässt sich die Repräsentation eines jeden Bildpunktes so weit anreichern, dass eine lokale Unterscheidung möglich wird.
Die Unterscheidung selbst kann man mit statistischen Lernverfahren oder Methoden des „maschinellen Lernens“ anhand eines Trainingsdatensatzes automatisch optimieren. Der Anwender muss also einen Satz von annotierten Beispielen verfügbar machen, anhand derer der Computer lernen kann, verschiedene Bildinhalte zu erkennen.
Diese Idee greift unsere Arbeitsgruppe mit der Entwicklung des „ilastik“-Programms auf. Dem Benutzer ermöglicht das Programm, Bildinhalte bequem zu annotieren (es genügt, Beispiele verschiedener Regionen mit der Maus zu markieren); anschließend führt es das komplette maschinelle Lernen ohne weiteren Interventionsbedarf durch. Wenn der Benutzer Verbesserungsbedarf sieht, können weitere Annotationen hinzugefügt werden; oder es lassen sich die nun gelernten Unterscheidungen nutzen, um automatisch Tausende oder Millionen von Bildern zu analysieren.
Die Automatisierung hat in die Biologie Einzug gehalten und liefert Datenmengen, wie sie bislang nur aus der Beschleunigerphysik oder von großen Himmelsdurchmusterungen bekannt waren. Das Bild zeigt eine automatisierte Screening-Plattform.
Foto: Holger Erfle, Exzellenzcluster CellNetworks
|
Die Schwierigkeit unserer Entwicklungsarbeit besteht einerseits darin, dem Programm so viele Fähigkeiten (und damit eine so große Komplexität) zu vermitteln, dass es möglichst viele Aufgaben erfolgreich lösen kann. Andererseits gilt es, genau diese Komplexität vor dem Benutzer zu verstecken, damit er sich auf die eigentliche Arbeit – die biologische Forschung – konzentrieren kann.
Selbstverständlich stößt dieser generische Ansatz – also das Berechnen lokaler Merkmale und das anschließende statistische Lernen – an seine Grenzen, wenn es darum geht, komplexe Bilder zu interpretieren. Um beispielsweise Resultate zu erzielen, wie auf der Abbildung auf Seite 6 gezeigt, sind weitere Modelle erforderlich. Sie werden derzeit von Statistikern, Informatikern und Physikern im „Graduiertenkolleg für probabilistische graphische Modelle“ unter Koordination von Christoph Schnörr vom „Heidelberg Collaboratory for Image Processing“, kurz HCI, entwickelt.
Einfache Fragestellungen können jetzt erstmals durch benutzerfreundliche Programme ohne weitere Programmierungen gelöst werden. Schwierige Fragen hingegen geben uns weiterhin Rätsel auf, die voraussichtlich erst in Jahrzehnten gelöst werden. Dazu notwendig ist die Zusammenarbeit komplementärer Gruppen wie sie am HCI oder im „Interdisziplinären Zentrum für Wissenschaftliches Rechnen“ (IWR) versammelt sind. Besonders erfreulich sind wichtige fachliche Anstöße, die in jüngster Zeit von den neuen, mit Mitteln der Exzellenzinitiative eingerichteten Nachwuchsgruppen für Visualisierung (Heike Jänicke), Computersehen (Björn Ommer) und Netzwerkanalyse (Katharina Zweig) kamen.
Die nunmehr fast ein Jahrzehnt währende intensive Zusammenarbeit mit der Firma Bosch, die unsere Arbeitsgruppe im Jahr 2001 als Stiftungsprofessur etablierte, hat sich im Nachhinein als segensreich gerade für die hier beschriebenen neuen Methoden der Biologie erwiesen: Die gemeinsam mit Bernd Jähne (HCI) erarbeiteten Verfahren für die hoch automatisierte industrielle Qualitätskontrolle waren ein vorteilhafter Ausgangspunkt für alle Methoden, die zurzeit entwickelt werden, um der Sintflut von Daten Herr zu werden, die sich mit dem Einzug der Roboter in die Biologie ergeben hat.
Die Biologie ist dabei, eine stille Revolution zu durchlaufen. Sie gehört heute zu den datenintensivsten Wissenschaften, und Bilder sind aufgrund ihres hohen Informationsgehalts eines der bevorzugten experimentellen Zwischenresultate. Die resultierende Bilderflut indes übersteigt bei Weitem die menschliche Kapazität und macht es erforderlich, automatische Auswerteverfahren zu entwickeln. Hier ist schon viel geleistet, aber noch mehr ist zu tun, um die Biologie bei ihrem Aufbruch zu neuen Ufern zu unterstützen.
Die Mitglieder der Arbeitsgruppe
|
Fred Hamprecht ist Professor für Multidimensionale Bildverarbeitung und einer der Direktoren des von Exzellenzinitiative und Industrie gemeinsam geförderten „Heidelberg Collaboratory for Image Processing“, kurz HCI. Das HCI ist als „Industry on Campus“-Projekt ein Teil des Interdisziplinären Zentrums für wissenschaftliches Rechnen (IWR) der Universität Heidelberg. Die Mitglieder der Arbeitsgruppe (im Bild) sind Priv.-Doz. Dr. Ullrich Köthe (Stellvertretender Leiter), Björn Andres, Thorsten Beier, Luca Fiaschi, Michael Hanselmann, Frederik Kaster, Bernhard Kausler, Anna Kreshuk, Thorben Kröger,
Martin Lindner, Xinghua Lou, Rahul Nair, Oliver Petra, Jens Röder, Christoph Sommer, Christoph Straehle, Andreas Walstra, Barbara Werner, Matthias Wieler und Buote Xu.
Kontakt: fred.hamprecht@iwr.uni-heidelberg.de