Bereichsbild
Kontakt

Kommunikation und Marketing
Grabengasse 1
69117 Heidelberg
Tel. +49 6221 54-19012
Fax +49 6221 54-19020
kum@uni-heidelberg.de

Kommunikation und Marketing

 
Weitere Informationen
Weitere Akteure der Exzellenzinitiative I

Marsilius-Kolleg:
Hans-Georg Kräusslich

Innovationsfonds FRONTIER:
Rowan Smith

Innovationsfonds FRONTIER:
René Repasi

DKFZ-ZMBH-Allianz:
Frauke Melchior

Young Academics:
Katja Mombaur

Heidelberg Molecular Life Sciences:
Joachim Wittbrodt

Physik und Astronomie:
Stephanie Hansmann-Menzemer

Transkulturelle Studien:
Claudia Brosseder und Georg Christ

Wirtschafts- und Sozialwissenschaften:
Stefanie Walter

MAThematics Center Heidelberg:
Jakob Stix

CellNetworks:
Sylvia Erhardt

CellNetworks:
Ingrid Lohmann

Asia and Europe:
Roberta Tontini

HGSFP:
Matthias Bartelmann und Christian Angrick

HGS MathComp:
Sebastian Sager und Anamaria Bodea

HBIGS:
Sandra Martini und Alexandra Pietrosiuk

 
SUCHE

Bilderkennung: Von sehenden Computern

Fragen findet Björn Ommer in vielen Forschungsfeldern. Seine Antworten helfen auch der Industrie.

Björn Ommer zögert. Nein, eine Stunde des Tages, zu der er noch nie in seinem Büro am Computer saß, die gebe es nicht. Er ist ehrlich, aber er will auch den Eindruck vermeiden, seine Arbeit als Informatiker ließe sich zur Not vom heimischen Rechner aus erledigen. Schließlich sind es vor allem Kontakte zu anderen Forschern und zu Industriepartnern, die Ommer voranbringen.

Björn Ommer
Prof. Dr. Björn Ommer

Gerade kommt Ommer von einer Tagung, bei der es um das Sehen beim Menschen ging und zugleich um das von Maschinen – sein Fachgebiet. Er hat mit anderen Informatikern gesprochen, mit Medizinern und Geisteswissenschaftlern. „Wie meistens habe ich keine einzige Zeile Programmcode mitgebracht“, sagt er, „aber jede Menge Ideen.“

Seitdem Björn Ommer Mitte 2009 als 28-Jähriger auf eine Juniorprofessur am Bildverarbeitungszentrum HCI (Heidelberg Collaboratory for Image Processing) berufen wurde, hat er mit Pharmakologen und Biologen zusammengearbeitet, mit Kulturwissenschaftlern und Kunsthistorikern – immer mit zwei zentralen Fragen: Wie können wir Computern das Sehen beibringen? Und: Was bringt das für andere Wissenschaftsgebiete?

Während Google und Co. mit schriftlichen Schlagworten nach Bildern suchen, sollen Ommers Algorithmen selbst die Semantik lernen, um beispielsweise im Sand am Meer einen Strand zu erkennen. Maschinen können größere Datenmengen verarbeiten als wir Menschen. Doch noch sind selbst Kleinkinder kreativer, intelligenter. Ommer zeigt auf die stilisierte Zeichnung eines Eisbären und eines Pandas. Schon ein Dreijähriger findet mühelos bei beiden Tieren das Auge – obwohl der Panda mit einem weißen Tupfer in einem dicken schwarzen Oval sieht, während das Eisbärenauge nur aus einem schwarzen Punkt besteht. „Damit hätten Computer zu kämpfen“, sagt er. Doch warum? Weil unsere Wahrnehmung beim Sehen nicht allein auf der Bildinformation beruht, die vorliegt, sondern zu einem großen Teil aus erlerntem Vorwissen, das aus früher gesehenen Bildern stammt. Sie dienen uns als Maßstab.

Ein bekanntes Objekt im Bild wiederzufinden – das Ohr von Prince Charles etwa oder eine ganz bestimmte Krone – ist für Computer heute ein Leichtes. Schwieriger wird schon die Frage, wo im Bild sich eine bestimmte Art von Objekt findet, etwa ein Flugzeug. Denn schließlich sind Flugzeuge nicht immer weiß, ihre Nasen nicht immer rund, sie liegen nicht immer horizontal in der Luft und haben auch nicht immer einen Propeller. Noch komplexer wird die Objektsuche, wenn es keine Hinweise gibt, was genau gesucht ist – zumal Ommer den Computer nicht mit tausenden Bildern von Hand füttern will. Der Computer soll sich die Kriterien selbst beibringen.

Bisher tastete man Bilder blockweise mit einer Art Datenfenster ab, suchte Bekanntes, glich Kantenverläufe mit Instanzbibliotheken ab. Für Ommer zu grob. „Schon das Dreieck, das ein Vogelschwarm am Himmel bildet, überfordert Computer grundlegend. Diese Form entsteht erst aus dem Zusammenspiel vieler einzelner Teile. Sie ist aber an keiner Stelle direkt messbar.“ Solche emergenten Phänomene gelten als größte Herausforderung für sehende Computer. Einzelteile enthalten zu wenige und oft widersprüchliche Informationen über das große Ganze – ein holistischer Ansatz wiederum, mit dem man direkt nach dem Gesamtobjekt sucht, liefert keine verlässlichen Ergebnisse, weil derartige Objekte zu komplex sind und sich zu häufig verändern. Ein von Ommer programmierter Algorithmus macht sich deshalb die „kompositionelle Regelhaftigkeit “ der Welt zunutze, in der sich alle Objekte aus wenigen universalen Grundelementen zusammensetzen – aus Strichen, Punkten, Kreisen, den Vokabeln der Bilderkennung. Dann klärt der Algorithmus die Lage der Einzelbausteine zueinander und gruppiert Bildteile, die zum selben Objekt passen, während er zugleich eine „Erklärung“ für das gesamte Objekt sucht. Der Rechner prüft: „Wenn dieses Bildelement ein Mund ist, wo müsste dann die Mitte des Objekts liegen und welche anderen Teile müssten dazugruppiert werden?“ Jedes Bildelement hat eine Stimme, demokratisch wird das Zentrum ermittelt. Anders als bei gewöhnlichen Votierungsverfahren hilft das simultane Gruppieren dabei, dass sich einzelne Teile auf eine gemeinsame Erklärung des gesamten Objekts einigen. So lassen sich Objekte eindeutiger zuordnen, und vor allem schneller. Wichtig wird das, wenn man statt Fotos riesige Datenmengen, etwa Videos, durchsucht.

Was fehlte, war nicht größere Rechnerleistung, sondern ein zündender Gedanke. Ommer geht neue Wege, weil er nicht klammert. Er tauschte ohne Zögern das Windsurfen in Berkeley und die nahen Berge von Zürich gegen beschauliche Radtouren im Odenwald. Und er sorgte dafür, dass Ausflüge in die Physik (im Studium), in die Neuroinformatik (bei seiner Dissertation) und in die Lernpsychologie (jüngere Forschung) ihn nicht absorbierten. Wie zusätzliche Synapsen nutzt er diese Erfahrungen heute für kreative Forschung. An einem Ort, der ihm diese Freiheit nicht lässt, könnte er nicht arbeiten. 

„Hätte ich nur Applikationen im Kopf, wäre ich bei Google besser aufgehoben“, sagt Ommer, „aber ich will auch mal Dinge auf den Kopf stellen dürfen. “ Ommer wird aktiv, wo Antworten fehlen. Im April lud er Kollegen aus aller Welt zu einem Workshop über „ungelöste Probleme der Mustererkennung“. Dabei faszinieren ihn medizinische Anwendungen genauso wie ein Fußball, der auf der Straße rollt: „Kann ich helfen, dass ein Auto den erkennt und reagiert?“

Die Fragen sind oft spannender als die Antworten in Form konkreter Anwendungen. Seit erstmals Algorithmen zur Gesichtserkennung veröffentlicht waren, dauerte es noch zehn Jahre, bis Kameras sie nutzten. „Aus wissenschaftlicher Sicht passierte da nicht mehr viel“, sagt Ommer. Das Heidelberger Konzept „Industry on Campus“ soll ihm helfen, diese „tote Phase“ der Erkenntnis zu verkürzen und trotzdem den praktischen Nutzen seiner Forschung zu maximieren. Industriepartner wie Bosch nutzen „Computer Vision“, etwa zur Qualitätskontrolle bei der Werkzeugproduktion.

Schon als Kind war Ommer auf Naturwissenschaften gepolt. Sein Vater war Physiklehrer, als Neunjähriger schrieb Ommer seinen ersten Programmcode. Die elfte Klasse übersprang er. Heute arbeitet der junge Juniorprofessor häufig mit Forschern aus anderen Disziplinen. Mithilfe neuer informatischer Ansätze will er es ihnen ermöglichen, ihre Forschung weiterzutreiben, und dabei gleichzeitig Fragestellungen aus dem eigenen Gebiet lösen. „Inzwischen wissen viele, dass wir zusammen Fachgrenzen sprengen können.“

„Björn ist für uns ein Volltreffer“, sagt etwa der Biologe Thomas Kuner. Gemeinsam analysierten die beiden Wissenschaftler gesunde und beschädigte Nervenenden in Mäusepfoten, vermaßen die Wirkung von Schmerz und Heilung in 3-D. Kuner war vorher mehrfach mit Mathematikern verzweifelt – ein Verständigungsproblem. „Wenn die von Diffusionsgleichungen sprachen, stiegen wir aus, und wenn wir von Synapsen anfingen, hörten die uns nicht mehr zu“, sagt er. „Björn war anders, er hat sich tief in unser Feld eingearbeitet. Wir brachten ihm eine biologisch relevante Fragestellung. Er verhalf uns zu einer einmaligen Analyse – so was geht nicht auf Bestellung.“

Anders als die Bioniker hofft Björn Ommer nicht darauf, komplexe Vorgänge aus der Natur nachzubauen. „Mir hilft es aber, anhand der Vorgänge in der Natur zu prüfen, ob mein Lösungsweg plausibel und elegant ist.“ Dieser Anspruch fußt oft nur auf Intuition. Die holistische Bilderkennung anhand scannender Fenster etwa fand Ommer schlicht unplausibel: „Ein Mensch würde nie links oben zu suchen beginnen und sich blockweise vorantasten. Was, wenn rechts unten ein Löwe wartet? Der würde ihn fressen“, sagt Ommer und lacht. „Ein Algorithmus, der das nicht beachtet, fühlt sich für mich einfach nicht richtig an.“

 

Kurzbiographie

Prof. Dr. Björn Ommer

Björn Ommer Björn Ommer hat Informatik und Physik an der Universität Bonn studiert und 2007 an der Eidgenössischen Technischen Hochschule (ETH) Zürich in Informatik promoviert. Nach einem ersten Postdoc in Zürich wechselte er auf eine zweite Postdoc-Stelle an der University of Berkeley in Kalifornien. Dort fokussierte er sich auf „Computer Vision“, das Sehen bei Computern. Das bleibt auch in Heidelberg sein Schwerpunkt, wo er seit 2009 eine Juniorprofessur für Informatik am Heidelberg Collaboratory for Image Processing (HCI) hält und eine siebenköpfige Arbeitsgruppe leitet. Schwerpunkt seiner Arbeit ist die Frage, wie Objekte und Handlungen in statischen und bewegten Bildern automatisch erkannt werden können – seine Erkenntnisse kann er in Heidelberg bei interdisziplinären Gemeinschaftsprojekten mit Kulturwissenschaftlern und Biomedizinern zur Anwendung bringen.

E-Mail: Seitenbearbeiter
Letzte Änderung: 16.03.2018
zum Seitenanfang/up