Maschinelles Sehen und AI: Ohne Vorurteil und 4.te Dimension geht es nicht

Im Forschungsprojekt VIDETE werden neue Verfahren der Künstlichen Intelligenz auf Basis neuronaler Netze entwickelt, damit Computer besser verstehen, was sie sehen, denn das Sehen des Menschen und Verarbeitung der Sinneswahrnehmung sind unübertroffen. Ohne autonome Sinneswahrnehmung wird es keine Künstliche Intelligenz geben.

Als Mensch können wir komplexe Szenarien, wie Verkehrssituationen, erfassen und auch relativ sicher einschätzen – auch wenn Geschwindigkeit und Abstand von Fahrzeugen variieren, Objekte sich überlagern, nur teilweise erkannt werden können oder die Lichtverhältnisse sich ändern. Dabei kommt uns unser Wissen zugute. Denn wir haben erlernt, die Dynamik einzelner Objekte und damit solche Situationen intuitiv zu verstehen.

Computern hingegen fehlt dieses Wissen zunächst. Im Grunde genommen klassifizieren sie, was ihre optischen Sensoren erfassen, anhand einer programmierten Methode in schnellen Abfolgen. Sie wissen aber nicht, wie es sich wirklich verhält.

Sie können Objekte zwar erkennen, einigermaßen einordnen und gewisse Umweltbedingungen in ihre Berechnungen einbeziehen, aber die Gesamtheit einer Situation mit zahlreichen Akteuren in all ihren Abhängigkeiten und Unwägbarkeiten nicht tatsächlich verstehen.

Klassische Methoden des Maschinellen Sehens (Computer Vision) reichen hierfür kaum aus. Schon um einen Gegenstand und dessen Bewegung stabil dreidimensional zu erfassen, sind gegenwärtige Systeme zumeist auf mindestens drei Kameras angewiesen. Zudem sind schwierige Umgebungsbedingungen, wie Nebel, Dunkelheit oder Reflexionen, nach wie vor eine große Herausforderung.

Vorurteile sind entscheidend

Vorurteile, man kann es auch Vorwissen nennen, sind für die Wahrnehmung entscheidend. Ohne sie keine Intelligenz, entscheidend ist, dass Intelligenz Vorurteile korrigieren kann.

Um die erforderlichen Berechnungen in Echtzeit bewerkstelligen zu können, ist Vorwissen nötig. „Die Maschine benötigt Erfahrung, um Bewegungen und Situationen besser antizipieren zu können“, so Prof. Stricker weiter. Um dieses Vorwissen zu implementieren, setzen die DFKI-Wissenschaftler auf Verfahren des Maschinellen Lernens.

Das System wird verschiedene Erkennungsmethoden bereithalten und auf Basis neuronaler Netze lernen, welche davon in einer Situation die besten Ergebnisse liefert. Damit diese schnell verfügbar sind, ist eine modulare Ordnung der Algorithmen vorgesehen.

So lassen sie sich effizient direkt in der Hardware realisieren, also auch auf Geräten, die nur über kleine Prozessoren verfügen und mit wenig Energie auskommen, wie beispielsweise einer Endoskopie-Kamera. Damit sind die Rechenvorgänge, etwa zum Erkennen einer Handgeste, ohne weitere Hardware und nahe am erzeugenden Sensor durchführbar. Die Technologie wird dadurch auf mobilen Geräten mit geringer Rechenleistung möglich.

Um eine robuste Erkennung zu erreichen, müssen die neuen Verfahren neben der Erfassung der einzelnen dreidimensionalen Objekte auch die zeitliche Komponente als vierte Dimension einbeziehen (4D-Rekonstruktion). Zeit erweist sich so als eine für die Entwicklung von Künstliche Intelligenz kritischer Faktor.

 

 

 

 

(Aussender/Quelle: dfki)

Leave a Reply