Maschinelles Lernen in der Robotik


Maschinelles Lernen stattet Roboter zunehmend mit Lernfähigkeit und Flexibilität aus. Dies wird es ihnen ermöglichen, in unstrukturierten Umgebungen zielgerichtet zu agieren und auf Unerwartetes zu reagieren. Menschen können ihnen auf intuitive Weise Aufgaben beibrigen, anstatt sie mühsam zu programmieren, d. h., Roboter können dadurch aus Erfahrung lernen und ihr Verhalten verbessern.

Übrigens: Manchmal, wenn man von Künstlicher Intelligenz spricht, meint man eigentlich Machine Learning, das sich speziell damit befasst, wie Maschinen selbständig dazulernen können. Die Art und Weise, wie Menschen Muster erkennen, Aussagen widerlegen und Erfahrungen sammeln, wird durch Mustererkennung, Modelllernen und große Datenmengen technologisch nachempfunden.

Maschinelles Lernen ermöglicht es Rechnern, aus Daten und Erfahrungen zu lernen, wodurch in jüngster Zeit große Fortschritte bei der Lösung lang bestehender Probleme wie maschinellem Sehen, Spracherkennung und automatischer Übersetzung gemacht wurden. Maschinelles Lernen wird eine zentrale Technologie auch für selbstfahrende Fahrzeuge und Fortschritte in der Medizin sein. Die Entwicklung von Künstlicher Intelligenz hat in den letzten Jahren weltweit enorme Fortschritte gemacht, wobei sie auch die Grundlage für smarte Maschinen ist, bei denen das menschliche Gehirn als Vorbild dient. Die Software soll wie der Mensch in der Lage sein, kontinuierlich dazuzulernen, d. h., beim Maschinellen Lernen nutzen Algorithmen verschiedene Datensätze als Trainingsgrundlage, um neue Dinge zu erlernen, für die sie ursprünglich nicht programmiert wurden.
So ist etwa das Erkennen von Bewegungen für die künstliche Intelligenz so schwierig, da sie selbstständig anhand von Videoaufnahmen erkennen sollte, ob ein Mensch gestürzt ist oder sich nur mal eben bückt. Menschen erkennen an Merkmalen wie dem Gesichtsausdruck, dem Kontext oder der Kleidung, ob dieser Mensch zum Spaß läuft oder flüchtet. Das ist wesentlich schwieriger als die Identifizierung von Gesichtern und Objekten auf Fotos, denn das Computertraining mit Videos ist alleine schon wegen der riesigen Datenmengen aufwändiger, die dafür verarbeitet werden müssen. Auch trainieren solche Systeme klassischerweise mit Texten, die beschreiben, was auf Fotos oder Videosequenzen zu sehen ist. Solche Verschlagwortungen, Annotationen genannt, werden von Menschen gemacht, die die Bilder ansehen und beschreiben, sodass das System auf diese Weise lernt, was etwa ein Glas ist. Bei Videos ist dieser Prozess viel zeitaufwändiger, Annotationen zu erstellen und so genug Trainingsmaterial zu erhalten, alleine wegen der großen Datenmengen und der längeren Zeitspannen, die für Videos veranschlagt werden müssen. Auch gibt es für dieselbe Bewegung oft unterschiedliche Begriffe, die auch davon abhängen, wie lange eine Bewegung beobachtet werden kann. Das zweite Problem liegt darin, wie Menschen den Datenstrom verarbeiten, den sie über Augen und Ohren empfangen, denn Menschen nehmen Bewegungen nicht als etwas Kontinuierliches wahr, sondern unterteilen sie in kleinere Abschnitte, wobei sie erst im Gehirn wieder zu einem kontinuierlichen Bewegungsablauf zusammengefügt werden. Wie viele einzelne Abschnitte wahrgenommen werden, hängt dabei von den individuellen Erfahrungen und Fähigkeiten jedes Betrachters ab.
Literatur
https://www.scinexx.de/dossier/videoerkennung-ist-es-kochen-oder-winken/ (22-03-11)