SeI_MoR

Semantische Inbetriebnahme Mobiler Roboter

Ablaufdiagramm zur Umgebungserfassung durch Roboter mit 2D-Laserscanner und RGB-Kamera für Karten. IFL
Abbildung 1: Semantische Kartierung intralogistischer Umgebungen durch mobile Roboter mithilfe von Foundation Models.
Motivation und Zielsetzung

Die Intralogistik ist durch komplexe Materialflüsse und eine hohe Variantenvielfalt geprägt. Prozesse wie Inbetriebnahme oder Störungsbehebung sind derzeit stark vom Einsatz qualifizierten Fachpersonals abhängig – ein Aufwand, der durch Fachkräftemangel und weite Anfahrtswege weiter steigt. Das Forschungsprojekt Semantische Inbetriebnahme Mobiler Roboter verfolgte daher die Vision einer Intralogistik, in der Roboter ihre Umgebung kontextbezogen verstehen und logistische Situationen eigenständig interpretieren können. Wie in Abbildung 1 gezeigt, erkundet ein mobiler Roboter seine Umgebung mittels SLAM-Verfahren, wobei ein 2D-Laserscanner geometrische Strukturen erfasst und eine RGB-Kamera Bilddaten für die semantische Analyse liefert. Ziel war es, mithilfe von Foundation Models ein semantisches Umgebungsverständnis zu erzeugen, das eine teilautonome Inbetriebnahme ermöglicht.

Vorgehensweise

Zur Umsetzung wurde die SeI_MoR-Pipeline entwickelt, die geometrische und visuelle Sensordaten fusioniert und zu einer semantischen Karte verarbeitet. Die Bilddaten werden mit dem Segment Anything Model segmentiert und durch ein multimodales Large Language Model (LLM) klassifiziert. Dabei werden nicht nur Objektklassen, sondern auch deren Beweglichkeit (statisch, semi-statisch oder dynamisch) bestimmt.
Die Kombination dieser semantischen Informationen mit der geometrischen SLAM-Karte ermöglicht die Erstellung einer kontextbewussten Umgebungskarte. Ergänzend sorgt ein Human-in-the-Loop-Mechanismus für eine kontinuierliche Qualitätsverbesserung der Klassifikationen.

Ergebnisse

In umfangreichen Tests im Mobile Robotics Lab konnte die entwickelte Pipeline ihre Leistungsfähigkeit unter realitätsnahen Bedingungen unter Beweis stellen. In einem komplexen Testszenario wurden eine Klassifikationsgenauigkeit der Objektdynamik von 86 % und eine Klassifikationsgenauigkeit der Objektklassen von 66 % erreicht. Besonders hervorzuheben ist die Fähigkeit der Open-Vocabulary-Klassifikation, die es ermöglicht, auch bisher unbekannte Objekte zuverlässig zu erkennen. Das Feedback aus der Industrie bestätigt den hohen Praxisbezug: Semantische Karten können Inbetriebnahmeprozesse deutlich beschleunigen, die Navigation verbessern und die Integration mobiler Roboter in dynamischen Umgebungen wesentlich erleichtern.