Open access
Author
Date
2020Type
- Doctoral Thesis
ETH Bibliography
yes
Altmetrics
Abstract
The progress in the research and development of Unmanned Aerial Vehicles (UAV) has been tremendous in the last decade, making drones a valuable tool to automate applications that are risky, monotonous, or even unachievable for human-crewed operations:
UAVs promise to deliver medical supplies to remote places, count wildlife, or create overview images for damage assessment after natural catastrophes. Nevertheless, a large proportion of the research has concentrated on confined indoor spaces where motion capturing systems may provide nearly perfect state estimation, and a large variety of depth sensors is applicable. Instead, this dissertation focuses on the challenges that arise when the UAV leaves the controlled lab environment and has to cope with a limited payload capacity, noisy measurements, and vast unstructured scenes. Within the scope of this thesis, we combine machine and deep learning with computer vision to develop the core perception abilities that a robot needs for informed, autonomous decision-making.
A fundamental competence that an autonomous UAV requires is the ability to locate itself in large-scale outdoor environments under severe light conditions. Global Navigation Satellite Systems (GNSS) may be used for localization in specific applications but the provided accuracy is limited, and multi-pathing or dropouts may occur next to mountainsides or during operations close to the ground. In our first publication, we propose a navigation system, consisting of a single camera and an Inertial Measurement Unit (IMU), that makes accurate optimization-based state estimation computationally feasible by utilizing a sliding-window estimator. The visual-inertial solution is able to provide smooth pose estimates close to the ground enabling otherwise risky maneuvers such as landings, take-offs, or fly-bys. For larger-scale, geo-referenced localization, pre-existing maps generated from satellite or UAV imagery have immense potential, yet the appearance and environmental changes can be significant. The second publication introduces a framework to generate geo-referenced elevation maps and orthoimages for real-time robotic applications. The closely related third publication combines a rendering engine with a deep learning-based image alignment algorithm that estimates the geo-referenced six degrees of freedom (DoF) camera pose even under substantial environmental and illumination variations.
Furthermore, an autonomous UAV requires a reliable depth estimation to ensure environmental awareness and to detect and avoid unmapped or dynamic obstacles and navigate safely through unexplored, potentially cluttered environments. This capability becomes particularly crucial with the increasing amount of air traffic, induced by the surge of UAVs. However, for the vast majority of small-scale UAVs, available depth sensors are not deployable due to tight constraints on the payload, dimensions, price, power consumption, and stringent requirements on range and resolution. Motivated by the caveats of depth-from-motion principles with only a single camera, we design a novel multi-IMU multi-camera system for long-range depth estimation, particularly suited for fixed-wing UAVs. The non-rigid multi-view stereo baseline is estimated using inertial measurements, visual cues, and is enhanced with deep learning.
The final part of this dissertation investigates autonomous landing site detection, deep learning-based human detection, and collaborative reconstruction, covering further essential perception capabilities, including scene understanding, object detection, and point cloud registration. Overall, this dissertation provides an extensive perception framework for UAVs, investigating crucial aspects for autonomous mission completion. The proposed algorithms are validated with realistic synthetic datasets, hardware-in-the-loop tests, or real-world experiments. Within the scope of the thesis, more than six different rotary-wing and fixed-wing platforms have been equipped with sensor systems and used in real-world missions. To accelerate the research in this field, source code of several algorithms and valuable datasets with different sensor modalities have been made publicly available to the community. Show more
Im letzten Jahrzehnt konnten enorme Fortschritte in der Forschung und Entwicklung unbemannter Luftfahrzeuge (Unmanned Aerial Vehicles, UAVs) erzielt werden. Diese Fortschritte haben Drohnen zu einem unermesslichen Werkzeug für die Automatisierung von jenen Anwendungen gemacht, die für bemannte Einsätze zu risikoreich, monoton oder schlicht nicht realisierbar wären: Unbemannte Luftfahrzeuge sind in der Lage medizinische Hilfsgüter an entlegene Orte zu transportieren, den Wildbestand zu zählen oder Übersichtsbilder zur Schadensbeurteilung nach Naturkatastrophen zu erstellen. Gleichwohl hat sich ein grosser Teil der Forschung mit Experimenten in abgeschirmten Innenbereichen befasst, in denen beispielsweise sogenannte Motion-Capturing-Systeme eine nahezu perfekte Zustandsschätzung liefern können und gleichzeitig eine grosse Anzahl von Sensoren zur Tiefenschätzung Anwendung finden. Im Gegensatz dazu widmet sich die vorliegende Dissertation den Herausforderungen, die sich ergeben, wenn die Drohne die kontrollierte Laborumgebung verlässt und sich mit einer begrenzten Nutzlastkapazität, verrauschten Sensordaten und unstrukturierten Umgebungen konfrontiert sieht. Im Rahmen dieser Arbeit werden Elemente des maschinellen und tiefen Lernens (Machine, Deep Learning) mit computerbasierten Sehen (Computer Vision) kombiniert, um Fähigkeiten im Bereich der Umgebungswahrnehmung zu entwickeln, die der Roboter für eine informationsbasierte und autonome Entscheidungsfindung benötigt.
Eine autonome Drohne muss in der Lage sein sich selbst unter schwierigen Lichtverhältnissen in weiträumigen Aussengeländen zu orten. In bestimmte Anwendungen können hierfür Globale Navigationssatellitensysteme (GNSS) eingesetzt werden. Allerdings ist die Messgenauigkeit begrenzt und Mehrwegempfang (Multi-Pathing) oder komplette Messausfälle können in der Nähe von Berghängen oder bei bodennahen Einsätzen auftreten. In der ersten Publikation entwickeln wir ein Navigationssystem, das aus einer Kamera und einer inertialen Messeinheit (Inertial Measurement Unit, IMU) besteht und eine genaue, auf Optimierung basierende Zustandsschätzung durch die Verwendung eines Schiebefenster-Mechanismus (Sliding Window) rechnerisch möglich macht. Diese Kamera-IMU Lösung ist in der Lage genaue Schätzungen der Position und Orientierung in Bodennähe zu liefern und damit Flugmanöver wie Starts, Landungen und Tiefflüge zu ermöglichen. Für eine georeferenzierte Lokalisierung bietet bestehendes Kartenmaterial, welches aus Satelliten- oder UAV-Bildern erzeugt wurde, ein beträchtliches Potenzial. Allerdings müssen bei dieser Lokalisierungsart mögliche Licht- und Umgebungsveränderungen berücksichtigt werden. Die zweite Publikation stellt Verfahren vor, um georeferenzierte Höhenkarten und Orthobilder für Anwendungen im Robotikbereich in Echtzeit zu erstellen. Die damit verknüpfte dritte Publikation stellt einen lernbasierten Algorithmus vor, der die Kamerabilder der Drohne mit denen eines Modells vergleicht, und daraus die georeferenzierte Kamerapose mit sechs Freiheitsgraden selbst unter erheblichen Umgebungsveränderungen schätzen kann.
Des Weiteren benötigt eine autonome Drohne eine verlässliche Tiefenschätzung zur Umgebungswahrnehmung um beispielsweise nicht kartierte oder dynamische Hindernisse zu detektieren und diesen auszuweichen und um ausserdem sicher durch unerkundete und potenziell unübersichtliche Umgebungen zu navigieren. Diese Fähigkeit wird mit der stetigen Zunahme von UAVs im Luftverkehr besonders wichtig. Für die überwiegende Mehrheit der kleinen unbemannten Drohnen sind die verfügbaren Tiefensensoren jedoch nicht einsetzbar, da die Nutzlast, die Abmessungen und der Stromverbrauch an Bord limitiert sind und gleichzeitig strenge Anforderungen an Reichweite und Auflösung gestellt werden. Basierend auf den Nachteilen der Tiefenschätzung mit nur einer Kamera entwerfen wir ein neuartiges Multi-IMU-Multi-Kamerasystem zur Tiefenschätzung über grosse Entfernungen, das sich besonders für unbemannte Flugzeuge mit Tragflächen eignet. Die veränderliche relative Position und Orientierung des Stereo-Kamera-Systems wird in Echtzeit mittels Inertialmessungen, Kamerabildern und Deep Learning geschätzt.
Der letzte Teil dieser Dissertation untersucht die autonome Landeplatzerkennung, die lernbasierten Menschenerkennung und die Rekonstruktion eines Gebiets durch die Zusammenarbeit mehrerer Drohnen. Durch diesen Teil werden weitere Gebiete des maschinellen Sehens wie Szenenverständnis, Objekterkennung und die Registrierung von Punktwolken abgedeckt. Insgesamt erarbeitet diese Dissertation ein umfassendes System zum maschinellen Sehen für Drohnen und ermöglicht dadurch eine autonome Missionsausführung. Die entworfenen Algorithmen werden mit realistischen synthetischen Datensätzen, Hardware-in-the-Loop-Tests oder Feldexperimenten validiert. Im Rahmen dieser Dissertation wurden mehr als sechs unbemannte Drehflügler und Flugzeuge mit Sensorsystemen ausgestattet und in echten Missionen eingesetzt. Um die Forschung auf diesem Gebiet weiter voranzutreiben, wurde der Quellcode mehrerer Algorithmen und aufgenommene Datensätze mit verschiedenen Sensormodalitäten öffentlich zugänglich gemacht. Show more
Permanent link
https://doi.org/10.3929/ethz-b-000478139Publication status
publishedExternal links
Search print copy at ETH Library
Publisher
ETH ZurichSubject
Unmanned Aerial Vehicles; Computer Vision; Machine Learning; Deep Learning; Localization and Mapping; Long-range Depth Estimation; Landing Site Detection; Optical-Infrared Human Detection; Optical-Lidar Point cloud Alignment; Reference View Rendering for Localization; Vision-based Wing ModellingOrganisational unit
03737 - Siegwart, Roland Y. / Siegwart, Roland Y.
More
Show all metadata
ETH Bibliography
yes
Altmetrics