Viewpoint-Tolerant Place Recognition for Unmanned Aerial Vehicles using Vision
Open access
Date
2019Type
- Doctoral Thesis
ETH Bibliography
yes
Altmetrics
Abstract
With the emergence of powerful techniques for robotic egomotion estimation and map building that follow the SLAM (Simultaneous Localization And Mapping) paradigm, Place Recognition has become of fundamental importance for robotic autonomy. Addressing Place Recognition by determining whether a robot returns to a previously visited location, which is widely known as the Loop-closure Detection problem, is a key competence to enable the creation of accurate maps and even recovery from complete localization failures, essentially opening up the way towards long-term autonomous robot navigation. However, the deployment of robotic platforms for long periods of time or for multiple missions taking place months or years apart from each other, can pose major challenges in Place Recognition, due mainly by the large appearance variability that a place may experience over time, such as seasonal and lighting changes, weather conditions as well as human activity. Trajectory and viewpoint variations are common even in shorter-term missions. The views of a street from a car, for example, when it is navigating from the opposite directions can be rather different. Considering the navigation in a scene using an Unmanned Aerial Vehicle (UAV), however, the viewpoint changes experienced are far more challenging, and this is especially the case in flights with rotorcraft UAVs, which are able to move with great agility in 3D.
In this thesis, we address the problem of viewpoint-tolerant Place Recognition for autonomous robot navigation. More specifically, we have focused our efforts on the development of approaches that are suitable for small UAVs with restricted payload onboard and as a result, limited computational capabilities. Deep learning approaches addressing Place Recognition have been demonstrated to perform very well under isolated variations in appearance. The power of these methods, however, stems from specific training on the expected scene variations and complex computational effort. This, in turn, imposes the need for extensive training datasets and powerful Graphics Processing Units (GPUs), which are often unavailable onboard small aircraft, rendering the use of such methods at least impractical in aerial navigation. On the other hand, more affordable and scalable feature-based techniques building on the efficient Bag-of-Words (BoW) representation exist in the literature, however, these methods are known to fail dramatically in the presence of large appearance and viewpoint changes. This is largely due to the fact that BoW approaches discard all geometric information of the scene structure by design.
Inspired by the need for lightweight and effective techniques for Place Recognition onboard small aircraft, this thesis investigates ways to render feature-based approaches capable of coping with the variability of places when experienced from such small aircraft, while bounding the onboard computation effort for real-time operation. As a result, this thesis describes a set of novel approaches for viewpoint-tolerant Place Recognition progressively building on top of each other, achieving unprecedented robustness with relation to the state-of-the-art. Assuming that a nominal, keyframe- and vision-based SLAM framework is running onboard the robot, this thesis advocates the power of exploiting both 2D visual information inherent in images, as well as the often noisy estimates of the local 3D geometry captured by SLAM in deciding on whether the robot is in the presence of a loop. Across all approaches proposed here, a BoW image representation is used in combination with efficient binary image features to enable fast image retrieval. Any loop-closure candidates from the database of all robot's experiences matching a query image is then subjected to geometric verification. This entails a test for matching constellations of the visible image features in an attempt to reject false appearance matches returned by the image retrieval step. Along with investigating efficient and robust geometric tests to avoid false positive loop-closures, different image and scene representations have been investigated. Namely, the first approach proposed, employs orthophotos to create a well-conditioned problem to address orientation tolerance, demonstrating better recall than counterpart methods relying on perspective images in urban environments, where the presence of large planar structures can be assumed. Pushing for more general scenarios, and relaxing this assumption, the second method for lightweight Place Recognition proposed in this thesis is a new, carefully designed pipeline to support low-burden computation and to take advantage of any scale and rotation invariance offered by binary descriptors by using combined geometric checks that make use of both 2D and 3D information. Tests in both hand-held and aerial datasets exhibiting large viewpoint and appearance changes have revealed unprecedented recall for perfect precision for this pipeline in comparison to the state of the art. However, it was only with the extension of this pipeline with a scene-depth completion module to densify the map of the local scene (i.e. "place"), described in the final method proposed here, that indeed tolerance to extreme viewpoint changes of up to 45$^{\circ}$ was achieved. This comprises a drastic improvement in viewpoint tolerance when compared with the state of the art today, demonstrating that feature-based approaches still have a lot to offer in Place Recognition at extreme viewpoint changes.
Throughout the research conducted for this thesis, several synthetic and real datasets, with both hand-held and aerial footage, were captured and made publicly available. Inspired by the lack of such datasets in the literature and the need to benchmark methods, these datasets were designed to present large appearance changes and extreme viewpoint variations (0-45$^{\circ}$). In particular, our synthetic datasets are, to the best of our knowledge, the first to isolate the problem of viewpoint changes for Place Recognition, addressing a crucial gap in the literature. Tackling real-time, viewpoint-tolerant Place Recognition for lightweight single- or multi-robot applications, as well as releasing novel benchmarking datasets, the research findings of this thesis push the boundaries of vision-based aerial navigation, but also shed light to new research directions towards long-term robot autonomy in real missions. The prospect of leveraging the benefits of both feature- and learning-based approaches to go beyond viewpoint-tolerance and addressing the open problem of combined tolerance to common challenges, such as seasonal and illumination changes as well as higher-level reasoning for perceptual aliasing, opens up exciting opportunities for added robotic intelligence and autonomy. Show more
Con l’emergere di tecniche sempre più potenti per la stima del movimento di un robot e la costruzione di mappe seguendo i paradigmi dello SLAM (Simultaneous Localization And Mapping), il problema del Place Recognition ha assunto un’importanza fondamentale nell’attività di ricerca rivolta all’autonomia dei robot. Cercare di determinare tramite tecniche di Place Recognition se un robot abbia fatto ritorno in un luogo precedentemente visitato, problema conosciuto comunemente come Loop-closure Detection, è una capacità essenziale per permettere la costruzione di mappe accurate e di recuperare la stima della posizione in caso di errori nel processo di localizzazione, aprendo di fatto la via verso la navigazione autonoma a lungo termine dei robot. Ciononostante, l’utilizzo di robot in missioni che richiedono lunghi periodi di tempo o che sono da svolgersi a distanza di mesi o anni tra di loro, può porre delle grandi difficoltà nel Place Recognition, principalmente a causa della notevole variabilità a cui un luogo può essere soggetto nel tempo, dovuta ad esempio a cambiamenti stagionali o delle condizioni di illuminazione, alle condizioni meteo e all’attività umana. Le variazioni di traiettoria e di punto di osservazione sono tuttavia comuni anche nelle missioni di breve periodo. Ad esempio, le esperienze visive di una strada vista da un’auto possono essere notevolmente differenti a seconda della direzione di guida. Considerando la navigazione di un Unmanned Aerial Vehicle (UAV), tuttavia, i cambiamenti del punto di osservazione sono nettamente più difficoltosi, specialmente in caso di volo di UAV multirotori, a causa della loro agilità nei movimenti in 3D.
In questa tesi, viene affrontato il problema del Place Recognition robusto al cambiamento del punto di osservazione della scena per la navigazione autonoma dei robot. Più precisamente, abbiamo concentrato i nostri sforzi sullo sviluppo di approcci che siano adatti a UAV di piccole dimensioni, con ridotta capacità di carico utile e, di conseguenza, con potere computazionale limitato. È stato dimostrato che gli approcci di Deep Learning che affrontano il problema del Place Recognition ottengono ottimi risultati in caso di variazioni isolate nell’aspetto dei luoghi precedentemente visitati. La forza di questi metodi tuttavia deriva da un training, o allenamento, specifico sui cambiamenti attesi e da un notevole sforzo computazionale. Queste caratteristiche impongono di conseguenza la necessità di vasti dataset di allenamento e di potenti GPU (Graphics Processing Units), che spesso non sono disponibili a bordo di veicoli di piccole dimensioni, rendendo l’uso di tali metodologie non pratiche in caso di navigazione aerea. D’altra parte, in letteratura esistono tecniche computazionalmente meno costose e meglio scalabili basate sull’estrazione di features, come l’efficiente Bag-of-Words (BoW). Tuttavia, è noto che questi metodi falliscono in modo drastico in caso di grandi cambiamenti di aspetto e del punto di osservazione. Questo limite è dovuto al fatto che, per scelte di progettazione, l’approccio del BoW scarta tutte le informazioni relative alla struttura geometrica della scena.
Partendo dalla necessità di tecniche computazionalmente trattabili ed efficaci da utilizzarsi a bordo di veicoli di dimensioni ridotte per il problema del Place Recognition, questa tesi si concentra sugli approcci basati sull’estrazione di features al fine di renderli capaci di affrontare i cambiamenti nell’aspetto dei luoghi quando sperimentati da droni, cercando di limitare lo sforzo computazionale per permettere operazioni in tempo reale. Come risultato, questa tesi introduce una serie di nuove metodologie per Place Recognition robuste ai cambiamenti del punto di osservazione che si vanno a basare progressivamente l’una sull’altra, raggiungendo un livello di robustezza senza precedenti nello stato dell’arte. Supponendo che un sistema di SLAM, basato esclusivamente su fotocamere e sull’estrazione di keyframes, sia operativo a bordo del robot, questa tesi sostiene l’importanza di sfruttare sia le informazioni visive 2D inerenti alle immagini, sia le misure della geometria 3D catturata dallo SLAM, seppur sottoposte a rumore, al fine di decidere se un robot sia in presenza di un luogo precedentemente visitato, o Loop-Closure. In tutti gli approcci proposti, una rappresentazione basata su BoW è usata in combinazione con features binarie estratte dall’immagine per consentire un rapido recupero delle informazioni. Ogni candidato per un Loop-Closure, estratto dal database di tutte le esperienze passate di un robot e corrispondente a una immagine di query, è soggetto a una verifica di tipo geometrico. Ciò impone un test per verificare la corrispondenza delle costellazioni delle features visibili nelle immagini, nel tentativo di rifiutare le corrispondenze errate ottenute nel passaggio di recupero dell’immagine dal database. Oltre allo sviluppo di test geometrici efficienti e robusti per evitare falsi positivi nei Loop-Closures, sono state investigate diverse rappresentazioni delle immagini e delle scene. Il primo approccio proposto utilizza ortofoto al fine di costruire un problema ben posto per migliorare la robustezza alla variazione di orientazione del punto di vista, mostrando come in ambienti urbani, dove è possibile ipotizzare la presenza di grandi strutture piane, sia possibile ottenere un miglior recall rispetto ad altri metodi basati su immagini proiettive. Muovendosi verso scenari più generici e rilassando l’ipotesi di planarità, il secondo metodo per Place Recognition proposto in questa tesi è un nuovo approccio attentamente progettato, in modo tale da essere caratterizzato da un basso carico computazionale e dalla capacità di sfruttare l’invarianza alla scala e alla rotazione dei descrittori binari, utilizzando una combinazione di controlli geometrici che impiegano sia le informazioni 2D sia 3D. I test nei dataset, sia nei casi hand-held sia aerei, caratterizzati da grandi cambiamenti nella direzione di osservazione ed nell’aspetto dei luoghi, mostrano, data una precisione perfetta, un recall senza precedenti nello stato dell’arte. Tuttavia, solo con l’estensione dell’approccio con un modulo per il calcolo della profondità della scena osservata, al fine di densificare la mappa locale (i.e. il “luogo”), descritto nell’ultimo metodo qui introdotto, la tolleranza a cambiamenti estremi del punto di vista riesce a raggiungere i 45$^{\circ}$. Ciò ha portato ad un miglioramento drastico rispetto allo stato dell’arte odierno della robustezza al cambiamento della direzione di osservazione, mostrando come gli approcci basati sull’estrazione di features abbiano ancora molto da offrire al problema del Place Recognition soggetto a cambiamenti estremi del punto di vista.
Durante la ricerca condotta per questa tesi, diversi dataset, sia hand-held sia arei, sono stati raccolti e resi pubblici. Ispirati dalla mancanza di tali dataset in letteratura e dalla necessità di metodi per effettuare comparazioni dei risultati, questi dati sono caratterizzati da grandi cambiamenti di aspetto e da variazioni estreme del punto di osservazione (0-45$^{\circ}$). In particolare, i nostri dataset sintetici sono, al meglio delle nostre conoscenze, i primi a isolare il problema delle variazioni del punto di vista per il Place Recognition, colmando una lacuna cruciale presente in letteratura. Affrontando il problema del Place Recognition robusto ai cambiamenti dei punti di osservazione, utilizzabile in tempo reale in uno o più robot di dimensioni ridotte, e allo stesso tempo pubblicando nuovi dataset per attività di comparazione, i risultati di questa tesi non solo spingono i limiti della navigazione aerea basata su sensori visivi, ma gettano luce anche su nuove direzioni di ricerca verso l’uso di robot autonomi in missioni a lungo termine nel mondo reale. La prospettiva di sfruttare i benefici dei metodi basati sia sull’estrazione di features sia sul Deep Learning per affrontare la tolleranza ai cambiamenti dei punti di osservazione e altri problemi comuni non ancora risolti, come cambiamenti stagionali e di illuminazione, nonché il ragionamento ad alto livello per l’aliasing percettivo, apre nuove eccitanti opportunità per lo sviluppo dell’intelligenza e dell’autonomia dei robot. Show more
Permanent link
https://doi.org/10.3929/ethz-b-000381436Publication status
publishedExternal links
Search print copy at ETH Library
Publisher
ETH ZurichSubject
Computer Vision; Place RecognitionOrganisational unit
09559 - Chli, Margarita (ehemalig) / Chli, Margarita (former)
Funding
157585 - Collaborative vision-based perception for teams of (aerial) robots (SNF)
644128 - Collaborative Aerial Robotic Workers (SBFI)
More
Show all metadata
ETH Bibliography
yes
Altmetrics