
Open access
Author
Date
2022Type
- Doctoral Thesis
ETH Bibliography
yes
Altmetrics
Abstract
Plasticity is the ability to adapt, the ability to shape a model. In order to better understand how models adapt in the face of ambiguity within a learning problem, we study specific aspects of plasticity of machine learning models in general and in artificial neural networks in particular. More precisely, we are interested in how previous experiences can shape how a model adapts to new learning problems such as when people learn to play badminton when they have previously played tennis.
Neural network models have become a mainstay of commercially relevant machine learning applications such as image and speech recognition, as well as text processing. A common practice is to pre-train such models on a vast general corpus of data and then later re-train and fine-tune the model on a smaller dataset that is of more topical interest. While this training procedure often appears to be highly successful, the involved training dynamics are not yet clearly understood.
We formalize the problem setting and the ingredients of sequential machine learning. From this basis, we define plasticity and derive some of the plasticity properties of optimal models. As part of this process, we link the pre-training properties to established concepts such as priors and pre-conditioning.
As the main contribution, we discover and describe a new and qualitatively different type of sparsity in neural network models which we call mutually frozen, which can inhibit re-training and effectively limit the capacity of a model. The result of this is twofold: First, losing plasticity due to frozen weights can prevent a model to re-train on significantly different new learning tasks. Second, we link frozen weights as well as plasticity to the invariance characteristics of a model, where invariance to nuisances makes a model more robust to irrelevant variations in the data and helps it generalize to unseen data. Finally, we use these insights to improve pre-training and fine-tuning performance in a variety of settings and offer future directions that make use of our plasticity perspective on learning. Show more
Plastizität ist die Fähigkeit sich anzupassen.
Wir untersuchen spezielle Aspekte der Plastizität von maschinellen Lernmodellen, insbesondere von künstlichen neuronalen Netzen, um besser zu verstehen, wie solche Modelle sich in mehrdeutigen Lernproblemen anpassen.
Ein besonderes Interesse widmen wir der Frage wie Erfahrungen ein Modell prägen können, wenn es sich an ein neues Lernproblem anpasst. Beispielsweise lernen Leute anders Badminton zu spielen, wenn sie vorher Tennis gespielt haben.
Neuronale Netze sind zu wichtigen Bestandteilen von kommerziell relevanten Anwendungen wie Bild- und Spracherkennung, sowie Textverarbeitung geworden.
Eine häufige Vorgehensweise dabei ist es ein Modell auf einer typischerweise sehr grossen allgemeinen Lernaufgabe vorzutrainieren und es dann später auf einem kleineren Datensatz, der von eigentlichem Interesse ist, nachzutrainieren.
Diese Herangehensweise ist in der Praxis oft sehr erfolgreich, leider aber noch nicht vollständig verstanden.
Wir formalisieren die Problemstellung und die Bestandteile von sequentiellem maschinellem Lernen. Von dieser Basis heraus definieren wir Plastizität und erläutern welche Plastizitätsattribute ein optimales Modell haben sollte.
Als Teil dieser Ausführungen etablieren wir Verbindungen zwischen den Eigenschaften vortrainierter neuronaler Netze und etablierten Konzepten wie A-priori Wahrscheinlichkeitsverteilungen und Vorkonditionierung.
Als Hauptbeitrag entdecken und beschreiben wir eine qualitativ neue Art von Nullwerten in neuronalen Netzen, welche wir gegenseitig gefroren nennen. Diese können das Trainieren hemmen und limitieren die Kapazität eines Modells.
Einerseits verliert das Modell Plastizität, welches ein vollständiges Anpassen an ein neuartiges Lernproblem verhindern kann.
Andererseits finden wir eine Verbindung zwischen Plastizität und gefrorenen Werten des Modells zur Invarianz zu Störungen, welche dem Modell wiederum hilft auf neuen ungesehenen Daten zu generalisieren.
Schlussendlich nutzen wir die gewonnenen Erkenntnisse, um die Leistung beim Vortrainieren und Nachtrainieren von neuronalen Netzwerken in einer Vielzahl von Szenarien zu verbessern und neue Forschungsanstösse vorzuschlagen. Show more
Permanent link
https://doi.org/10.3929/ethz-b-000578035Publication status
publishedExternal links
Search print copy at ETH Library
Publisher
ETH ZurichSubject
Neural network; Deep Learning; Dynamics; Plasticity; Invariance; SparsityOrganisational unit
09574 - Frazzoli, Emilio / Frazzoli, Emilio
More
Show all metadata
ETH Bibliography
yes
Altmetrics