Verlustfunktionen im Maschninellen Lernen

Verlustfunktionen im Maschninellen Lernen


Latest

Verlustfunktionen im Maschninellen Lernen

Author: Christoph Würsch, ICE

Verlustfunktionen im ML

Table of Contents

  1. Optimierung von Modellen mittels Verlustfunktionen und Gradientenabstieg
  2. Verlustfunktionen für die Regression
  3. Verlustfunktionen für die Klassifikation
  4. Kontrastive Verlustfunktionen (Contrastive Losses)
  5. Adversariale Verlustfunktionen (Adversarial Losses)
  6. References

Dieser Artikel bietet einen umfassenden Überblick über Verlustfunktionen als zentrale Komponente der Modelloptimierung im Maschinellen Lernen. Er analysiert zunächst Funktionen für die Regression und beleuchtet deren unterschiedliche Robustheit gegenüber Ausreissern, wie beim Vergleich von MSE und MAE. Anschliessend werden Ansätze für die Klassifikation behandelt, die von Maximum-Margin-Methoden wie dem Hinge-Verlust bis zu probabilistischen Modellen mittels Kreuzentropie reichen. Weiterhin werden kontrastive Verluste für das selbst-überwachte Lernen von Datenrepräsentationen durch den Vergleich ähnlicher und unähnlicher Datenpunkte erläutert. Zuletzt stellt der Artikel adversariale Verluste vor, die das kompetitive Training von Generative Adversarial Networks (GANs) ermöglichen. Der Text verdeutlicht, dass die Wahl der Verlustfunktion eine kritische Designentscheidung ist, die die Leistung, Robustheit und das Verhalten eines Modells massgeblich beeinflusst.

donwnload as pdf

1. Optimierung von Modellen mittels Verlustfunktionen und Gradientenabstieg

Im Rahmen des überwachten maschinellen Lernens ist das primäre Ziel, eine Funktion fθ(x)f_\theta(\bm{x}) zu lernen, die Eingabedaten x\bm{x} möglichst präzise auf zugehörige Zielwerte yy abbildet. Die Funktion fθf_\theta wird durch einen Satz von Parametern θ\theta (z.B. die Gewichte und Biases eines neuronalen Netzes) bestimmt. Um zu quantifizieren, wie gut das Modell mit den aktuellen Parametern θ\theta diese Aufgabe erfüllt, wird eine Verlustfunktion (Loss Function) L\mathcal{L} verwendet. Die Verlustfunktion L(y,y^)\mathcal{L}(y, \hat{y}) misst die Diskrepanz oder den “Verlust” zwischen dem wahren Zielwert yy und der Vorhersage y^=fθ(x)\hat{y} = f_\theta(\bm{x}) für ein einzelnes Datenbeispiel (x,y)(\bm{x}, y). Das übergeordnete Ziel des Trainingsprozesses ist es, die Parameter θ\theta des Modells so zu optimieren, dass der durchschnittliche Verlust über den gesamten Trainingsdatensatz D={(xi,yi)}i=1ND = \{(\bm{x}_i, y_i)\}_{i=1}^N minimiert wird. Diese zu minimierende Zielfunktion (Objective Function), oft als L(θ)\mathcal{L}(\theta) bezeichnet, lautet typischerweise:

L(θ)=1Ni=1NL(yi,fθ(xi))\begin{equation} \mathcal{L}(\theta) = \frac{1}{N} \sum_{i=1}^N \mathcal{L}(y_i, f_\theta(\bm{x}_i)) \end{equation}

Hierbei bezeichnet L(θ)\mathcal{L}(\theta) den durchschnittlichen Gesamtverlust als Funktion der Parameter θ\theta, während L(yi,fθ(xi))\mathcal{L}(y_i, f_\theta(\bm{x}_i)) den Verlust für das einzelne Beispiel ii darstellt. Die Wahl einer geeigneten Verlustfunktion L(y,y^)\mathcal{L}(y, \hat{y}) hängt massgeblich von der Art der Lernaufgabe ab. Wie in den folgenden Abschnitten detailliert beschrieben wird, verwendet man für Klassifikationsaufgaben andere Verlustfunktionen (z.B. Kreuzentropie, Hinge-Verlust) als für Regressionsaufgaben (z.B. Mittlerer Quadratischer Fehler, Mittlerer Absoluter Fehler) oder für komplexere Szenarien wie generative Modellierung (z.B. adversariale Verluste) oder das Lernen von Repräsentationen (z.B. kontrastive Verluste). Unabhängig von der spezifischen Wahl der Verlustfunktion benötigen wir ein algorithmisches Verfahren, um die optimalen Parameter θ\theta^* zu finden, die die Zielfunktion L(θ)\mathcal{L}(\theta) minimieren:

θ=argminθL(θ)\begin{equation} \theta^* = \arg \min_\theta \mathcal{L}(\theta) \end{equation}

Für einfache Modelle wie die lineare Regression existieren analytische Lösungen, aber für komplexe Modelle wie tiefe neuronale Netze ist L(θ)\mathcal{L}(\theta) typischerweise eine hochdimensionale, nicht-konvexe Funktion, für die analytische Lösungen nicht praktikabel sind. Hier kommen iterative Optimierungsverfahren ins Spiel.

1.1. Das Gradientenabstiegsverfahren (Gradient Descent)

Das bei weitem am häufigsten verwendete Optimierungsverfahren im maschinellen Lernen, insbesondere im Deep Learning, ist das Gradientenabstiegsverfahren (Gradient Descent). Die Grundidee ist einfach: Man startet mit einer anfänglichen Schätzung der Parameter θ0\theta_0 und bewegt sich dann iterativ in kleinen Schritten in die Richtung, die den Wert der Verlustfunktion L(θ)\mathcal{L}(\theta) am stärksten reduziert.

Herleitung: Wir möchten die Parameter θ\theta so ändern, dass der Wert der Zielfunktion L(θ)\mathcal{L}(\theta) sinkt. Angenommen, wir befinden uns beim Parametervektor θk\theta_k im kk-ten Iterationsschritt. Wir suchen eine kleine Änderung Δθ\Delta \theta, sodass L(θk+Δθ)<L(θk)\mathcal{L}(\theta_k + \Delta \theta) < \mathcal{L}(\theta_k) gilt. Mittels einer Taylor-Entwicklung erster Ordnung können wir L(θk+Δθ)\mathcal{L}(\theta_k + \Delta \theta) in der Nähe von θk\theta_k approximieren:

L(θk+Δθ)L(θk)+θL(θk)TΔθ\begin{equation} \mathcal{L}(\theta_k + \Delta \theta) \approx \mathcal{L}(\theta_k) + \nabla_\theta \mathcal{L}(\theta_k)^T \Delta \theta \end{equation}

Hierbei ist θL(θk)\nabla_\theta \mathcal{L}(\theta_k) der Gradientenvektor der Zielfunktion L\mathcal{L} bezüglich der Parameter θ\theta, ausgewertet an der Stelle θk\theta_k. Der Gradient θL(θk)\nabla_\theta \mathcal{L}(\theta_k) zeigt in die Richtung des steilsten Anstiegs der Funktion L\mathcal{L} an der Stelle θk\theta_k. Damit L(θk+Δθ)<L(θk)\mathcal{L}(\theta_k + \Delta \theta) < \mathcal{L}(\theta_k) gilt, muss der zweite Term in Gl. \eqref{eq:taylor_expansion_L} negativ sein:

θL(θk)TΔθ<0\begin{equation} \nabla_\theta \mathcal{L}(\theta_k)^T \Delta \theta < 0 \end{equation}

Um den Wert von L\mathcal{L} möglichst schnell zu reduzieren, suchen wir die Richtung Δθ\Delta \theta, die bei einer festen (kleinen) Schrittlänge Δθ\|\Delta \theta\| den Wert des Skalarprodukts θL(θk)TΔθ\nabla_\theta \mathcal{L}(\theta_k)^T \Delta \theta minimiert. Das Skalarprodukt aTb=abcosϕ\bm{a}^T \bm{b} = \|\bm{a}\| \|\bm{b}\| \cos \phi wird minimal (am negativsten), wenn der Winkel ϕ\phi zwischen den Vektoren θL(θk)\nabla_\theta \mathcal{L}(\theta_k) und Δθ\Delta \theta gleich 180180^\circ ist, d.h., wenn Δθ\Delta \theta in die genau entgegengesetzte Richtung des Gradienten zeigt. Wir wählen daher die Aktualisierungsrichtung als den negativen Gradienten:

Δθ=ηθL(θk)\begin{equation} \Delta \theta = - \eta \nabla_\theta \mathcal{L}(\theta_k) \end{equation}

Hier ist η>0\eta > 0 ein kleiner positiver Skalar, der als Lernrate (Learning Rate) bezeichnet wird. Die Lernrate steuert die Schrittweite bei jedem Aktualisierungsschritt. Eine zu grosse Lernrate kann dazu führen, dass der Algorithmus über das Minimum hinausschiesst und divergiert, während eine zu kleine Lernrate die Konvergenz stark verlangsamt.

Die Update-Regel: Kombiniert man die aktuelle Parameterschätzung θk\theta_k mit der Änderung Δθ\Delta \theta, ergibt sich die iterative Update-Regel des Gradientenabstiegs:

θk+1=θk+Δθ=θkηθL(θk)\begin{equation} \theta_{k+1} = \theta_k + \Delta \theta = \theta_k - \eta \nabla_\theta \mathcal{L}(\theta_k) \end{equation}

Dieser Schritt wird wiederholt, bis ein Konvergenzkriterium erfüllt ist, z.B. wenn der Gradient sehr klein wird (θL(θk)0\|\nabla_\theta \mathcal{L}(\theta_k)\| \approx 0), die Änderung der Parameter oder des Verlusts unter einen Schwellenwert fällt, oder eine maximale Anzahl von Iterationen erreicht ist.

Algorithmus (Allgemeine Form):

  1. Initialisiere die Parameter θ0\theta_0 (z.B. zufällig).
  2. Wiederhole für k=0,1,2,k = 0, 1, 2, \dots bis Konvergenz: a. Berechne den Gradienten der Zielfunktion: gk=θL(θk)\bm{g}_k = \nabla_\theta \mathcal{L}(\theta_k). b. Aktualisiere die Parameter: θk+1=θkηgk\theta_{k+1} = \theta_k - \eta \bm{g}_k.
  3. Gebe die optimierten Parameter θk+1\theta_{k+1} zurück.

1.2. Varianten des Gradientenabstiegs

Die Berechnung des exakten Gradienten θL(θ)\nabla_\theta \mathcal{L}(\theta) erfordert gemäss Gl. \eqref{eq:objective_function_L} die Berechnung des Verlusts und seines Gradienten für jedes einzelne Beispiel im Trainingsdatensatz DD:

θL(θ)=θ(1Ni=1NL(yi,fθ(xi)))=1Ni=1NθL(yi,fθ(xi))\begin{equation} \nabla_\theta \mathcal{L}(\theta) = \nabla_\theta \left( \frac{1}{N} \sum_{i=1}^N \mathcal{L}(y_i, f_\theta(\bm{x}_i)) \right) = \frac{1}{N} \sum_{i=1}^N \nabla_\theta \mathcal{L}(y_i, f_\theta(\bm{x}_i)) \end{equation}

Für sehr grosse Datensätze (z.B. Millionen von Bildern) ist die Berechnung dieses vollständigen Gradienten in jedem Iterationsschritt extrem rechenaufwändig und möglicherweise unpraktikabel. Aus diesem Grund wurden verschiedene Varianten des Gradientenabstiegs entwickelt.

1.2.1. Batch Gradient Descent (BGD)

Erklärung: Dies ist die Standardvariante, die oben beschrieben wurde. Der Gradient wird über den gesamten Trainingsdatensatz berechnet, bevor ein einziger Parameterschritt durchgeführt wird.

Formel (Update):

θθη(1Ni=1NθL(yi,fθ(xi)))\begin{equation} \theta \leftarrow \theta - \eta \left( \frac{1}{N} \sum_{i=1}^N \nabla_\theta \mathcal{L}(y_i, f_\theta(\bm{x}_i)) \right) \end{equation}

Vorteile:

  • Der Gradient ist eine exakte Schätzung des wahren Gradienten der Zielfunktion L(θ)\mathcal{L}(\theta).
  • Die Konvergenz ist oft stabil und direkt auf ein lokales (bei konvexen Problemen globales) Minimum gerichtet.

Nachteile:

  • Sehr langsam und rechenintensiv für grosse Datensätze, da alle Daten für jeden Schritt verarbeitet werden müssen.
  • Möglicherweise nicht durchführbar, wenn der Datensatz nicht in den Speicher passt.
  • Kann in flachen lokalen Minima stecken bleiben.

1.2.2. Stochastic Gradient Descent (SGD)

Erklärung: Beim Stochastischen Gradientenabstieg wird der Gradient für die Parameteraktualisierung basierend auf nur einem einzigen, zufällig ausgewählten Trainingsbeispiel (xi,yi)(\bm{x}_i, y_i) in jedem Schritt geschätzt.

Formel (Update für Beispiel ii):

θθηθL(yi,fθ(xi))\begin{equation} \theta \leftarrow \theta - \eta \nabla_\theta \mathcal{L}(y_i, f_\theta(\bm{x}_i)) \end{equation}

Innerhalb einer Trainingsepoche (ein Durchlauf durch den gesamten Datensatz) werden also NN Parameter-Updates durchgeführt.

Vorteile:

  • Deutlich schnellere Updates (NN Updates pro Epoche vs. 1 bei BGD).
  • Geringer Speicherbedarf pro Update (nur ein Beispiel).
  • Die hohe Varianz (“Rauschen”) im Gradienten kann helfen, aus flachen lokalen Minima zu entkommen und potenziell bessere Minima zu finden.
  • Ermöglicht Online-Lernen (Modellaktualisierung bei Eintreffen neuer Daten).

Nachteile:

  • Hohe Varianz der Gradientenschätzung führt zu stark oszillierendem Konvergenzpfad.
  • Konvergiert nicht exakt zum Minimum, sondern oszilliert typischerweise darum herum (es sei denn, die Lernrate wird über die Zeit reduziert).
  • Verliert Effizienzvorteile durch vektorisierte Operationen auf moderner Hardware (GPUs).

1.2.3. Mini-Batch Gradient Descent (MBGD)

Erklärung: Dies ist der am häufigsten verwendete Kompromiss zwischen BGD und SGD. Der Gradient wird über einen kleinen, zufällig ausgewählten Teildatensatz, den sogenannten Mini-Batch B\mathcal{B} der Grösse BB (wobei 1<B<N1 < B < N), berechnet. Typische Batch-Grössen liegen im Bereich von B=32B=32 bis B=512B=512.

Formel (Update für Mini-Batch B\mathcal{B}):

θθη(1BiBθL(yi,fθ(xi)))\begin{equation} \theta \leftarrow \theta - \eta \left( \frac{1}{B} \sum_{i \in \mathcal{B}} \nabla_\theta \mathcal{L}(y_i, f_\theta(\bm{x}_i)) \right) \end{equation}

Eine Epoche besteht aus N/B\lceil N/B \rceil Updates.

Vorteile:

  • Reduziert die Varianz der Gradientenschätzung im Vergleich zu SGD, was zu stabilerer Konvergenz führt.
  • Nutzt die Vorteile der Vektorisierung und parallelen Verarbeitung auf GPUs effizient aus.
  • Schneller als BGD und oft stabiler/effizienter als reines SGD.

Nachteile:

  • Einführung eines neuen Hyperparameters (Batch-Grösse BB), der abgestimmt werden muss.
  • Der Gradient ist immer noch eine Schätzung (weniger verrauscht als SGD, aber nicht exakt wie BGD).

Die hier vorgestellten Varianten des Gradientenabstiegs bilden die Grundlage für die Optimierung der meisten modernen Modelle des maschinellen Lernens. Aufbauend darauf wurden zahlreiche Weiterentwicklungen vorgeschlagen, um die Konvergenzgeschwindigkeit und -stabilität weiter zu verbessern. Dazu gehören Techniken wie die Verwendung von Momentum (um Oszillationen zu dämpfen und die Konvergenz zu beschleunigen) oder adaptive Lernratenverfahren (wie AdaGrad, RMSprop und Adam), die die Lernrate η\eta für jeden Parameter individuell anpassen. Die spezifische Berechnung des Gradienten θL(yi,fθ(xi))\nabla_\theta \mathcal{L}(y_i, f_\theta(\bm{x}_i)) hängt natürlich von der gewählten Verlustfunktion L\mathcal{L} und der Architektur des Modells fθf_\theta ab. Für neuronale Netze wird dieser Gradient effizient mittels des Backpropagation-Algorithmus berechnet, welcher im Wesentlichen die Kettenregel der Differentialrechnung anwendet. Die Details der spezifischen Verlustfunktionen für verschiedene Aufgaben werden in den folgenden Abschnitten behandelt.

2. Verlustfunktionen für die Regression

Bei Regressionsproblemen im überwachten Lernen ist das Ziel, eine kontinuierliche Zielvariable yRy \in \R basierend auf Eingabemerkmalen x\bm{x} vorherzusagen. Ein Regressionsmodell fθf_\theta lernt eine Funktion, die eine Vorhersage y^=fθ(x)\hat{y} = f_\theta(\bm{x}) für einen gegebenen Input x\bm{x} liefert. Die Verlustfunktion spielt hierbei die entscheidende Rolle, die Diskrepanz oder den Fehler zwischen dem wahren Wert yy und dem vorhergesagten Wert y^\hat{y} zu quantifizieren. Das Ziel des Trainings ist es, die Parameter θ\theta des Modells so anzupassen, dass der durchschnittliche Verlust über den Trainingsdatensatz minimiert wird. Die Wahl der Verlustfunktion beeinflusst nicht nur die Konvergenz des Trainingsprozesses, sondern auch die Eigenschaften der resultierenden Vorhersagen (z.B. ob das Modell tendenziell den Mittelwert oder den Median vorhersagt) und die Robustheit des Modells gegenüber Ausreissern in den Daten. Wir verwenden die folgende Notation: yiy_i ist der wahre Wert für das ii-te Beispiel, y^i\hat{y}_i ist der vom Modell vorhergesagte Wert, und NN ist die Anzahl der Beispiele im Datensatz. Der Fehler oder das Residuum für ein Beispiel ist εi=yiy^i\varepsilon_i = y_i - \hat{y}_i.

2.1. Mittlerer Quadratischer Fehler (Mean Squared Error, MSE / L2-Verlust)

Der Mittlere Quadratische Fehler (MSE), auch L2-Verlust genannt, ist die am häufigsten verwendete Verlustfunktion für Regressionsprobleme.

Erklärung: MSE berechnet den Durchschnitt der quadrierten Differenzen zwischen den wahren und den vorhergesagten Werten. Durch das Quadrieren werden grössere Fehler überproportional stark bestraft. Dies macht MSE sehr empfindlich gegenüber Ausreissern.

Formel:

LMSE=1Ni=1N(yiy^i)2=1Ni=1Nεi2\begin{equation} \mathcal{L}_{\text{MSE}} = \frac{1}{N} \sum_{i=1}^N (y_i - \hat{y}_i)^2 = \frac{1}{N} \sum_{i=1}^N \varepsilon_i^2 \end{equation}

Für einen einzelnen Datenpunkt wird der Verlust oft als (yy^)2=ε2(y - \hat{y})^2 = \varepsilon^2 betrachtet.

Herleitung/Motivation: MSE ergibt sich natürlich aus der Maximum-Likelihood-Schätzung (MLE), wenn angenommen wird, dass die Fehler εi=yiy^i\varepsilon_i = y_i - \hat{y}_i unabhängig und identisch normalverteilt (Gaussverteilung) mit Mittelwert Null und konstanter Varianz sind. Unter dieser Annahme maximiert die Minimierung des MSE die Plausibilität der Modellparameter gegeben die Daten. Mathematisch ist MSE attraktiv, da die Funktion konvex und glatt (unendlich oft differenzierbar) ist, was die Optimierung mit gradientenbasierten Methoden erleichtert. Die Ableitung nach y^i\hat{y}_i ist einfach 2(yiy^i)=2(y^iyi)=2εi-2(y_i - \hat{y}_i) = 2(\hat{y}_i - y_i) = -2\varepsilon_i. Modelle, die mit MSE trainiert werden, lernen tendenziell, den bedingten Mittelwert von yy gegeben x\bm{x} vorherzusagen.

Eigenschaften und Herausforderungen:

EigenschaftBeschreibung
GrundideeMinimiere den Durchschnitt der quadrierten Fehler.
Formel (pro Punkt)(yy^)2=ε2(y - \hat{y})^2 = \varepsilon^2.
Ableitung (nach y^\hat{y})2(y^y)=2ε2(\hat{y} - y) = -2\varepsilon.
Vorteile
  • Mathematisch einfach zu handhaben (konvex, glatt, einfache Ableitung).
  • Starke Verbindung zur MLE bei Gaussschem Rauschen.
  • Optimale Vorhersage ist der bedingte Mittelwert.
Nachteile/ Herausforderungen
  • Sehr empfindlich gegenüber Ausreissern aufgrund der Quadrierung grosser Fehler.
  • Kann zu verzerrten Modellen führen, wenn Ausreisser vorhanden sind.
Use CasesStandard-Verlustfunktion für viele Regressionsalgorithmen (z.B. Lineare Regression, Neuronale Netze), wenn keine starken Ausreisser erwartet werden oder der Mittelwert von Interesse ist.

2.2. Mittlerer Absoluter Fehler (Mean Absolute Error, MAE / L1-Verlust)

Der Mittlere Absolute Fehler (MAE), auch L1-Verlust genannt, ist eine Alternative zu MSE, die robuster gegenüber Ausreissern ist.

Erklärung: MAE berechnet den Durchschnitt der absoluten Differenzen zwischen den wahren und den vorhergesagten Werten. Da die Fehler linear und nicht quadratisch gewichtet werden, haben Ausreisser einen geringeren Einfluss auf den Gesamtverlust als bei MSE.

Formel:

LMAE=1Ni=1Nyiy^i=1Ni=1Nεi\begin{equation} \mathcal{L}_{\text{MAE}} = \frac{1}{N} \sum_{i=1}^N |y_i - \hat{y}_i| = \frac{1}{N} \sum_{i=1}^N |\varepsilon_i| \end{equation}

Für einen einzelnen Datenpunkt ist der Verlust yy^=ε|y - \hat{y}| = |\varepsilon|.

Herleitung/Motivation: MAE entspricht der MLE, wenn angenommen wird, dass die Fehler einer Laplace-Verteilung folgen. Ein Modell, das trainiert wird, um MAE zu minimieren, lernt, den bedingten Median von yy gegeben x\bm{x} vorherzusagen. Der Median ist bekanntermassen robuster gegenüber Ausreissern als der Mittelwert. Ein Nachteil ist, dass die MAE-Funktion am Punkt y=y^y = \hat{y} (Fehler ε=0\varepsilon=0) nicht differenzierbar ist (die Ableitung springt von -1 auf +1). In der Praxis verwendet man Subgradienten (z.B. 0 oder ±1\pm 1) oder glättet die Funktion nahe null. Die Ableitung nach y^i\hat{y}_i ist sgn(yiy^i)=sgn(εi)-\text{sgn}(y_i - \hat{y}_i) = -\text{sgn}(\varepsilon_i).

Eigenschaften und Herausforderungen:

EigenschaftBeschreibung
GrundideeMinimiere den Durchschnitt der absoluten Fehler.
Formel (pro Punkt)$
Ableitung (nach y^\hat{y})sgn(y^y)=sgn(ε)\text{sgn}(\hat{y} - y) = -\text{sgn}(\varepsilon) (definiert als 0 oder ±1\pm 1 bei ε=0\varepsilon=0).
Vorteile
  • Deutlich robuster gegenüber Ausreissern als MSE.
  • Optimale Vorhersage ist der bedingte Median.
  • Intuitive Interpretation (durchschnittlicher absoluter Fehler).
Nachteile/ Herausforderungen
  • Nicht differenzierbar bei Null-Fehler (erfordert Subgradienten oder Glättung).
  • Kann zu langsamerer Konvergenz führen, da der Gradient konstant (±1\pm 1) ist und nicht kleiner wird, wenn man sich dem Minimum nähert.
Use CasesRegression bei Vorhandensein von Ausreissern, Vorhersage des Medians, Situationen, in denen grosse Fehler nicht überproportional bestraft werden sollen.

L1, L2 und Huber-Verlust

2.3. Huber-Verlust

Der Huber-Verlust ist eine hybride Verlustfunktion, die versucht, die Vorteile von MSE und MAE zu kombinieren.

Erklärung: Der Huber-Verlust verhält sich wie MSE für kleine Fehler (innerhalb eines Schwellenwerts ±δ\pm \delta) und wie MAE (linear) für grosse Fehler. Der Parameter δ\delta steuert den Übergangspunkt. Dadurch ist der Huber-Verlust weniger empfindlich gegenüber Ausreissern als MSE, aber immer noch differenzierbar am Nullpunkt (im Gegensatz zu MAE).

Formel: Für einen einzelnen Fehler ε=yy^\varepsilon = y - \hat{y}:

LHuber(ε,δ)={12ε2fu¨εδδ(ε12δ)fu¨ε>δ\begin{equation} \mathcal{L}_{\text{Huber}}(\varepsilon, \delta) = \begin{cases} \frac{1}{2}\varepsilon^2 & \text{für } |\varepsilon| \le \delta \\ \delta (|\varepsilon| - \frac{1}{2}\delta) & \text{für } |\varepsilon| > \delta \end{cases} \end{equation}

Der Gesamtverlust ist der Durchschnitt über alle Datenpunkte.

Motivation: Ziel ist es, die Robustheit von MAE für grosse Fehler mit der Effizienz und Glattheit von MSE für kleine Fehler zu verbinden. Die Funktion ist stetig differenzierbar.

Eigenschaften und Herausforderungen:

EigenschaftBeschreibung
GrundideeQuadratischer Verlust für kleine Fehler, linearer Verlust für grosse Fehler.
Formel (pro Punkt, ε=yy^\varepsilon=y-\hat{y})Siehe Gl. \eqref{eq:huber_loss}.
Ableitung (nach y^\hat{y}, für ε=yy^\varepsilon=y-\hat{y})$\begin{cases} - \varepsilon & \text{für }
Parameterδ>0\delta > 0 (Schwellenwert für den Übergang).
Vorteile
  • Guter Kompromiss zwischen MSE und MAE.
  • Weniger empfindlich gegenüber Ausreissern als MSE.
  • Stetig differenzierbar (im Gegensatz zu MAE).
Nachteile/ Herausforderungen
  • Erfordert die Wahl des Hyperparameters δ\delta.
  • Komplexere Formel als MSE oder MAE.
Use CasesRobuste Regression, wenn Ausreisser erwartet werden, aber die Glattheit von MSE wünschenswert ist. Oft in Verstärkungslernen (Reinforcement Learning) verwendet.

2.4. Log-Cosh-Verlust

Der Log-Cosh-Verlust ist eine weitere glatte Verlustfunktion, die sich ähnlich wie MAE verhält, aber überall zweimal differenzierbar ist.

Erklärung: Er basiert auf dem Logarithmus des hyperbolischen Kosinus des Fehlers. Für kleine Fehler ε\varepsilon approximiert log(cosh(ε))\log(\cosh(\varepsilon)) den quadratischen Fehler 12ε2\frac{1}{2}\varepsilon^2, während es für grosse Fehler dem absoluten Fehler εlog2|\varepsilon| - \log 2 ähnelt.

Formel:

LLogCosh=1Ni=1Nlog(cosh(y^iyi))=1Ni=1Nlog(cosh(εi))\begin{equation} \mathcal{L}_{\text{LogCosh}} = \frac{1}{N} \sum_{i=1}^N \log(\cosh(\hat{y}_i - y_i)) = \frac{1}{N} \sum_{i=1}^N \log(\cosh(\varepsilon_i)) \end{equation}

(Beachte: cosh(x)=cosh(x)\cosh(-x) = \cosh(x))

Motivation: Ziel ist es, eine Verlustfunktion zu haben, die die Robustheitseigenschaften von MAE/Huber besitzt, aber sehr glatt ist (unendlich oft differenzierbar), was für manche Optimierungsalgorithmen (z.B. solche, die zweite Ableitungen nutzen) vorteilhaft sein kann.

Eigenschaften und Herausforderungen:

EigenschaftBeschreibung
GrundideeGlatte (zweimal differenzierbare) Annäherung an MAE.
Formel (pro Punkt)log(cosh(y^y))=log(cosh(ε))\log(\cosh(\hat{y} - y)) = \log(\cosh(\varepsilon)).
Ableitung (nach y^\hat{y})tanh(y^y)=tanh(ε)\tanh(\hat{y} - y) = -\tanh(\varepsilon).
Vorteile
  • Glatt (unendlich oft differenzierbar).
  • Robustheit ähnlich zu Huber/MAE.
  • Keine zusätzlichen Hyperparameter wie δ\delta.
Nachteile/ Herausforderungen
  • Weniger gebräuchlich oder intuitiv als MSE/MAE/Huber.
  • Berechnung von cosh\cosh und tanh\tanh kann numerisch aufwendiger sein.
Use CasesRobuste Regression, wenn Glattheit (zweite Ableitung) wichtig ist. Alternative zu Huber, wenn keine Parameterabstimmung gewünscht ist.

2.5. Quantil-Verlust (Pinball Loss)

Der Quantil-Verlust, auch Pinball Loss genannt, wird verwendet, um bedingte Quantile (anstelle des Mittelwerts oder Medians) der Zielvariablen vorherzusagen.

Erklärung: Quantilregression ermöglicht es, verschiedene Punkte der bedingten Verteilung von yy zu modellieren, z.B. das 10., 50. (Median) oder 90. Perzentil. Der Quantil-Verlust ist asymmetrisch und bestraft Über- und Unterschätzungen unterschiedlich, abhängig vom Zielquantil τ(0,1)\tau \in (0, 1).

Formel: Für einen Fehler ε=yy^\varepsilon = y - \hat{y} und ein Zielquantil τ\tau:

LQuantile(ε,τ)={τεfu¨ε0(Unterscha¨tzung y^<y)(τ1)εfu¨ε<0(U¨berscha¨tzung y^>y)\begin{equation} \mathcal{L}_{\text{Quantile}}(\varepsilon, \tau) = \begin{cases} \tau \varepsilon & \text{für } \varepsilon \ge 0 \quad (\text{Unterschätzung } \hat{y} < y) \\ (\tau - 1) \varepsilon & \text{für } \varepsilon < 0 \quad (\text{Überschätzung } \hat{y} > y) \end{cases} \end{equation}

Dies kann auch kompakt als max(τε,(τ1)ε)\max(\tau \varepsilon, (\tau-1)\varepsilon) geschrieben werden. Der Gesamtverlust ist der Durchschnitt über alle Datenpunkte.

Motivation: Für τ=0.5\tau = 0.5 ist der Verlust max(0.5ε,0.5ε)=0.5ε\max(0.5 \varepsilon, -0.5 \varepsilon) = 0.5 |\varepsilon|, was äquivalent zu MAE ist (Minimierung führt zur Vorhersage des Medians). Für τ>0.5\tau > 0.5 werden Unterschätzungen (ε>0\varepsilon > 0) stärker bestraft als Überschätzungen (ε<0\varepsilon < 0), was das Modell dazu bringt, höhere Quantile vorherzusagen. Für τ<0.5\tau < 0.5 ist es umgekehrt. Dies ist nützlich, um Unsicherheitsintervalle zu schätzen oder Risiken zu modellieren.

Eigenschaften und Herausforderungen:

EigenschaftBeschreibung
GrundideeAsymmetrische Bestrafung von Fehlern zur Vorhersage spezifischer bedingter Quantile.
Formel (pro Punkt, ε=yy^\varepsilon=y-\hat{y})max(τε,(τ1)ε)\max(\tau \varepsilon, (\tau-1)\varepsilon).
Parameterτ(0,1)\tau \in (0, 1) (Zielquantil).
Vorteile
  • Ermöglicht Vorhersage beliebiger Quantile, nicht nur des Mittelwerts/Medians.
  • Gibt Einblick in die bedingte Verteilung und Unsicherheit.
  • Robust gegenüber Ausreissern (wie MAE).
Nachteile/ Herausforderungen
  • Nicht differenzierbar bei Null-Fehler (ε=0\varepsilon=0, wie MAE).
  • Erfordert die Wahl des Quantils τ\tau.
  • Vorhersage einzelner Quantile kann weniger stabil sein als Mittelwert-/Medianvorhersage.
Use CasesQuantilregression, Schätzung von Vorhersageintervallen, Risikomodellierung (z.B. Value-at-Risk), Ökonometrie, überall dort, wo die gesamte Verteilung von Interesse ist.

2.6 Die verallgemeinerte Verlustfunktion

T. Barron stellt eine verallgemeinerte Verlustfunktion vor, die eine Obermenge vieler gebräuchlicher robuster Verlustfunktionen darstellt. Durch die Anpassung eines einzigen, kontinuierlich veränderbaren Parameters kann diese Funktion so eingestellt werden, dass sie mehreren traditionellen Verlustfunktionen entspricht oder eine breitere Familie von Funktionen modelliert. Dies ermöglicht die Verallgemeinerung von Algorithmen, die auf einer festen robusten Verlustfunktion aufbauen, indem ein neuer Hyperparameter für die “Robustheit” eingeführt wird. Dieser kann justiert oder durch Techniken wie Annealing optimiert werden, um die Leistung zu verbessern.

Die grundlegende Form der Verlustfunktion ist wie folgt definiert:

L(x,α,c)=α2α(((xc)2α2+1)α21)\mathcal{L}(x,\alpha,c) = \frac{\lvert \alpha - 2 \rvert}{\alpha} \left( \left( \frac{\left( \frac{x}{c} \right)^2}{\lvert \alpha - 2 \rvert} + 1 \right)^{\frac{\alpha}{2}} - 1 \right)

Hierbei ist αR\alpha \in \mathbb{R} ein Formparameter, der die Robustheit der Verlustfunktion steuert, und c>0c > 0 ist ein Skalierungsparameter, der die Breite des quadratischen Bereichs der Funktion in der Nähe von x=0x=0 bestimmt.

Spezialfälle und Grenzwerte

Obwohl die Funktion für α=2\alpha = 2 nicht definiert ist, nähert sie sich im Grenzwert dem L2-Verlust (quadratischer Fehler) an:

limα2L(x,α,c)=12(xc)2\lim_{\alpha \to 2} \mathcal{L}(x,\alpha,c) = \frac{1}{2} \left( \frac{x}{c} \right)^2

Für α=1\alpha=1 ergibt sich eine geglättete Form des L1-Verlusts, die oft als Charbonnier- oder Pseudo-Huber-Verlust bezeichnet wird:

L(x,1,c)=(xc)2+11\mathcal{L}(x, 1, c) = \sqrt{\left(\frac{x}{c}\right)^2 + 1} - 1

Diese Funktion verhält sich in der Nähe des Ursprungs wie der L2-Verlust und für größere Werte wie der L1-Verlust.

Die Ausdruckskraft der Funktion wird besonders deutlich, wenn nicht-positive Werte für den Formparameter α\alpha betrachtet werden. Obwohl L(x,0,c)\mathcal{L}(x, 0, c) nicht definiert ist, kann der Grenzwert für α0\alpha \to 0 gebildet werden:

limα0L(x,α,c)=log(12(xc)2+1)\lim_{\alpha \to 0} \mathcal{L}(x,\alpha,c) = \log \left( \frac{1}{2} \left( \frac{x}{c} \right)^2 + 1 \right)

Dies entspricht dem Cauchy- (oder Lorentz-) Verlust.

Durch Setzen von α=2\alpha = -2 wird der Geman-McClure-Verlust reproduziert:

L(x,2,c)=2(xc)2(xc)2+4\mathcal{L}(x,-2,c) = \frac{2 \left( \frac{x}{c} \right)^2}{\left( \frac{x}{c} \right)^2 + 4}

Im Grenzwert für α\alpha \to -\infty ergibt sich der Welsch- (oder Leclerc-) Verlust:

limαL(x,α,c)=1exp(12(xc)2)\lim_{\alpha \to -\infty} \mathcal{L}(x,\alpha,c) = 1 - \exp \left( - \frac{1}{2} \left( \frac{x}{c} \right)^2 \right)

Unter Berücksichtigung dieser Spezialfälle kann die vollständige, stückweise definierte Verlustfunktion formuliert werden, welche die hebbaren Singularitäten bei α=0\alpha=0 und α=2\alpha=2 sowie den Grenzwert bei α=\alpha=-\infty explizit behandelt:

L(x,α,c)={12(xc)2falls α=2(L2-Verlust)log(12(xc)2+1)falls α=0(Cauchy-Verlust)1exp(12(xc)2)falls α=(Welsch-Verlust)α2α(((xc)2α2+1)α21)sonst\mathcal{L}(x,\alpha,c) = \begin{cases} \frac{1}{2} \left( \frac{x}{c} \right)^2 & \text{falls } \alpha = 2 \quad \text{(L2-Verlust)} \\ \log \left( \frac{1}{2} \left( \frac{x}{c} \right)^2 + 1 \right) & \text{falls } \alpha = 0 \quad \text{(Cauchy-Verlust)} \\ 1 - \exp \left( - \frac{1}{2} \left( \frac{x}{c} \right)^2 \right) & \text{falls } \alpha = -\infty \quad \text{(Welsch-Verlust)} \\ \frac{\lvert \alpha - 2 \rvert}{\alpha} \left( \left( \frac{\left( \frac{x}{c} \right)^2}{\lvert \alpha - 2 \rvert} + 1 \right)^{\frac{\alpha}{2}} - 1 \right) & \text{sonst} \end{cases}

Verallgemeinerte Verlustfunktion und ihre Ableitungen

Wie gezeigt wurde, umfasst diese Funktion eine Vielzahl bekannter robuster Verlustfunktionen.

Ableitung und Interpretation

Für gradientenbasierte Optimierungsverfahren ist die Ableitung der Verlustfunktion nach xx von entscheidender Bedeutung:

dLdx(x,α,c)={xc2falls α=22xx2+2c2falls α=0xc2exp(12(xc)2)falls α=xc2((xc)2α2+1)(α21)sonst\frac{\mathrm{d} \mathcal{L}}{\mathrm{d} x} \left(x, \alpha, c\right) = \begin{cases} \frac{x}{c^2} & \text{falls } \alpha = 2 \\ \frac{2x}{x^2 + 2c^2} & \text{falls } \alpha = 0 \\ \frac{x}{c^2} \exp \left(- \frac{1}{2} \left( \frac{x}{c} \right)^2 \right) & \text{falls } \alpha = -\infty \\ \frac{x}{c^2} \left( \frac{\left( \frac{x}{c} \right)^2}{\lvert \alpha - 2 \rvert} + 1 \right)^{(\frac{\alpha}{2} - 1)} & \text{sonst} \end{cases}

Die Form der Ableitung gibt Aufschluss darüber, wie der Parameter α\alpha das Verhalten bei der Minimierung mittels Gradientenabstieg beeinflusst.

  • Für alle α\alpha-Werte: Ist der Fehler (Residuum) klein (x<c\lvert x \rvert < c), ist die Ableitung annähernd linear. Der Einfluss eines kleinen Residuums ist also immer proportional zu seiner Größe.

  • Für α=2\alpha = 2 (L2-Verlust): Der Betrag der Ableitung wächst linear mit dem Residuum. Größere Fehler haben einen entsprechend größeren Einfluss auf die Anpassung.

  • Für α=1\alpha = 1 (Geglätteter L1-Verlust): Der Betrag der Ableitung sättigt bei einem konstanten Wert von 1c\frac{1}{c}, wenn x\lvert x \rvert größer als cc wird. Der Einfluss eines Fehlers nimmt also nie ab, überschreitet aber auch nie einen festen Betrag.

  • Für α<1\alpha < 1 (Robuste Verluste): Der Betrag der Ableitung beginnt zu sinken, wenn x\lvert x \rvert größer als cc wird. Man spricht hier von einer “redescending” Einflussfunktion. Das bedeutet, dass der Einfluss eines Ausreißers mit zunehmendem Residuum geringer wird. Je negativer α\alpha wird, desto stärker wird dieser Effekt. Für α\alpha \to -\infty wird ein Ausreißer mit einem Residuum größer als 3c3c fast vollständig ignoriert.

Eine weitere Interpretation ergibt sich aus der Perspektive statistischer Mittelwerte. Die Minimierung des L2-Verlusts (α=2\alpha=2) entspricht der Schätzung des arithmetischen Mittels. Die Minimierung des L1-Verlusts (α1\alpha \approx 1) ähnelt der Schätzung des Medians. Die Minimierung des Verlusts für α=\alpha = -\infty ist äquivalent zur lokalen Modus-Suche. Werte für α\alpha zwischen diesen Extremen können als eine glatte Interpolation zwischen diesen drei Arten von Mittelwertschätzungen betrachtet werden.

2.7. Vergleich von Regressions-Verlustfunktionen

Die Wahl der Verlustfunktion in der Regression ist ein wichtiger Aspekt des Modelldesigns. MSE ist der Standard aufgrund seiner mathematischen Einfachheit und Verbindung zur Gauss-Annahme, aber seine Empfindlichkeit gegenüber Ausreissern ist ein signifikanter Nachteil in vielen realen Anwendungen. MAE bietet Robustheit, opfert aber die Differenzierbarkeit am Minimum. Huber und Log-Cosh stellen Kompromisse dar, die Robustheit mit Glattheit verbinden, wobei Huber einen expliziten Parameter δ\delta benötigt. Der Quantil-Verlust erweitert den Fokus von zentralen Tendenzmassen (Mittelwert, Median) auf die gesamte bedingte Verteilung und ist unerlässlich für Aufgaben wie die Schätzung von Unsicherheitsintervallen. Die Entscheidung sollte basierend auf den Eigenschaften der Daten (insbesondere dem Vorhandensein von Ausreissern) und dem spezifischen Ziel der Regressionsanalyse getroffen werden (z.B. Vorhersage des Durchschnitts, des wahrscheinlichsten Werts oder eines bestimmten Quantils). Tabelle 1 fasst die Hauptmerkmale zusammen.

Tabelle 1: Vergleich von Regressions-Verlustfunktionen

VerlustfunktionFormel (pro Punkt, ε=yy^\varepsilon=y-\hat{y})OptimalvorhersageRobustheit ggü. AusreissernDifferenzierbarkeitHauptanwendung
MSE (L2)ε2\varepsilon^2Bedingter MittelwertGeringJa (glatt)Standardregression, Gauss-Rauschen
MAE (L1)$\varepsilon$Bedingter MedianHoch
Huber$\begin{cases} \frac{1}{2}\varepsilon^2 & |\varepsilon\le\delta \ \delta(|\varepsilon-\frac{1}{2}\delta) & |\varepsilon>\delta \end{cases}$Kompromiss Mittelwert/Median
Log-Coshlog(cosh(ε))\log(\cosh(\varepsilon))Ähnlich MedianMittel-HochJa (glatt)Robuste Regression (glatt)
Quantil (Pinball)max(τε,(τ1)ε)\max(\tau \varepsilon, (\tau-1)\varepsilon)Bedingtes τ\tau-QuantilHochNein (bei ε=0\varepsilon=0)Quantilregression, Unsicherheitsschätzung
Hinweis: ε=yy^\varepsilon = y - \hat{y}. Robustheit ist relativ. Differenzierbarkeit bezieht sich auf die Stetigkeit der ersten Ableitung.

3. Verlustfunktionen für die Klassifikation

Beim überwachten Lernen für die Klassifikation ist das Ziel, eine Abbildung f:XYf: \mathcal{X} \to \mathcal{Y} von einem Eingaberaum X\mathcal{X} (z.B. Rd\R^d) in einen diskreten Ausgaberaum Y\mathcal{Y}, der die Klassenlabels repräsentiert, zu lernen. Für eine gegebene Eingabe x\bm{x} erzeugt das Modell ff eine Vorhersage, die ein Rohwert (Score) f(x)Rf(\bm{x}) \in \R, eine Wahrscheinlichkeitsverteilung p^[0,1]K\hat{\bm{p}} \in [0, 1]^K oder ein direktes Klassenlabel y^Y\hat{y} \in \mathcal{Y} sein kann. Eine Verlustfunktion, L(y,y^)\mathcal{L}(y, \hat{y}) oder L(y,f(x))\mathcal{L}(y, f(\bm{x})), quantifiziert die Kosten (den „Verlust“), die entstehen, wenn das wahre Label yy ist und die Vorhersage y^\hat{y} bzw. aus f(x)f(\bm{x}) abgeleitet ist. Das Ziel während des Trainings ist typischerweise die Minimierung des durchschnittlichen Verlusts über den Trainingsdatensatz. Obwohl das ultimative Ziel bei der Klassifikation oft die Minimierung der Anzahl von Fehlklassifikationen ist (gemessen durch den Null-Eins-Verlust), ist diese Verlustfunktion nicht konvex und lässt sich nur schwer direkt mit gradientenbasierten Methoden optimieren. Daher werden verschiedene Surrogat-Verlustfunktionen (auch Ersatz-Verlustfunktionen genannt) verwendet, die typischerweise konvex und differenzierbar sind und als Annäherungen an den Null-Eins-Verlust dienen.

Wir betrachten hauptsächlich zwei gängige Konventionen für Labels:

  1. Binäre Klassifikation mit y{1,+1}y \in \{-1, +1\}: Hier gibt das Modell oft einen reellwertigen Score f(x)f(\bm{x}) aus. Das Vorzeichen von f(x)f(\bm{x}) bestimmt typischerweise die vorhergesagte Klasse y^=sgn(f(x))\hat{y} = \text{sgn}(f(\bm{x})), und der Betrag f(x)|f(\bm{x})| kann als Konfidenz interpretiert werden.
  2. Binäre/Multiklassen-Klassifikation mit Wahrscheinlichkeiten: Hier wird das wahre Label yy oft als ganze Zahl y{0,1,,K1}y \in \{0, 1, \dots, K-1\} oder als One-Hot-Vektor y{0,1}K\bm{y} \in \{0, 1\}^K dargestellt. Das Modell gibt eine Wahrscheinlichkeit (für binär, p^=P(Y=1x)\hat{p} = P(Y=1|\bm{x})) oder eine Wahrscheinlichkeitsverteilung p^=(p^0,,p^K1)\hat{\bm{p}} = (\hat{p}_0, \dots, \hat{p}_{K-1}) aus, wobei p^k=P(Y=kx)\hat{p}_k = P(Y=k|\bm{x}). Der Score f(x)f(\bm{x}) oder Vektor z=(z0,,zK1)\bm{z} = (z_0, \dots, z_{K-1}) repräsentiert oft die Werte vor der Aktivierungsfunktion (Logits), bevor eine Funktion wie Sigmoid oder Softmax angewendet wird.

Im Folgenden untersuchen wir die wichtigsten Verlustfunktionen für die Klassifikation.

3.1. Null-Eins-Verlust (Zero-One Loss)

Der Null-Eins-Verlust misst direkt den Klassifikationsfehler. Er weist einer Fehlklassifikation einen Verlust von 1 und einer korrekten Klassifikation einen Verlust von 0 zu.

Formel: Mit vorhergesagtem Label y^\hat{y}:

L01(y,y^)=I[yy^]\begin{equation} \mathcal{L}_{0-1}(y, \hat{y}) = \mathbb{I}\left[{y \neq \hat{y}}\right] \end{equation}

Mit Score f(x)f(\bm{x}) für y{1,+1}y \in \{-1, +1\} (unter Annahme der Vorhersage y^=sgn(f(x))\hat{y} = \text{sgn}(f(\bm{x}))):

L01(y,f(x))=I[yf(x)0]\begin{equation} \mathcal{L}_{0-1}(y, f(\bm{x})) = \mathbb{I}\left[{y \cdot f(\bm{x}) \le 0}\right] \end{equation}

Hier ist I[]\mathbb{I}\left[{\cdot}\right] die Indikatorfunktion, die 1 zurückgibt, wenn die Bedingung wahr ist, und 0 sonst. Der Term yf(x)y \cdot f(\bm{x}) ist genau dann positiv, wenn die Vorhersage das korrekte Vorzeichen hat.

Herleitung: Diese Verlustfunktion ist definitorisch und spiegelt direkt das Ziel der Minimierung von Fehlklassifikationen wider.

Eigenschaften und Anwendungsfälle:

EigenschaftBeschreibung
Vorteile
  • Entspricht direkt der Klassifikationsgenauigkeit (Accuracy = 1Durchschnittlicher L011 - \text{Durchschnittlicher } \mathcal{L}_{0-1}).
  • Einfache Interpretation.
Nachteile
  • Nicht konvex.
  • Nicht differenzierbar (oder Gradient ist fast überall null), was sie für gradientenbasierte Optimierung ungeeignet macht.
Use CasesHauptsächlich zur Evaluierung der finalen Modellleistung, nicht zur direkten Optimierung während des Trainings. Andere Verlustfunktionen dienen als Surrogat.

3.2. Hinge-Verlust (Hinge Loss)

Der Hinge-Verlust wird hauptsächlich in Verbindung mit Support-Vektor-Maschinen (SVMs) und der Maximum-Margin-Klassifikation verwendet. Er bestraft Vorhersagen, die falsch sind oder korrekt sind, aber innerhalb der Marge liegen.

Formel: (für y{1,+1}y \in \{-1, +1\} und Score f(x)f(\bm{x}))

LHinge(y,f(x))=max(0,1yf(x))\begin{equation} \mathcal{L}_{\text{Hinge}}(y, f(\bm{x})) = \max(0, 1 - y \cdot f(\bm{x})) \end{equation}

Der Term m=yf(x)m = y \cdot f(\bm{x}) wird oft als Margin-Score bezeichnet. Der Verlust ist null, wenn der Punkt korrekt mit einer Marge von mindestens 1 klassifiziert wird (m1m \ge 1). Andernfalls steigt der Verlust linear mit dem negativen Margin-Score.

Herleitung: Der Hinge-Verlust ergibt sich aus der Formulierung von Soft-Margin-SVMs. Ziel ist es, eine Hyperebene wx+b=0\bm{w} \cdot \bm{x} + b = 0 zu finden, sodass yi(wxi+b)1ξiy_i (\bm{w} \cdot \bm{x}_i + b) \ge 1 - \xi_i für Schlupfvariablen ξi0\xi_i \ge 0 gilt. Die Minimierung einer Kombination aus der Margengrösse (w2\|\bm{w}\|^2) und der Gesamtsumme der Schlupfvariablen ξi\sum \xi_i führt zur Minimierung von w2+Cmax(0,1yi(wxi+b))\|\bm{w}\|^2 + C \sum \max(0, 1 - y_i (\bm{w} \cdot \bm{x}_i + b)), wobei f(x)=wx+bf(\bm{x}) = \bm{w} \cdot \bm{x} + b und der zweite Term den Hinge-Verlust verwendet.

Eigenschaften und Anwendungsfälle:

EigenschaftBeschreibung
Vorteile
  • Konvexe obere Schranke des Null-Eins-Verlusts.
  • Fördert korrekte Klassifikation mit einer Marge, was potenziell zu besserer Generalisierung führt (Maximum-Margin-Prinzip).
  • Weniger empfindlich gegenüber Ausreissern als quadratische Verlustfunktionen.
  • Führt zu dünn besetzten Lösungen bei SVMs (nur Stützvektoren tragen direkt bei).
Nachteile
  • Nicht differenzierbar bei yf(x)=1y \cdot f(\bm{x}) = 1 (Subgradientenverfahren werden zur Optimierung verwendet).
  • Liefert keine gut kalibrierten Wahrscheinlichkeitsschätzungen. Die Ausgabe f(x)f(\bm{x}) ist nur ein Score.
Use CasesStandard-Verlustfunktion für das Training von linearen SVMs und Kernel-SVMs.

3.3. Logistischer Verlust (Binäre Kreuzentropie)

Der Logistische Verlust, auch bekannt als Log-Verlust oder Binäre Kreuzentropie (Binary Cross-Entropy), wird häufig in der Logistischen Regression und in neuronalen Netzen für die binäre Klassifikation verwendet. Er leitet sich vom Prinzip der Maximum-Likelihood-Schätzung unter Annahme einer Bernoulli-Verteilung für die Labels ab.

Formel: Es gibt zwei gebräuchliche Formen, abhängig von der Label- und Ausgabedarstellung.

  1. Labels y{0,1}y \in \{0, 1\}, Modellausgabe p^=P(Y=1x)[0,1]\hat{p} = P(Y=1|\bm{x}) \in [0, 1] (oft p^=σ(f(x))\hat{p} = \sigma(f(\bm{x})) wobei f(x)f(\bm{x}) der Logit ist):
LLog(y,p^)=[ylog(p^)+(1y)log(1p^)]\begin{equation} \mathcal{L}_{\text{Log}}(y, \hat{p}) = -[y \log(\hat{p}) + (1-y) \log(1-\hat{p})] \end{equation}
  1. Labels y{1,+1}y \in \{-1, +1\}, Modellausgabe Score f(x)Rf(\bm{x}) \in \R:
LLog(y,f(x))=log(1+eyf(x))\begin{equation} \mathcal{L}_{\text{Log}}(y, f(\bm{x})) = \log(1 + e^{-y \cdot f(\bm{x})}) \end{equation}

Diese Form ist äquivalent zur ersten, wenn p^=σ(f(x))=1/(1+ef(x))\hat{p} = \sigma(f(\bm{x})) = 1 / (1 + e^{-f(\bm{x})}) und die Labels entsprechend abgebildet werden (z.B. yprob=(yscore+1)/2y_{\text{prob}} = (y_{\text{score}} + 1)/2).

Herleitung (Maximum Likelihood): Angenommen, die bedingte Wahrscheinlichkeit des Klassenlabels folgt einer Bernoulli-Verteilung: P(Y=yx)=p^y(1p^)1yP(Y=y|\bm{x}) = \hat{p}^y (1-\hat{p})^{1-y} für y{0,1}y \in \{0, 1\}. Gegeben sei ein Datensatz {(xi,yi)}i=1N\{(\bm{x}_i, y_i)\}_{i=1}^N. Die Likelihood (Plausibilität) ist L=i=1NP(yixi)=i=1Np^iyi(1p^i)1yiL = \prod_{i=1}^N P(y_i|\bm{x}_i) = \prod_{i=1}^N \hat{p}_i^{y_i} (1-\hat{p}_i)^{1-y_i}. Die Maximierung der Likelihood ist äquivalent zur Minimierung der negativen Log-Likelihood (NLL):

NLL=logL=i=1N[yilog(p^i)+(1yi)log(1p^i)]\begin{equation} \text{NLL} = -\log L = -\sum_{i=1}^N [y_i \log(\hat{p}_i) + (1-y_i) \log(1-\hat{p}_i)] \end{equation}

Der Verlust für ein einzelnes Beispiel ist genau der Logistische Verlust / Binäre Kreuzentropie aus Gl. \eqref{eq:log_loss_prob_de}.

Eigenschaften und Anwendungsfälle:

EigenschaftBeschreibung
Vorteile
  • Konvex und stetig differenzierbar (glatt), daher gut geeignet für gradientenbasierte Optimierung.
  • Liefert gut kalibrierte Wahrscheinlichkeitsschätzungen (bei Verwendung mit Sigmoid/Softmax).
  • Starke Verbindung zur Informationstheorie (Kreuzentropie).
  • Weit verbreiteter Standard für probabilistische Klassifikationsmodelle.
Nachteile
  • Empfindlicher gegenüber Ausreissern als der Hinge-Verlust, da er auch sehr sichere korrekte Vorhersagen ($
Use CasesTraining von Logistischen Regressionsmodellen, Standardwahl für binäre Klassifikationsaufgaben in neuronalen Netzen (oft gepaart mit einer finalen Sigmoid-Aktivierung).

3.4. Kategorische Kreuzentropie (Categorical Cross-Entropy)

Die Kategorische Kreuzentropie ist die Verallgemeinerung des Logistischen Verlusts auf Multiklassen-Klassifikationsprobleme (K>2K > 2 Klassen).

Formel: Erfordert wahre Labels im One-Hot-kodierten Format y{0,1}K\bm{y} \in \{0, 1\}^K (wobei yk=1y_k=1 für die wahre Klasse kk und yj=0y_j=0 für jkj \neq k) und Modellausgaben als Wahrscheinlichkeitsverteilung p^=(p^0,,p^K1)\hat{\bm{p}} = (\hat{p}_0, \dots, \hat{p}_{K-1}), wobei p^k=P(Y=kx)\hat{p}_k = P(Y=k|\bm{x}) und kp^k=1\sum_k \hat{p}_k = 1. Typischerweise ist p^=softmax(z)\hat{\bm{p}} = \text{softmax}(\bm{z}), wobei z\bm{z} der Vektor der Logits ist.

LCCE(y,p^)=k=0K1yklog(p^k)\begin{equation} \mathcal{L}_{\text{CCE}}(\bm{y}, \hat{\bm{p}}) = - \sum_{k=0}^{K-1} y_k \log(\hat{p}_k) \end{equation}

Da y\bm{y} one-hot ist, überlebt nur der Term, der der wahren Klasse cc (wo yc=1y_c=1) entspricht:

LCCE(y,p^)=log(p^c)\begin{equation} \mathcal{L}_{\text{CCE}}(\bm{y}, \hat{\bm{p}}) = - \log(\hat{p}_c) \end{equation}

Das bedeutet, der Verlust bestraft das Modell basierend auf der Wahrscheinlichkeit, die es der korrekten Klasse zuweist.

Herleitung (Maximum Likelihood): Angenommen, die bedingte Wahrscheinlichkeit des Klassenlabels folgt einer Multinoulli- (Kategorischen) Verteilung: P(Y=kx)=p^kP(Y=k|\bm{x}) = \hat{p}_k. Für eine One-Hot-kodierte Beobachtung y\bm{y} (mit yc=1y_c=1) ist die Wahrscheinlichkeit P(yx)=k=0K1p^kyk=p^cP(\bm{y}|\bm{x}) = \prod_{k=0}^{K-1} \hat{p}_k^{y_k} = \hat{p}_c. Die negative Log-Likelihood für ein einzelnes Beispiel ist logP(yx)=log(p^c)-\log P(\bm{y}|\bm{x}) = -\log(\hat{p}_c), was genau der Kategorischen Kreuzentropie entspricht.

Eigenschaften und Anwendungsfälle:

EigenschaftBeschreibung
Vorteile
  • Natürliche Erweiterung des Logistischen Verlusts für Multiklassenprobleme.
  • Konvex (wenn auf Softmax-Ausgaben linearer Schichten angewendet) und glatt.
  • Standard für Multiklassen-Klassifikation mit neuronalen Netzen.
  • Liefert Wahrscheinlichkeitsverteilungen über Klassen.
  • Starke informationstheoretische Interpretation.
Nachteile
  • Erfordert One-Hot-kodierte Labels (oder implizite Handhabung durch Frameworks).
  • Empfindlich gegenüber falsch gelabelten Daten (ein einzelnes falsches Label kann zu hohem Verlust führen, wenn das Modell sicher ist).
  • Geht gegen unendlich, wenn die vorhergesagte Wahrscheinlichkeit für die wahre Klasse gegen null geht.
Use CasesStandard-Verlustfunktion für Multiklassen-Klassifikationsprobleme, insbesondere in neuronalen Netzen (typischerweise gepaart mit einer finalen Softmax-Aktivierungsschicht).

3.5. Quadratischer Hinge-Verlust (Squared Hinge Loss)

Dies ist eine Variante des Hinge-Verlusts, bei der die Strafe quadratisch statt linear ist.

Formel: (für y{1,+1}y \in \{-1, +1\} und Score f(x)f(\bm{x}))

LSqHinge(y,f(x))=(max(0,1yf(x)))2\begin{equation} \mathcal{L}_{\text{SqHinge}}(y, f(\bm{x})) = \left( \max(0, 1 - y \cdot f(\bm{x})) \right)^2 \end{equation}

Herleitung: Eine direkte Modifikation des Standard-Hinge-Verlusts, bei der der Term, der die Margin-Verletzung darstellt, quadriert wird.

Eigenschaften und Anwendungsfälle:

EigenschaftBeschreibung
Vorteile
  • Konvex und stetig differenzierbar (im Gegensatz zum Standard-Hinge-Verlust).
  • Der Gradient ist 00 für yf(x)1y \cdot f(\bm{x}) \ge 1 und 2(1yf(x))y-2(1 - y \cdot f(\bm{x})) \cdot y sonst.
  • Kann manchmal aufgrund der Glattheit einfacher zu optimieren sein als der Standard-Hinge-Verlust.
Nachteile
  • Empfindlicher gegenüber Ausreissern als der Standard-Hinge-Verlust, da Fehler quadriert werden.
  • Weniger gebräuchlich als Standard-Hinge- oder Logistischer Verlust. Die theoretische Motivation (maximale Marge) ist direkter mit dem linearen Hinge-Verlust verbunden.
Use CasesEine Alternative zum Standard-Hinge-Verlust bei SVMs (manchmal als L2-SVM bezeichnet). Kann auch in anderen linearen Modellen oder neuronalen Netzen verwendet werden.

3.6. Exponentieller Verlust (Exponential Loss)

Der Exponentielle Verlust weist fehlklassifizierten Punkten eine exponentiell ansteigende Strafe basierend auf ihrem Margin-Score zu. Er ist am bekanntesten durch den AdaBoost-Algorithmus.

Formel: (für y{1,+1}y \in \{-1, +1\} und Score f(x)f(\bm{x}))

LExp(y,f(x))=eyf(x)\begin{equation} \mathcal{L}_{\text{Exp}}(y, f(\bm{x})) = e^{-y \cdot f(\bm{x})} \end{equation}

Herleitung: AdaBoost kann als ein vorwärts gerichteter stufenweiser additiver Modellierungsalgorithmus hergeleitet werden, der die exponentielle Verlustfunktion optimiert. In jeder Stufe wird ein schwacher Lerner hinzugefügt, um den exponentiellen Gesamtverlust des Ensembles zu minimieren.

Eigenschaften und Anwendungsfälle:

EigenschaftBeschreibung
Vorteile
  • Konvex und glatt.
  • Führt direkt zum Gewichtungsschema des AdaBoost-Algorithmus.
Nachteile
  • Extrem empfindlich gegenüber Ausreissern und falsch gelabelten Daten aufgrund der exponentiellen Strafe.
  • Ein einzelner Punkt mit einer grossen negativen Marge yf(x)y \cdot f(\bm{x}) kann den Verlust dominieren.
  • Entspricht nicht direkt Wahrscheinlichkeiten.
  • Weniger gebräuchlich ausserhalb von Boosting-Algorithmen im Vergleich zu Logistischem oder Hinge-Verlust.
Use CasesHauptsächlich im Kontext von Boosting-Algorithmen verwendet, insbesondere AdaBoost.

3.7. Vergleich und Zusammenfassung

Die Wahl der richtigen Verlustfunktion hängt vom spezifischen Algorithmus, der gewünschten Ausgabe (Scores vs. Wahrscheinlichkeiten), den Anforderungen an die Robustheit und den rechnerischen Überlegungen ab. Während der Null-Eins-Verlust das wahre Klassifikationsziel darstellt, bieten Surrogat-Verluste wie Hinge-, Logistischer und Exponentieller Verlust rechentechnisch handhabbare Alternativen mit unterschiedlichen Eigenschaften. Die Kreuzentropie (Logistisch und Kategorisch) ist der Standard für probabilistische Modelle, während der Hinge-Verlust mit dem Maximum-Margin-Prinzip von SVMs verbunden ist. Tabelle 2 fasst die Schlüsseleigenschaften und Formeln der besprochenen Verlustfunktionen zusammen. Beachten Sie, dass für die Logistische und Kategorische Kreuzentropie die Formeln mit Wahrscheinlichkeiten (p^,p^\hat{p}, \hat{\bm{p}}) oft direkter in Implementierungen verwendet werden, die Sigmoid- oder Softmax-Aktivierungen beinhalten. Die Formeln mit dem Score f(x)f(\bm{x}) sind nützlich für den Vergleich mit dem Hinge- und Exponentiellen Verlust.

Tabelle 2: Vergleich von Klassifikations-Verlustfunktionen

VerlustfunktionFormel (Gängige Form)Konvex?Differenzierbar?Empfindlichkeit ggü. AusreissernUse Cases
Null-Eins1yf(x)0\mathbb{1}{y \cdot f(\bm{x}) \le 0}
(y{1,1}y \in \{-1, 1\})
NeinNein (f.ü.)GeringEvaluationsmetrik
Hingemax(0,1yf(x))\max(0, 1 - y \cdot f(\bm{x}))
(y{1,1}y \in \{-1, 1\})
JaNein (bei yf(x)=1y f(\bm{x})=1)MittelSVMs
Logistisch (BCE)log(1+eyf(x))\log(1 + e^{-y \cdot f(\bm{x})})
(y{1,1}y \in \{-1, 1\})
ODER
[ylogp^+(1y)log(1p^)]-[y \log \hat{p} + (1-y) \log(1-\hat{p})]
(y{0,1},p^[0,1]y \in \{0, 1\}, \hat{p} \in [0,1])
JaJaMittel-HochLogistische Regression, Neuronale Netze (Binär)
Kategorische Kreuzentropielog(p^c)- \log(\hat{p}_c)
(y\bm{y} one-hot, p^\hat{\bm{p}} W’keitsvektor, cc=wahre Klasse)
JaJaMittel-HochNeuronale Netze (Multiklasse)
Quadrat. Hinge(max(0,1yf(x)))2(\max(0, 1 - y \cdot f(\bm{x})))^2
(y{1,1}y \in \{-1, 1\})
JaJaHochL2-SVMs, Alternative zu Hinge
Exponentielleyf(x)e^{-y \cdot f(\bm{x})}
(y{1,1}y \in \{-1, 1\})
JaJaSehr HochAdaBoost

Hinweis: f(x)f(\bm{x}) repräsentiert typischerweise den Rohwert (Score) oder Logit des Modells. p^\hat{p} und p^\hat{\bm{p}} repräsentieren vorhergesagte Wahrscheinlichkeiten. Differenzierbarkeit bezieht sich auf stetige Differenzierbarkeit. f.ü. = fast überall.


4. Kontrastive Verlustfunktionen (Contrastive Losses)

Kontrastive Verlustfunktionen sind eine zentrale Komponente des kontrastiven Lernens, einer Methodik, die darauf abzielt, nützliche Repräsentationen von Daten zu lernen, oft ohne explizite Labels (im Rahmen des selbst-überwachten Lernens, Self-Supervised Learning, SSL) oder zur Verbesserung überwachter Modelle (Metric Learning). Die Grundidee besteht darin, eine Einbettungsfunktion (Encoder) fθf_\theta zu trainieren, die Datenpunkte x\bm{x} in einen niedrigdimensionalen Repräsentationsraum (Embedding Space) abbildet (h=fθ(x)\bm{h} = f_\theta(\bm{x})), sodass ähnliche Datenpunkte nahe beieinander und unähnliche Datenpunkte weit voneinander entfernt liegen. Dies wird erreicht, indem man für einen gegebenen Ankerpunkt (anchor) h\bm{h}:

  • Positive Beispiele h+\bm{h}^+ (z.B. andere Transformationen/Augmentationen desselben Datenpunkts, Punkte derselben Klasse) im Repräsentationsraum näher an den Anker heranzieht.
  • Negative Beispiele h\bm{h}^- (z.B. Datenpunkte aus anderen Bildern/Klassen) vom Anker wegstösst.

Der “Kontrast” entsteht durch den Vergleich der Ähnlichkeit zwischen dem Anker und positiven Beispielen gegenüber der Ähnlichkeit zwischen dem Anker und negativen Beispielen. Die Formulierung des Verlusts hängt entscheidend vom gewählten Ähnlichkeitsmass (Similarity Measure) und der spezifischen Struktur der positiven/negativen Paare oder Tripletts ab. Kontrastives Lernen findet breite Anwendung im selbst-überwachten Lernen für Computer Vision und NLP, im Metric Learning, in Empfehlungssystemen und bei der Gesichtserkennung.

4.1. Ähnlichkeitsmasse (Similarity Measures)

Die Wahl des Ähnlichkeitsmasses ist entscheidend dafür, wie “Nähe” und “Ferne” im Einbettungsraum quantifiziert werden. Die gängigsten Masse sind:

  • Kosinus-Ähnlichkeit (Cosine Similarity): Misst den Kosinus des Winkels zwischen zwei Vektoren u\bm{u} und v\bm{v}. Sie ist unempfindlich gegenüber der Magnitude der Vektoren und konzentriert sich auf die Orientierung. Werte liegen im Bereich [1,1][-1, 1], wobei 1 perfekte Übereinstimmung, -1 entgegengesetzte Richtung und 0 Orthogonalität bedeutet. Oft verwendet für hochdimensionale Daten (wie Text-Embeddings oder Bild-Features) und typischerweise in Verbindung mit normalisierten Embeddings (h2=1\|\bm{h}\|_2 = 1).
simcos(u,v)=uvu2v2\begin{equation} \text{sim}_{\text{cos}}(\bm{u}, \bm{v}) = \frac{\bm{u} \cdot \bm{v}}{\|\bm{u}\|_2 \|\bm{v}\|_2} \end{equation}
  • Euklidischer Abstand (L2L_2-Distanz): Misst den geradlinigen Abstand zwischen zwei Punkten im Raum. Werte liegen im Bereich [0,)[0, \infty). Im Gegensatz zur Kosinus-Ähnlichkeit ist er empfindlich gegenüber der Magnitude. Kontrastive Verluste, die auf Distanz basieren, zielen darauf ab, die Distanz für positive Paare zu minimieren und für negative Paare zu maximieren (oft über eine Marge hinaus). Um ihn als Ähnlichkeitsmass zu interpretieren, kann eine invertierende Transformation verwendet werden (z.B. exp(d2)\exp(-d^2)).
deuc(u,v)=uv2=i(uivi)2\begin{equation} d_{\text{euc}}(\bm{u}, \bm{v}) = \|\bm{u} - \bm{v}\|_2 = \sqrt{\sum_{i} (u_i - v_i)^2} \end{equation}
  • Skalarprodukt (Dot Product): Das einfache Skalarprodukt uv\bm{u} \cdot \bm{v} kann ebenfalls als Ähnlichkeitsmass dienen. Es ist jedoch stark von den Vektormagnituden abhängig. Wenn die Vektoren auf eine Einheitskugel normiert sind (u2=v2=1\|\bm{u}\|_2 = \|\bm{v}\|_2 = 1), ist das Skalarprodukt äquivalent zur Kosinus-Ähnlichkeit.

Die Wahl des Masses beeinflusst die Geometrie des erlernten Repräsentationsraums und die Formulierung der Verlustfunktion.

Übersicht der Ähnlichkeits-/Distanzmasse:

MassFormelWertebereichTypische Verwendung (Kontrastives Lernen)
Kosinus-Ähnlichkeituvuv\frac{\bm{u} \cdot \bm{v}}{\|\bm{u}\| \|\bm{v}\|}[1,1][-1, 1]InfoNCE/NT-Xent, SSL, hohe Dimensionen
Euklidischer Abstand (L2L_2)uv2\|\bm{u} - \bm{v}\|_2[0,)[0, \infty)Contrastive Loss (Paar), Triplet Loss, Metric Learning
Skalarproduktuv\bm{u} \cdot \bm{v}(,)(-\infty, \infty)Ähnlich zu Kosinus bei normierten Vektoren

4.2. Contrastive Loss (Paar-basiert)

Dies ist eine der frühesten Formulierungen kontrastiven Lernens, oft verwendet in Siamesischen Netzwerken (Hadsell et al., 2006). Der Verlust wird separat für positive und negative Paare definiert.

Erklärung: Für ein Paar von Eingaben (x1,x2)(\bm{x}_1, \bm{x}_2) und deren Embeddings (h1,h2)(\bm{h}_1, \bm{h}_2) wird ein Label yy verwendet (y=1y=1 für ein positives Paar, y=0y=0 für ein negatives Paar). Das Ziel ist, die Distanz d=d(h1,h2)d = d(\bm{h}_1, \bm{h}_2) für positive Paare klein zu halten und für negative Paare sicherzustellen, dass sie grösser als eine definierte Marge mm ist. Typischerweise wird der Euklidische Abstand verwendet.

Formel: Der Verlust für einen Datensatz von NN Paaren ist:

LContrastive=1Ni=1N[yidi2+(1yi)max(0,mdi)2]\begin{equation} \mathcal{L}_{\text{Contrastive}} = \frac{1}{N} \sum_{i=1}^N \left[ y_i d_i^2 + (1-y_i) \max(0, m - d_i)^2 \right] \end{equation}

Hier ist di=deuc(hi,1,hi,2)d_i = d_{\text{euc}}(\bm{h}_{i,1}, \bm{h}_{i,2}) die Distanz des ii-ten Paares, yi{0,1}y_i \in \{0, 1\} das Label des Paares, und m>0m > 0 die Marge. (Manchmal wird did_i statt di2d_i^2 verwendet).

Motivation: Die Formel ist intuitiv:

  • Wenn yi=1y_i = 1 (positives Paar), ist der Verlust di2d_i^2. Die Minimierung dieses Terms zieht positive Paare zusammen.
  • Wenn yi=0y_i = 0 (negatives Paar), ist der Verlust max(0,mdi)2\max(0, m - d_i)^2. Dieser Term ist nur dann grösser als null, wenn die Distanz did_i kleiner als die Marge mm ist. Die Minimierung bestraft also negative Paare, die zu nah beieinander liegen, und drängt sie auseinander, bis ihre Distanz mindestens mm beträgt.

Eigenschaften und Herausforderungen:

EigenschaftBeschreibung
GrundideeMinimiere Distanz für positive Paare, maximiere sie über eine Marge mm für negative Paare.
Typisches ÄhnlichkeitsmassEuklidischer Abstand (L2L_2).
Formel (pro Paar)yd2+(1y)max(0,md)2y d^2 + (1-y) \max(0, m - d)^2.
Vorteile
  • Einfache und intuitive Formulierung.
  • Effektiv für Metric Learning und Verifikationsaufgaben.
Nachteile/ Herausforderungen
  • Erfordert die Definition von positiven und negativen Paaren (ggf. Labels nötig oder aufwändige Generierung).
  • Leistung hängt von der Wahl der Marge mm ab.
  • Schwierigkeiten bei der Auswahl informativer negativer Paare (Sampling).
Use CasesMetric Learning, Gesichtserkennung/-verifikation, Signaturverifikation, Training Siamesischer Netzwerke.

4.3. Triplet Loss

Der Triplet Loss (Weinberger et al., 2006; Schroff et al., 2015 - FaceNet) verwendet statt Paaren sogenannte Tripletts, bestehend aus einem Anker-, einem positiven und einem negativen Beispiel.

Erklärung: Für jedes Triplett (xa,xp,xn)(\bm{x}_a, \bm{x}_p, \bm{x}_n) mit Embeddings (ha,hp,hn)(\bm{h}_a, \bm{h}_p, \bm{h}_n) soll der Abstand zwischen Anker und Positivem d(a,p)d(a, p) kleiner sein als der Abstand zwischen Anker und Negativem d(a,n)d(a, n), und zwar um eine Marge mm.

Formel: Der Verlust über NN Tripletts ist:

LTriplet=1Ni=1Nmax(0,d(ha,i,hp,i)2d(ha,i,hn,i)2+m)\begin{equation} \mathcal{L}_{\text{Triplet}} = \frac{1}{N} \sum_{i=1}^N \max(0, d(\bm{h}_{a,i}, \bm{h}_{p,i})^2 - d(\bm{h}_{a,i}, \bm{h}_{n,i})^2 + m) \end{equation}

Auch hier wird oft der Euklidische Abstand verwendet, und manchmal werden die Distanzen nicht quadriert. m>0m > 0 ist die Marge.

Motivation: Der Verlustterm ist nur dann positiv, wenn d(a,n)2<d(a,p)2+md(a, n)^2 < d(a, p)^2 + m. Die Minimierung des Verlusts erzwingt also d(a,p)2+md(a,n)2d(a, p)^2 + m \le d(a, n)^2. Dies stellt sicher, dass der Anker dem positiven Beispiel signifikant näher ist als dem negativen Beispiel.

Triplet Mining: Eine grosse Herausforderung ist die Auswahl von informativen Tripletts. Zufällige Tripletts führen oft zu einem Verlust von null (wenn die Bedingung bereits erfüllt ist) und somit zu langsamer Konvergenz. Strategien wie “Hard Negative Mining” (Auswahl von negativen Beispielen, die der Marge am nächsten kommen oder sie verletzen) sind entscheidend für den Erfolg.

Eigenschaften und Herausforderungen:

EigenschaftBeschreibung
GrundideeErzwinge, dass der Anker dem positiven Beispiel um eine Marge mm näher ist als dem negativen Beispiel.
Typisches ÄhnlichkeitsmassEuklidischer Abstand (L2L_2).
Formel (pro Triplett)max(0,d(a,p)2d(a,n)2+m)\max(0, d(a, p)^2 - d(a, n)^2 + m).
Vorteile
  • Lernt eine relative Ähnlichkeitsstruktur.
  • Sehr erfolgreich im Metric Learning, insbesondere Gesichtserkennung (FaceNet).
Nachteile/ Herausforderungen
  • Erfordert die Bildung von Tripletts.
  • Kritische Abhängigkeit von der Strategie zur Auswahl der Tripletts (Triplet Mining).
  • Batch-Grösse und Sampling können komplex sein.
  • Wahl der Marge mm.
Use CasesGesichtserkennung, Person Re-Identification, Bildsuche, Metric Learning im Allgemeinen.

4.4. InfoNCE / NT-Xent Loss

InfoNCE (Information Noise Contrastive Estimation) ist ein moderner kontrastiver Verlust, der insbesondere im selbst-überwachten Lernen (SSL) sehr erfolgreich ist (z.B. in CPC, SimCLR, MoCo). NT-Xent (Normalized Temperature-scaled Cross Entropy) ist eine spezifische Implementierung davon, die in SimCLR verwendet wird.

Erklärung: Die Kernidee ist, das kontrastive Lernen als ein Klassifikationsproblem zu formulieren: Für einen Anker hi\bm{h}_i soll sein positives Beispiel hi+\bm{h}_{i^+} aus einer Menge von KK negativen Beispielen {hk}\{\bm{h}_{k}^-\} korrekt identifiziert werden. Dies basiert auf der Maximierung der unteren Schranke der gegenseitigen Information (Mutual Information) zwischen verschiedenen “Sichten” (z.B. Augmentationen) desselben Datenpunkts. Typischerweise werden Kosinus-Ähnlichkeit und ein Temperatur-Skalierungsfaktor τ\tau verwendet.

Formel (InfoNCE): Für einen Anker hi\bm{h}_i, sein positives Beispiel hi+\bm{h}_{i^+} und KK negative Beispiele {hk}k=1K\{\bm{h}_{k}^-\}_{k=1}^K:

LInfoNCE=E[logexp(sim(hi,hi+)/τ)exp(sim(hi,hi+)/τ)+k=1Kexp(sim(hi,hk)/τ)]\begin{equation} \mathcal{L}_{\text{InfoNCE}} = - \mathbb{E} \left[ \log \frac{\exp(\text{sim}(\bm{h}_i, \bm{h}_{i^+}) / \tau)}{\exp(\text{sim}(\bm{h}_i, \bm{h}_{i^+}) / \tau) + \sum_{k=1}^K \exp(\text{sim}(\bm{h}_i, \bm{h}_{k}^-) / \tau)} \right] \end{equation}

Dies hat die Form einer Softmax-Kreuzentropie, wobei die Logits durch die skalierten Ähnlichkeiten gegeben sind. sim\text{sim} ist typischerweise die Kosinus-Ähnlichkeit.

Formel (NT-Xent - SimCLR Variante): In SimCLR werden für jedes Bild x\bm{x} in einem Batch der Grösse NN zwei augmentierte Versionen erzeugt, was zu 2N2N Embeddings (h1,...,h2N)(\bm{h}_1, ..., \bm{h}_{2N}) führt. Für ein positives Paar (hi,hj)(\bm{h}_i, \bm{h}_j) (die von demselben Originalbild stammen) werden alle anderen 2(N1)2(N-1) Embeddings im Batch als negative Beispiele betrachtet. Der Verlust für das Paar (i,j)(i, j) ist:

i,j=logexp(simcos(hi,hj)/τ)k=1,ki2Nexp(simcos(hi,hk)/τ)\begin{equation} \ell_{i,j} = -\log \frac{\exp(\text{sim}_{\text{cos}}(\bm{h}_i, \bm{h}_j) / \tau)}{\sum_{k=1, k \neq i}^{2N} \exp(\text{sim}_{\text{cos}}(\bm{h}_i, \bm{h}_k) / \tau)} \end{equation}

Der Gesamtverlust ist der Durchschnitt von i,j+j,i\ell_{i,j} + \ell_{j,i} über alle positiven Paare (i,j)(i, j) im Batch.

Temperatur τ\tau: Der Temperaturparameter τ\tau (typischerweise ein kleiner Wert wie 0.1 oder 0.07) skaliert die Ähnlichkeiten vor der Softmax-Funktion. Eine niedrige Temperatur erhöht die Konzentration der Verteilung und gewichtet “harte” negative Beispiele (solche, die dem Anker ähnlich sind) stärker.

Eigenschaften und Herausforderungen:

EigenschaftBeschreibung
GrundideeIdentifiziere das positive Beispiel unter vielen negativen Beispielen (Klassifikations-Analogie). Maximiert Mutual Information.
Typisches ÄhnlichkeitsmassKosinus-Ähnlichkeit.
Formel (InfoNCE)Softmax-Kreuzentropie über skalierte Ähnlichkeiten. Siehe Gl. \eqref{eq:infonce_loss}.
Wichtige Aspekte
  • Temperaturparameter τ\tau zur Skalierung.
  • Benötigt eine grosse Anzahl negativer Beispiele für gute Leistung (oft aus demselben Batch oder einer Memory Bank).
  • Normalisierung der Embeddings oft vorteilhaft.
Vorteile
  • State-of-the-Art Ergebnisse im selbst-überwachten Lernen.
  • Skaliert gut mit grosser Anzahl negativer Beispiele.
  • Theoretische Verbindung zur Mutual Information.
Nachteile/ Herausforderungen
  • Erfordert oft grosse Batch-Grössen oder spezielle Techniken (z.B. Memory Banks) für viele Negative.
  • Leistung kann sensitiv auf die Wahl der Temperatur τ\tau und der Datenaugmentierungen sein.
  • Bias durch Sampling von Negativen innerhalb des Batches möglich (“Sampling Bias”).
Use CasesSelbst-überwachtes Vorlernen von visuellen und sprachlichen Repräsentationen (SimCLR, MoCo, CPC, etc.).

4.5. Vergleich Kontrastiver Verlustfunktionen

Kontrastive Verlustfunktionen bieten flexible Werkzeuge zum Lernen von Repräsentationen durch Vergleich. Die Wahl der Funktion hängt von der Aufgabe und den verfügbaren Daten ab. Die paar-basierte Contrastive Loss und die Triplet Loss sind oft im Metric Learning und bei Verifikationsaufgaben zu finden, wo explizite positive/negative Beziehungen (oft durch Labels) definiert sind oder leicht abgeleitet werden können; sie erfordern jedoch sorgfältiges Sampling oder Mining. InfoNCE/NT-Xent dominiert im modernen selbst-überwachten Lernen, wo positive Paare durch Datenaugmentation erzeugt werden und eine grosse Menge an negativen Beispielen (oft der Rest des Batches) verwendet wird, um robuste, allgemeine Repräsentationen zu lernen. Die Wahl des Ähnlichkeitsmasses ist ebenfalls entscheidend, wobei Kosinus-Ähnlichkeit bei InfoNCE und Euklidischer Abstand bei den älteren Methoden vorherrschen. Tabelle 3 fasst die Hauptunterschiede zusammen.

Tabelle 3: Vergleich von Kontrastiven Verlustfunktionen

VerlustfunktionGrundideeÄhnlichkeitsmass (typ.)BenötigtHauptvorteilHauptherausforderung
Contrastive Loss (Paar)Nähe für Pos., Ferne (>m>m) für Neg.Eukl. Distanz (L2L_2)Positive/Negative Paare, Marge mmIntuitiv, gut für VerifikationSampling von Paaren, Marge mm
Triplet LossAnker näher an Pos. als an Neg. (mit Marge mm)Eukl. Distanz (L2L_2)Tripletts (a, p, n), Marge mmLernt relative ÄhnlichkeitTriplet Mining, Marge mm
InfoNCE / NT-XentIdentifiziere Pos. unter vielen Neg. (Klassifikation)Kosinus-ÄhnlichkeitPos. Paar, viele Negative, Temperatur τ\tauState-of-the-Art SSL, skaliert gutGrosse Batches/Memory Bank, τ\tau-Wahl

Hinweis: SSL = Self-Supervised Learning. mm = Marge, τ\tau = Temperatur.


5. Adversariale Verlustfunktionen (Adversarial Losses)

Adversariale Verlustfunktionen sind das Herzstück von Generative Adversarial Networks (GANs), einem populären Ansatz im Bereich der generativen Modellierung. GANs bestehen typischerweise aus zwei Komponenten, die in einem Minimax-Spiel gegeneinander antreten:

  • Generator (G): Versucht, Daten zu erzeugen (z.B. Bilder, Texte), die von echten Daten nicht zu unterscheiden sind. Er nimmt einen Zufallsvektor z\bm{z} aus einem Prior-Raum (z.B. einer Normalverteilung pzp_z) als Eingabe und erzeugt eine synthetische Probe G(z)G(\bm{z}). Das Ziel ist es, die Verteilung pgp_g der generierten Daten so zu formen, dass sie der Verteilung pdatap_{data} der echten Daten x\bm{x} möglichst ähnlich ist.
  • Diskriminator (D): Versucht zu entscheiden, ob eine gegebene Datenprobe echt (aus pdatap_{data}) oder künstlich (aus pgp_g, also von G erzeugt) ist. Er gibt typischerweise einen Wert aus, der die Wahrscheinlichkeit (oder einen Score) repräsentiert, dass die Eingabe echt ist.

Der “adversariale Verlust” ergibt sich aus diesem kompetitiven Prozess. Der Diskriminator wird trainiert, um echte und künstliche Proben korrekt zu klassifizieren, während der Generator trainiert wird, um Proben zu erzeugen, die den Diskriminator täuschen. Dieses dynamische Gleichgewicht führt im Idealfall dazu, dass der Generator lernt, realistische Daten zu erzeugen. Verschiedene Formulierungen des adversarialen Verlusts wurden vorgeschlagen, um unterschiedliche Distanzmasse zwischen pdatap_{data} und pgp_g zu optimieren oder um häufig auftretende Trainingsprobleme wie Modenkollaps (Mode Collapse) oder verschwindende Gradienten (Vanishing Gradients) zu mildern. Wir verwenden die folgende Notation: xpdata\bm{x} \sim p_{data} ist eine echte Datenprobe, zpz\bm{z} \sim p_z ist ein Rauschvektor, G(z)G(\bm{z}) ist eine generierte (künstliche) Probe, D(x)D(\bm{x}) ist die Ausgabe des Diskriminators für eine echte Probe, und D(G(z))D(G(\bm{z})) ist die Ausgabe des Diskriminators für eine künstliche Probe. Expdata[]\mathbb{E}_{\bm{x} \sim p_{data}}[\cdot] bezeichnet den Erwartungswert über die echte Datenverteilung und Ezpz[]\mathbb{E}_{\bm{z} \sim p_z}[\cdot] den Erwartungswert über die Prior-Verteilung des Rauschens.

5.1. Minimax-Verlust (Original GAN)

Der ursprüngliche GAN-Verlust, vorgeschlagen von Goodfellow et al. (2014), basiert auf einem Minimax-Spiel, das theoretisch die Jensen-Shannon-Divergenz (JSD) zwischen der echten Datenverteilung pdatap_{data} und der Generatorverteilung pgp_g minimiert.

Formel (Minimax-Ziel): Das Ziel ist es, das folgende Minimax-Problem zu lösen:

minGmaxDV(D,G)=Expdata[logD(x)]+Ezpz[log(1D(G(z)))]\begin{equation} \min_G \max_D V(D, G) = \mathbb{E}_{\bm{x} \sim p_{data}}[\log D(\bm{x})] + \mathbb{E}_{\bm{z} \sim p_z}[\log(1 - D(G(\bm{z})))] \end{equation}

Hier wird angenommen, dass D()D(\cdot) die Wahrscheinlichkeit ausgibt, dass die Eingabe echt ist (D()[0,1]D(\cdot) \in [0, 1], typischerweise über eine Sigmoid-Aktivierung).

Herleitung/Motivation: Die Zielfunktion V(D,G)V(D, G) entspricht der binären Kreuzentropie für einen Klassifikator DD, der echte Daten (Label 1) von künstlichen Daten (Label 0) unterscheiden soll. Bei optimalem Diskriminator D(x)=pdata(x)pdata(x)+pg(x)D^*(\bm{x}) = \frac{p_{data}(\bm{x})}{p_{data}(\bm{x}) + p_g(\bm{x})} reduziert sich das Minimax-Problem zu minG(2JSD(pdatapg)2log2)\min_G (2 \cdot JSD(p_{data} || p_g) - 2 \log 2). Die Minimierung bezüglich GG minimiert also die JSD zwischen der echten und der generierten Verteilung.

Separate Verluste für das Training: In der Praxis werden G und D abwechselnd trainiert, wobei separate Verlustfunktionen minimiert werden:

  • Diskriminator-Training: Maximiere V(D,G)V(D, G) bezüglich DD. Dies ist äquivalent zur Minimierung des negativen V(D,G)V(D,G), was einer Standard-Kreuzentropie-Verlustfunktion entspricht:
LD=(Ex[logD(x)]+Ez[log(1D(G(z)))])\begin{equation} \mathcal{L}_D = - \left( \mathbb{E}_{\bm{x}}[\log D(\bm{x})] + \mathbb{E}_{\bm{z}}[\log(1 - D(G(\bm{z})))] \right) \end{equation}
  • Generator-Training (Original): Minimiere V(D,G)V(D, G) bezüglich GG. Dies entspricht der Minimierung von LGorig=Ez[log(1D(G(z)))]\mathcal{L}_G^{\text{orig}} = \mathbb{E}_{\bm{z}}[\log(1 - D(G(\bm{z})))]. Dieses Ziel leidet jedoch unter dem Problem der saturierenden Gradienten: Wenn der Diskriminator die künstlichen Proben sehr gut erkennt (D(G(z))0D(G(\bm{z})) \approx 0), wird der Gradient von log(1D(G(z)))\log(1 - D(G(\bm{z}))) bezüglich der Parameter von G sehr klein, was das Lernen verlangsamt oder stoppt.
  • Generator-Training (Non-Saturating Heuristik): Um das Sättigungsproblem zu umgehen, wird in der Praxis oft ein alternatives Ziel für G verwendet: Maximiere Ez[logD(G(z))]\mathbb{E}_{\bm{z}}[\log D(G(\bm{z}))], was äquivalent zur Minimierung von
LGns=Ez[logD(G(z))]\begin{equation} \mathcal{L}_G^{\text{ns}} = - \mathbb{E}_{\bm{z}}[\log D(G(\bm{z}))] \end{equation}

ist. Dieses Ziel liefert stärkere Gradienten, besonders zu Beginn des Trainings.

Eigenschaften und Herausforderungen:

EigenschaftBeschreibung
Ziel (theoretisch)Minimierung der Jensen-Shannon-Divergenz (JSD) zwischen pdatap_{data} und pgp_g.
Diskriminator-Verlust LD\mathcal{L}_DStandard Binäre Kreuzentropie (BCE). Siehe Gl. \eqref{eq:gan_loss_d}.
Generator-Verlust LG\mathcal{L}_G (non-saturating)Modifizierte BCE, um Gradientensättigung zu vermeiden. Siehe Gl. \eqref{eq:gan_loss_g_ns}.
Vorteile
  • Klare theoretische Fundierung (JSD-Minimierung).
  • Einfache Implementierung mit Standard-Kreuzentropie.
Probleme/ Herausforderungen
  • Trainingsinstabilitäten (z.B. Modenkollaps, verschwindende Gradienten).
  • Schwierigkeiten bei der Konvergenz, erfordert sorgfältige Abstimmung der Hyperparameter.
  • JSD ist problematisch bei disjunkten Verteilungen.
  • Non-saturating LG\mathcal{L}_G entspricht nicht mehr direkt dem ursprünglichen Minimax-Spiel.
Use CasesGrundlage für viele frühe GAN-Architekturen. Wird oft als Basis oder zum Vergleich herangezogen.

5.2. Wasserstein-Verlust (WGAN & WGAN-GP)

Der Wasserstein-GAN (WGAN)-Verlust, vorgeschlagen von Arjovsky et al. (2017), zielt darauf ab, die Trainingsstabilität von GANs zu verbessern, indem statt der JSD die Wasserstein-1-Distanz (auch Earth Mover’s Distance, EMD) minimiert wird. Die W-Distanz hat auch bei disjunkten Verteilungen aussagekräftigere Gradienten.

Formel (Wasserstein-1-Distanz): Die W-1-Distanz zwischen pdatap_{data} und pgp_g ist definiert als:

W(pdata,pg)=supfL1(Expdata[f(x)]Ezpz[f(G(z))])\begin{equation} W(p_{data}, p_g) = \sup_{\|f\|_L \le 1} \left( \mathbb{E}_{\bm{x} \sim p_{data}}[f(\bm{x})] - \mathbb{E}_{\bm{z} \sim p_z}[f(G(\bm{z}))] \right) \end{equation}

wobei das Supremum über alle 1-Lipschitz-Funktionen ff genommen wird. Im WGAN-Kontext wird die Funktion ff durch den Kritiker (Critic, CC) approximiert, der an die Stelle des Diskriminators tritt. Der Kritiker gibt einen unbeschränkten Score aus, keine Wahrscheinlichkeit.

Verlustfunktionen:

  • Kritiker-Training: Der Kritiker CC wird trainiert, um den Ausdruck in Gl. \eqref{eq:wasserstein1} zu maximieren. Dies entspricht der Minimierung von:
LC=(Ex[C(x)]Ez[C(G(z))])\begin{equation} \mathcal{L}_C = - \left( \mathbb{E}_{\bm{x}}[C(\bm{x})] - \mathbb{E}_{\bm{z}}[C(G(\bm{z}))] \right) \end{equation}
  • Generator-Training: Der Generator GG wird trainiert, um die W-Distanz zu minimieren. Da Ex[C(x)]\mathbb{E}_{\bm{x}}[C(\bm{x})] nicht von GG abhängt, entspricht dies der Maximierung von Ez[C(G(z))]\mathbb{E}_{\bm{z}}[C(G(\bm{z}))], oder der Minimierung von:
LG=Ez[C(G(z))]\begin{equation} \mathcal{L}_G = - \mathbb{E}_{\bm{z}}[C(G(\bm{z}))] \end{equation}

Durchsetzung der Lipschitz-Bedingung: Die grösste Herausforderung bei WGANs ist die Sicherstellung, dass der Kritiker CC (approximativ) 1-Lipschitz bleibt.

  • WGAN (Weight Clipping): Die ursprüngliche Methode beschränkt die Gewichte des Kritikers auf einen kleinen Bereich (z.B. [0.01,0.01][-0.01, 0.01]). Dies ist einfach, kann aber zu Optimierungsproblemen oder reduzierter Kapazität des Kritikers führen.
  • WGAN-GP (Gradient Penalty): Gulrajani et al. (2017) schlugen vor, der Kritiker-Verlustfunktion einen Strafterm hinzuzufügen, der Abweichungen des Gradientennormen von 1 bestraft:
LGP=λEx^px^[(x^C(x^)21)2]\begin{equation} \mathcal{L}_{GP} = \lambda \mathbb{E}_{\hat{\bm{x}} \sim p_{\hat{x}}}[(\|\nabla_{\hat{\bm{x}}} C(\hat{\bm{x}})\|_2 - 1)^2] \end{equation}

Hierbei ist x^\hat{\bm{x}} eine Stichprobe, die zufällig zwischen einer echten Probe x\bm{x} und einer künstlichen Probe G(z)G(\bm{z}) interpoliert wird (px^p_{\hat{x}} ist die Verteilung dieser interpolierten Punkte), und λ\lambda ist ein Hyperparameter (oft λ=10\lambda=10). LCWGAN-GP=LC+LGP\mathcal{L}_C^{\text{WGAN-GP}} = \mathcal{L}_C + \mathcal{L}_{GP}. Diese Methode ist stabiler und führt oft zu besseren Ergebnissen.

Eigenschaften und Anforderungen:

EigenschaftBeschreibung
Ziel (theoretisch)Minimierung der Wasserstein-1-Distanz zwischen pdatap_{data} und pgp_g.
Kritiker-Verlust LC\mathcal{L}_C (WGAN-GP)LC=(Ex[C(x)]Ez[C(G(z))])+λEx^[(x^C(x^)21)2]\mathcal{L}_C = - (\mathbb{E}_{\bm{x}}[C(\bm{x})] - \mathbb{E}_{\bm{z}}[C(G(\bm{z}))]) + \lambda \mathbb{E}_{\hat{\bm{x}}}[(\|\nabla_{\hat{\bm{x}}} C(\hat{\bm{x}})\|_2 - 1)^2].
Generator-Verlust LG\mathcal{L}_GLG=Ez[C(G(z))]\mathcal{L}_G = - \mathbb{E}_{\bm{z}}[C(G(\bm{z}))].
Vorteile
  • Deutlich verbesserte Trainingsstabilität im Vergleich zum originalen GAN.
  • Weniger anfällig für Modenkollaps.
  • Der Kritiker-Verlust korreliert oft mit der Bildqualität (nützlich für Monitoring).
  • Theoretisch fundierte Gradienten auch bei disjunkten Verteilungen.
Nachteile/ Anforderungen
  • Erfordert die Durchsetzung der Lipschitz-Bedingung (Weight Clipping problematisch, Gradient Penalty rechenintensiver).
  • Konvergenz kann langsamer sein als bei Standard-GANs.
  • Kritiker-Output ist unbeschränkt (Score), keine Wahrscheinlichkeit.
Use CasesSehr populär für Bildgenerierung und andere generative Aufgaben, bei denen Stabilität wichtig ist. Basis für viele fortgeschrittene GANs.

5.3. Least Squares Verlust (LSGAN)

Der Least Squares GAN (LSGAN), vorgeschlagen von Mao et al. (2017), ersetzt die Sigmoid-Kreuzentropie-Verluste des originalen GAN durch Least-Squares-(Quadratmittel)-Verluste.

Formel: Der Diskriminator DD (der hier wieder unbeschränkte Scores ausgibt) und der Generator GG minimieren folgende Verlustfunktionen, wobei a,b,ca, b, c Zielwerte sind:

LDLSGAN=12Ex[(D(x)b)2]+12Ez[(D(G(z))a)2]LGLSGAN=12Ez[(D(G(z))c)2]\begin{align} \mathcal{L}_D^{\text{LSGAN}} &= \frac{1}{2} \mathbb{E}_{\bm{x}}[(D(\bm{x}) - b)^2] + \frac{1}{2} \mathbb{E}_{\bm{z}}[(D(G(\bm{z})) - a)^2] \\ \mathcal{L}_G^{\text{LSGAN}} &= \frac{1}{2} \mathbb{E}_{\bm{z}}[(D(G(\bm{z})) - c)^2] \end{align}

Eine übliche Wahl der Parameter ist a=0,b=1,c=1a=0, b=1, c=1 (oder alternativ a=1,b=1,c=1a=-1, b=1, c=1). Mit a=0,b=1a=0, b=1 versucht der Diskriminator, echte Proben auf 1 und künstliche auf 0 zu mappen. Mit c=1c=1 versucht der Generator, den Diskriminator dazu zu bringen, seine künstlichen Proben als 1 zu klassifizieren.

Motivation: Die Verwendung des quadratischen Fehlers bestraft Proben, die zwar auf der korrekten Seite der Entscheidungsgrenze liegen, aber weit davon entfernt sind. Dies kann zu stabileren Gradienten führen als die Sigmoid-Kreuzentropie, die für “zu einfach” klassifizierte Proben sättigt (Gradient wird klein). LSGAN zielt darauf ab, die künstlichen Daten näher an die Entscheidungsgrenze zu “ziehen”, die durch die echten Daten definiert ist.

Eigenschaften und Herausforderungen:

EigenschaftBeschreibung
ZielMinimierung eines Pearson χ2\chi^2-Divergenz-ähnlichen Ziels (implizit). Stabilisierung des Trainings durch Vermeidung von Gradientensättigung.
Diskriminator-Verlust LD\mathcal{L}_DQuadratischer Fehler zu Zielwerten aa (fake) und bb (real). Siehe Gl. \eqref{eq:lsgan_loss_d}.
Generator-Verlust LG\mathcal{L}_GQuadratischer Fehler zum Zielwert cc (oft derselbe wie bb). Siehe Gl. \eqref{eq:lsgan_loss_g}.
Vorteile
  • Stabilere Gradienten im Vergleich zum originalen GAN mit Sigmoid-Kreuzentropie.
  • Oft schnellere Konvergenz und bessere Ergebnisqualität als originaler GAN.
  • Einfache Implementierung.
Probleme/ Herausforderungen
  • Kann immer noch unter Modenkollaps leiden.
  • Die Wahl der Zielwerte a,b,ca, b, c kann die Leistung beeinflussen.
  • Weniger theoretisch fundiert als WGAN bezüglich der optimierten Distanz.
Use CasesWeit verbreitete Alternative zum originalen GAN-Verlust, besonders bei Bildgenerierungsaufgaben.

5.4. Hinge-Verlust (Adversarial Hinge Loss)

Eine weitere populäre Alternative, die oft in modernen GANs wie SAGAN oder BigGAN verwendet wird, ist die Adaption des Hinge-Verlusts für das adversariale Training.

Formel (Gängige Variante): Der Diskriminator DD (der unbeschränkte Scores ausgibt) und der Generator GG minimieren folgende Hinge-basierte Verluste:

LDHinge=Ex[max(0,1D(x))]+Ez[max(0,1+D(G(z)))]LGHinge=Ez[D(G(z))]\begin{align} \mathcal{L}_D^{\text{Hinge}} &= \mathbb{E}_{\bm{x}}[\max(0, 1 - D(\bm{x}))] + \mathbb{E}_{\bm{z}}[\max(0, 1 + D(G(\bm{z})))] \\ \mathcal{L}_G^{\text{Hinge}} &= - \mathbb{E}_{\bm{z}}[D(G(\bm{z}))] \end{align}

Hierbei versucht der Diskriminator, echte Proben auf einen Score von 1\ge 1 und künstliche Proben auf einen Score von 1\le -1 zu bringen. Der Generator versucht, die Scores seiner künstlichen Proben zu maximieren (also LG\mathcal{L}_G zu minimieren).

Motivation: Ähnlich wie der Standard-Hinge-Verlust in der Klassifikation, zielt diese Formulierung auf eine maximale Marge zwischen den Scores für echte und künstliche Daten ab. Sie bestraft nur Scores, die die Marge verletzen. Dies hat sich empirisch als sehr effektiv für stabiles Training und hohe Ergebnisqualität erwiesen.

Eigenschaften und Herausforderungen:

EigenschaftBeschreibung
ZielMaximierung der Marge zwischen den Scores für echte und künstliche Daten.
Diskriminator-Verlust LD\mathcal{L}_DSumme zweier Hinge-Terme für echte (1\ge 1) und künstliche (1\le -1) Samples. Siehe Gl. \eqref{eq:hingegan_loss_d}.
Generator-Verlust LG\mathcal{L}_GMaximierung des Diskriminator-Scores für künstliche Samples. Siehe Gl. \eqref{eq:hingegan_loss_g}.
Vorteile
  • Empirisch sehr gute Leistung und Trainingsstabilität.
  • Weniger empfindlich gegenüber Ausreissern als quadratische Verluste.
  • Einfache Implementierung.
Probleme/ Herausforderungen
  • Weniger direkte theoretische Interpretation der optimierten Divergenz im Vergleich zu original GAN oder WGAN.
  • Kann, wie andere GANs, immer noch Moden vernachlässigen.
Use CasesStandardwahl in vielen modernen, hochleistungsfähigen GAN-Architekturen (z.B. SAGAN, BigGAN) für Bildsynthese.

5.5. Vergleich Adversarialer Verlustfunktionen

Die Wahl der adversarialen Verlustfunktion hat erheblichen Einfluss auf die Stabilität des Trainingsprozesses und die Qualität der generierten Ergebnisse. Während der originale Minimax-Verlust eine klare theoretische Grundlage hat (JSD-Minimierung), leidet er oft unter praktischen Problemen. WGANs bieten eine verbesserte theoretische Fundierung (Wasserstein-Distanz) und empirische Stabilität, erfordern aber die Handhabung der Lipschitz-Bedingung. LSGAN und der adversariale Hinge-Verlust sind pragmatische Alternativen, die oft gute Stabilität und Leistung durch Modifikation der Zielfunktion erreichen, um Gradientenprobleme zu vermeiden. Die Wahl hängt oft von der spezifischen Anwendung, der Architektur und den verfügbaren Rechenressourcen ab. Tabelle 4 bietet einen zusammenfassenden Überblick.

Tabelle 4: Vergleich von Adversarialen Verlustfunktionen

VerlustfunktionZiel (Distanz/Div.)D-OutputG-Verlust (typisch, min.)HauptvorteilHauptherausforderung
Original GAN (Minimax)JSD (theor.)W’keit [0,1][0,1]Ez[logD(G(z))]-\mathbb{E}_{\bm{z}}[\log D(G(\bm{z}))]Theor. FundierungInstabilität, Vanishing Gradients
WGAN-GPWasserstein-1Score R\REz[C(G(z))]-\mathbb{E}_{\bm{z}}[C(G(\bm{z}))]Stabilität, Korrelation mit QualitätLipschitz (Gradient Penalty)
LSGANPearson χ2\chi^2-ähnlichScore R\R12Ez[(D(G(z))1)2]\frac{1}{2} \mathbb{E}_{\bm{z}}[(D(G(\bm{z})) - 1)^2]Stabilität ggü. Original-GANWeniger theor. fundiert als WGAN
Adversarial HingeMargin MaximierungScore R\REz[D(G(z))]-\mathbb{E}_{\bm{z}}[D(G(\bm{z}))]Empirisch hohe Leistung & StabilitätWeniger klare Divergenz-Interpretation

Hinweis: JSD = Jensen-Shannon Divergence. D = Diskriminator, C = Kritiker, G = Generator. G-Verluste sind zur Minimierung dargestellt.


References

[1] I. Goodfellow et al., “Generative Adversarial Nets,” in Advances in Neural Information Processing Systems 27 (NIPS 2014), 2014, pp. 2672–2680.

[2] R. Hadsell, S. Chopra, and Y. LeCun, “Dimensionality Reduction by Learning an Invariant Mapping,” in 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR’06), 2006, vol. 2, pp. 1735–1742.

[3] K. Q. Weinberger and L. K. Saul, “Distance Metric Learning for Large Margin Nearest Neighbor Classification,” Journal of Machine Learning Research, vol. 10, pp. 207-244, 2009.

[4] F. Schroff, D. Kalenichenko, and J. Philbin, “FaceNet: A Unified Embedding for Face Recognition and Clustering,” in 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015, pp. 815–823.

[5] M. Arjovsky, S. Chintala, and L. Bottou, “Wasserstein GAN,” in Proceedings of the 34th International Conference on Machine Learning (ICML 2017), 2017, pp. 214–223.

[6] I. Gulrajani, F. Ahmed, M. Arjovsky, V. Dumoulin, and A. C. Courville, “Improved Training of Wasserstein GANs,” in Advances in Neural Information Processing Systems 30 (NIPS 2017), 2017, pp. 5767–5777.

[7] X. Mao, Q. Li, H. Xie, R. Y. K. Lau, Z. Wang, and S. Paul Smolley, “Least Squares Generative Adversarial Networks,” in 2017 IEEE International Conference on Computer Vision (ICCV), 2017, pp. 2794–2802.