
XAI für CNN: Attributionsmethoden zur Bildanalyse
XAI für CNN: Attributionsmethoden zur Bildanalyse
Reader, Systemtechnik BSc, HS 2026
Kurs Applied Neural Networks (ANN)
Author: Christoph Würsch, Institute for Computational Engineering ICE, OST
Abstract
Attributionsmethoden stellen ein wichtiges Instrument dar, um die Entscheidungsprozesse neuronaler Netze transparent zu machen. Sie ordnen jedem Eingabemerkmal einen Beitrag zur Vorhersage zu und ermöglichen somit eine Bewertung der Relevanz einzelner Merkmale. In diesem Beitrag werden gängige Attributionsmethoden für CNNs vorgestellt und mathematisch fundiert beschrieben. Besonderes Augenmerk liegt auf Gradienten-basierten Verfahren wie den Integrated Gradients, welche den Beitrag eines Pixels zur Vorhersage durch Integration entlang eines Pfades von einer Baseline zur Eingabe quantifizieren. Darüber hinaus werden Konzepte wie Layer-wise Relevance Propagation (LRP), DeepLIFT und neuere Visualisierungstechniken wie SUMMIT diskutiert. Ziel ist es, ein Verständnis für die methodischen Grundlagen und praktischen Herausforderungen der Erklärbarkeit tiefer Modelle zu vermitteln.
1. Einführung in die Attribution bei CNNs
Convolutional Neural Networks (CNNs) haben eine herausragende Leistungsfähigkeit in Aufgaben der Bilderkennung und -regression erzielt. Ihre komplexe, hierarchische Struktur macht sie jedoch zu “Black Boxes”: Es ist oft unklar, auf welche Merkmale im Eingangsbild sich das Modell für seine Entscheidung stützt. Explainable AI (XAI) zielt darauf ab, diese Black Box zu öffnen und die Entscheidungsfindung von Modellen nachvollziehbar zu machen.
Ein zentraler Ansatz hierfür sind Attributionsmethoden. Die grundlegende Idee ist, die Vorhersage eines Modells auf seine Eingabemerkmale “zurückzuführen” (zu attribuieren). Für Bilddaten bedeutet dies, jedem Pixel des Eingangsbildes einen Relevanz- oder Wichtigkeitswert zuzuordnen. Das Ergebnis ist eine Heatmap, oft als Saliency Map bezeichnet, die visuell hervorhebt, welche Bildbereiche für die Ausgabe des Netzwerks (z.B. die Klassifizierung als “Hund”) am einflussreichsten waren.
1.1 Mathematische Definition der Attribution
Sei eine Funktion, die ein neuronales Netzwerk repräsentiert. Für ein Eingangsbild , das als Vektor von Pixeln betrachtet wird, gibt einen Skalar aus. Dieser Skalar kann der Logit-Wert für eine bestimmte Klasse bei einer Klassifikationsaufgabe oder der vorhergesagte Wert bei einer Regressionsaufgabe sein.
Eine Attribution ist eine Zuweisung eines Relevanzwertes zu jedem Eingabemerkmal (Pixel) . Das Ziel ist die Erstellung einer Attributionskarte (oder Vektor) .
Diese Karte soll die Wichtigkeit jedes Pixels für den finalen Output quantifizieren.
1.2 Standard-Attribution: Sensitivity Maps
Der direkteste Weg, die “Sensitivität” des Outputs in Bezug auf eine kleine Änderung eines Input-Pixels zu messen, ist die Berechnung des Gradienten.
Definition (Sensitivity Map): Die Attribution eines Pixels wird als der partielle Ableitungswert der Output-Funktion nach diesem Pixel definiert.
Die gesamte Attributionskarte ist somit der Gradient des Outputs bezüglich des Inputs:
Interpretation: Der Wert gibt an, wie stark sich der Output ändert, wenn das Pixel infinitesimal klein verändert wird. Ein hoher absoluter Wert bedeutet eine hohe Relevanz des Pixels für die Entscheidung. Zur Visualisierung wird oft der Absolutbetrag oder das Quadrat des Gradienten verwendet.
1.3 Integrated Gradients (IG)
Ein Problem der einfachen Gradientenmethode ist die Sättigung. Wenn ein Neuron bereits stark aktiviert ist (z.B. durch eine ReLU-Aktivierungsfunktion), kann sein Gradient null sein, obwohl das Neuron entscheidend für das Ergebnis ist. Integrated Gradients (IG) löst dieses Problem, indem es die Gradienten entlang eines Pfades von einem Referenzbild (Baseline) zum eigentlichen Bild integriert. Die Baseline ist typischerweise ein informationsloses Bild, z.B. ein komplett schwarzes Bild.
Definition (Integrated Gradients): Die Attribution eines Pixels mittels IG ist definiert als:
Eigenschaften und Interpretation:
- Pfadintegral: Die Formel integriert die Gradienten entlang der geraden Linie im Merkmalsraum von der Baseline zum Bild .
- Vollständigkeit (Completeness): Eine wichtige Eigenschaft von IG ist, dass die Summe aller Attributionswerte der Differenz der Modellvorhersage zwischen dem Bild und der Baseline entspricht:
Dies macht die Attributionen “vollständig” und direkt interpretierbar als Beiträge zur Gesamtänderung des Outputs.
2. Gradienten-basierte Saliency-Methoden
Diese Methoden basieren alle auf der Rückpropagierung von Gradienten vom Output zum Input.
2.1 Saliency Maps (nach Simonyan et al., 2014)
Historisch gesehen ist dies eine der ersten und einfachsten Methoden. Sie ist in ihrer reinsten Form identisch mit der oben definierten Sensitivity Map.
Algorithmus 1: Berechnung einer Saliency Map
- Input: Modell , Eingangsbild , Zielklasse .
- Führe einen Forward-Pass mit durch, um alle Aktivierungen zu berechnen.
- Berechne den Score für die Zielklasse . Dies ist der Output .
- Berechne den Gradienten des Scores bezüglich des Eingangsbildes:
- Visualisierung:
- Aggregiere die Gradienten über die Farbkanäle, z.B. durch den Maximalwert des Absolutbetrags für jedes Pixel: .
- Normalisiere die resultierende 2D-Karte zur Darstellung als Heatmap.
- Output: Saliency Map .
2.2 SmoothGrad (Smilkov et al., 2017)
Standard-Gradientenkarten sind oft visuell verrauscht, was die Interpretation erschwert. SmoothGrad reduziert dieses Rauschen durch einen einfachen, aber effektiven Mittelungsprozess. Die Intuition ist, dass das wahre Relevanz-Signal bei leichten Störungen des Bildes stabil bleibt, während das Rauschen im Gradienten zufällig ist und sich bei Mittelung herauskürzt.
Algorithmus 2: SmoothGrad
- Input: Modell , Eingangsbild , Anzahl der Samples , Rauschlevel (Standardabweichung) .
- Initialisiere eine leere Akkumulator-Karte .
- Für bis :
- Erzeuge einen zufälligen Rauschvektor .
- Erstelle ein gestörtes Bild: .
- Berechne die Gradienten-basierte Saliency Map für das gestörte Bild: .
- Addiere die Karte zum Akkumulator: .
- Berechne den Durchschnitt: .
- Output: Geglättete Saliency Map .
3. SUMMIT: Skalierbare Interpretierbarkeit durch Aktivierungs- und Attributions-Zusammenfassungen
Während Saliency Maps die Wichtigkeit von Pixeln für ein einzelnes Bild erklären, zielt SUMMIT (SUMmarization of Activations and Attributions) darauf ab, die interne Funktionsweise eines CNNs über einen gesamten Datensatz hinweg zu aggregieren und zu visualisieren. Der Kern von SUMMIT ist die Erstellung eines Attributionsgraphen.
3.1 Die Idee des Attributionsgraphen
Ein Attributionsgraph ist ein gerichteter azyklischer Graph (DAG), , der die kausalen Einflüsse zwischen den internen “Konzepten”, die von den Neuronen des Netzwerks gelernt wurden, darstellt.
- Knoten (Nodes) : Jeder Knoten repräsentiert eine Gruppe von semantisch ähnlichen Neuronenaktivierungen innerhalb eines Layers. Ein Knoten steht also nicht für ein einzelnes Neuron, sondern für ein wiederkehrendes Muster oder “Konzept” (z.B. “Augen”, “Felltextur”).
- Kanten (Edges) : Eine gerichtete Kante von einem Knoten in Layer zu einem Knoten in einem späteren Layer () quantifiziert, wie stark das von repräsentierte Konzept zur Aktivierung des von repräsentierten Konzepts beiträgt.
3.2 Attribution in SUMMIT
SUMMIT erweitert den Begriff der Attribution. Statt die Relevanz von Input-Pixeln für den finalen Output zu messen, misst SUMMIT die Relevanz der Aktivierung eines Neurons in einem früheren Layer für die Aktivierung eines Neurons in einem späteren Layer. Hierfür wird das Framework der Integrated Gradients (IG) verwendet.
Mathematische Definition: Sei die Aktivierung des -ten Neurons im Layer für das Eingangsbild . Die Attribution der Aktivierung des Neurons in Layer auf die Aktivierung des Neurons in einem späteren Layer wird definiert als:
Hierbei ist der Integrationspfad im Aktivierungsraum des Layers definiert, typischerweise von einem Baseline-Aktivierungsvektor (z.B. Nullvektor) zum tatsächlichen Aktivierungsvektor des Layers .
3.3 Konstruktion des Attributionsgraphen
Bestimmung der Knoten (Nodes)
Die Knoten werden durch Clustering von Neuronenaktivierungen über einen gesamten Datensatz (z.B. alle Bilder der Klasse “Katze”) ermittelt.
- Aktivierungen sammeln: Für einen gegebenen Layer und einen Datensatz werden alle Aktivierungsvektoren gesammelt.
- Dimensionalitätsreduktion: Da die Anzahl der Neuronen pro Layer sehr hoch sein kann, wird typischerweise eine Dimensionsreduktion wie PCA (Principal Component Analysis) auf die gesammelten Aktivierungen angewendet.
- Clustering: Auf den dimensionalitätsreduzierten Aktivierungen wird ein Clustering-Algorithmus (z.B. k-Means) ausgeführt.
- Knotenerstellung: Jedes resultierende Cluster bildet einen Knoten im Graphen. Dieser Knoten repräsentiert eine Gruppe von Neuronen, die auf ähnliche Merkmale im Datensatz ansprechen.
Bestimmung der Kantengewichte (Edge Weights)
Das Gewicht einer Kante von einem Knoten zu einem Knoten misst den aggregierten Einfluss.
- Paarweise Attribution: Für jedes Bild im Datensatz wird die paarweise Attribution (mittels IG) zwischen allen Neuronen im Quell-Cluster und allen Neuronen im Ziel-Cluster berechnet.
- Aggregation: Das Kantengewicht ist die Summe dieser Attributionen, gemittelt über den gesamten Datensatz.
Formel: Das Gewicht der Kante vom Knoten (in Layer ) zum Knoten (in Layer ) ist:
wobei den Erwartungswert (Durchschnitt) über alle Bilder im Datensatz bezeichnet. Ein hohes Kantengewicht bedeutet, dass das von Knoten repräsentierte niedrigstufige Merkmal ein starker kausaler Faktor für die Erkennung des von Knoten repräsentierten höherstufigen Merkmals ist.
4. DeepLIFT: Attribution durch Differenz-zur-Referenz
DeepLIFT (Deep Learning Important FeaTures) ist eine weitere einflussreiche, rückpropagierungsbasierte Attributionsmethode, die eine grundlegend andere Herangehensweise als rein gradientenbasierte Ansätze verfolgt. Anstatt die infinitesimale Sensitivität (den Gradienten) an einem einzigen Punkt zu messen, quantifiziert DeepLIFT die Wichtigkeit von Merkmalen, indem es die Aktivierungsänderung eines Neurons im Vergleich zu einem “Referenzzustand” betrachtet.
4.1 Die DeepLIFT-Philosophie: Differenz statt Gradient
Die Kernidee von DeepLIFT ist, die Ausgabe-Differenz eines Modells im Vergleich zu einer Referenz-Ausgabe durch die Eingabe-Differenz im Vergleich zu einer Referenz-Eingabe zu erklären. Die Referenz-Eingabe (oder Baseline) ist ein vom Benutzer gewählter, informativ neutraler Input, wie z.B. ein schwarzes Bild oder ein Vektor aus Nullen.
Dieser Ansatz löst direkt das Problem der Gradientensättigung. Selbst wenn der Gradient eines Neurons an einem bestimmten Punkt null ist (z.B. bei einer gesättigten ReLU- oder Sigmoid-Einheit), ist die Differenz seiner Aktivierung im Vergleich zur Referenzaktivierung in der Regel nicht null. Dadurch kann DeepLIFT auch dann einen relevanten Wichtigkeits-Score propagieren, wenn gradientenbasierte Methoden versagen würden. Die Methode ist rechnerisch effizient, da die Scores in einem einzigen Backward-Pass berechnet werden können.
DeepLIFT zerlegt die Vorhersage eines Netzwerks für eine bestimmte Eingabe, indem es die Beiträge aller Neuronen zu jedem Eingabemerkmal zurückpropagiert.
Differenz-zur-Referenz (): Sei die Aktivierung eines Zielneurons für eine gegebene Eingabe und seine Aktivierung für die Referenz-Eingabe. Die “Differenz-zur-Referenz” ist definiert als:
Beitragswerte () und die “Summation-to-Delta”-Eigenschaft: DeepLIFT weist den Differenzen der Eingangsneuronen Beitragswerte zu. Diese Werte quantifizieren den Anteil an der Gesamtdifferenz , der auf die Differenz zurückzuführen ist. Diese Beitragswerte müssen eine fundamentale Eigenschaft erfüllen, die als Summation-to-Delta bezeichnet wird:
Diese Eigenschaft stellt sicher, dass die Summe der Beiträge der Eingabedifferenzen exakt die Zieldifferenz ergibt, wodurch eine vollständige und exakte Zerlegung der Ausgabe gewährleistet wird.
Multiplikatoren (): Um die Beiträge effizient durch das Netzwerk zurückzupropagieren, führt DeepLIFT das Konzept der “Multiplikatoren” ein. Der Multiplikator ist definiert als das Verhältnis des Beitrags zur Differenz:
Dieser Multiplikator verhält sich analog zu einer partiellen Ableitung, operiert aber auf finiten Differenzen () statt auf infinitesimalen Änderungen (). Diese Multiplikatoren gehorchen einer Kettenregel, die der für Gradienten ähnelt, was die Rückpropagierung ermöglicht: Wenn von Neuronen abhängt, die wiederum von Neuronen abhängen, gilt:
4.2 Propagierungsregeln für Nichtlinearitäten
Die zentrale Herausforderung besteht darin, die Multiplikatoren für nichtlineare Aktivierungsfunktionen zu definieren. DeepLIFT schlägt hierfür verschiedene Regeln vor.
Die Linear-Regel
Für affine Transformationen (z.B. in Dense- oder Convolutional-Layern ohne die Aktivierungsfunktion), bei denen , ist die Regel einfach. Da , ist der Multiplikator einfach das Gewicht:
Die Rescale-Regel
Für nichtlineare Aktivierungsfunktionen mit einem einzigen Input (wie ReLU, Sigmoid, Tanh) approximiert die Rescale-Regel den Multiplikator als die Steigung der Sekante zwischen dem Referenzpunkt und dem tatsächlichen Aktivierungspunkt:
Diese Regel ist die Standardimplementierung und löst das Sättigungsproblem, da auch dann ungleich null sein kann, wenn der lokale Gradient null ist.
Die RevealCancel-Regel
Die Rescale-Regel kann in bestimmten Szenarien irreführend sein, insbesondere wenn positive und negative Beiträge sich gegenseitig aufheben und so die Wichtigkeit von Merkmalen verschleiern. Die RevealCancel-Regel wurde entwickelt, um solche Abhängigkeiten aufzudecken, indem sie positive und negative Beiträge getrennt behandelt.
Dazu werden die Differenzen und in ihre positiven und negativen Anteile zerlegt (). Die Regel definiert dann separate Multiplikatoren für diese Anteile. Beispielsweise wird der Beitrag von zur positiven Differenz wie folgt definiert:
Der Multiplikator ist dann . Diese Formulierung berechnet den durchschnittlichen Effekt von einmal ohne und einmal mit dem Vorhandensein von . Dies verhindert, dass sich gegenläufige Effekte gegenseitig auslöschen, und kann so verborgene Abhängigkeiten aufdecken. Während die RevealCancel-Regel theoretisch robuster ist, wird in der Praxis oft die einfachere und schnellere Rescale-Regel bevorzugt.
5. Übersicht der Attributionsmethoden
Methode | Grundidee | Formel (vereinfacht) | Vorteile / Nachteile |
---|---|---|---|
Saliency Maps (Simonyan et al.) | Berechnet die Relevanz eines Pixels als den Absolutwert des Gradienten der Klassen-Score-Funktion in Bezug auf dieses Pixel. Misst, wie stark sich die Ausgabe ändert, wenn sich ein Eingangspixel ändert. | Vorteile: Einfach zu implementieren und zu verstehen; Schnell zu berechnen (nur ein Backpropagation-Pass). Nachteile: Gradienten können “gesättigt” sein und daher wichtige, aber nicht-lokale Informationen ignorieren; Oft visuell verrauscht; Unterscheidet nicht zwischen positiver und negativer Evidenz. | |
Gradient × Input (Shrikumar et al.) | Multipliziert den Gradienten elementweise mit dem Eingangsbild. Die Idee ist, dass nicht nur die Sensitivität (Gradient), sondern auch die Intensität des Merkmals selbst für die Relevanz wichtig ist. | Vorteile: Berücksichtigt sowohl die Pixelintensität als auch den Gradienten; Kann schärfere und interpretierbarere Karten als Saliency Maps erzeugen. Nachteile: Erbt einige der Probleme von reinen Gradientenmethoden; Die Interpretation kann schwierig sein. | |
Integrated Gradients (Sundararajan et al.) | Integriert die Gradienten entlang eines geradlinigen Pfades von einer “Baseline” (z.B. ein schwarzes Bild) zum eigentlichen Eingangsbild. Dadurch werden die Probleme der Gradientensättigung umgangen. | Vorteile: Erfüllt wichtige Axiome wie “Completeness”; Weniger anfällig für Gradientensättigung. Nachteile: Die Wahl der Baseline ist entscheidend; Rechenintensiver als einfache Gradientenmethoden. | |
LRP (Bach et al.) | Verteilt den Vorhersagewert des Netzwerks rückwärts durch die Schichten, bis hin zur Eingangsebene. Dabei gelten Erhaltungsregeln, sodass die Gesamt-Relevanz in jeder Schicht gleich bleibt. | Relevanz wird rückwärts propagiert: | Vorteile: Basiert auf einem klaren theoretischen Prinzip (Relevanzerhaltung); Liefert oft saubere, gut interpretierbare Heatmaps; Kann zwischen positiver und negativer Relevanz unterscheiden. Nachteile: Implementierung ist komplexer; Die Wahl der Regel beeinflusst das Ergebnis. |
DeepLIFT (Shrikumar et al.) | Vergleicht die Aktivierung jeder Neuron mit einer “Referenzaktivierung” (abgeleitet von einer Baseline). Propagiert “Kontributions-Scores” anstelle von Gradienten. | Basiert auf einer “Sum-to-Delta”-Regel: | Vorteile: Löst das Problem der diskontinuierlichen Gradienten bei ReLUs; Kann positive und negative Beiträge aufdecken; Erfüllt eine Form des “Completeness”-Axioms. Nachteile: Benötigt wie IG eine Baseline; Die konzeptionelle Komplexität ist höher. |
Grad-CAM (Selvaraju et al.) | Verwendet die Gradienten, die in die letzte Konvolutionsebene fließen, um die Wichtigkeit jedes Feature-Map-Kanals für eine bestimmte Klasse zu berechnen. Erzeugt eine grobe Lokalisierungskarte. | mit | Vorteile: Klassen-diskriminativ; Benötigt keine Modifikation der Architektur; Liefert oft gute, interpretierbare Lokalisierungen. Nachteile: Die Auflösung der Heatmap ist durch die Größe der letzten Feature-Map begrenzt; Ist keine vollständige Pixel-Attributionsmethode. |
Guided Backpropagation (Springenberg et al.) | Kombiniert Vanilla Backpropagation und Deconvolutional Networks. Beim Rückpropagieren durch eine ReLU-Einheit werden nur positive Gradienten weitergegeben, und nur zu Neuronen, die im Forward Pass eine positive Aktivierung hatten. | Modifizierte ReLU-Rückpropagation: | Vorteile: Erzeugt sehr scharfe, hochauflösende und visuell ansprechende Visualisierungen. Nachteile: Ist nicht mehr direkt an die Entscheidung des Modells gekoppelt; Die Visualisierung kann irreführend sein. |
Literatur
- Smilkov, Daniel, Nikhil Thorat, Been Kim, Fernanda B. Viégas and Martin Wattenberg. SUMMIT: Scaling Deep Learning Interpretability by Visualizing Activation and Attribution Summarizations. ArXiv, abs/1704.03313, 2017.
- Smilkov, Daniel, Nikhil Thorat, Been Kim, Fernanda B. Viégas and Martin Wattenberg. SmoothGrad: removing noise by adding noise. ArXiv, abs/ 1706.03825, 2017.
- Sundararajan, Mukund, Ankur Taly, and Qiqi Yan. Axiomatic Attribution for Deep Networks. Proceedings of the 34th International Conference on Machine Learning, 2017.
- Simonyan, Karen, Andrea Vedaldi, and Andrew Zisserman. Deep Inside Convolutional Networks: Visualising Image Classification Models and Saliency Maps. ArXiv, abs/1312.6034, 2014.
- Shrikumar, A., Greenside, P., & Kundaje, A. (2017). Learning Important Features Through Propagating Activation Differences. arXiv preprint ar- Xiv:1704.02685.
- Shrikumar, A., Greenside, P., & Kundaje, A. (2016). Not Just a Black Box: Learning Important Features Through Propagating Activation Differences. arXiv preprint arXiv:1605.01713.
- Captum Team. (n.d.). DeepLIFT Documentation. Captum.ai. Retrieved from https://captum.ai/api/deep_lift.html
- Pysquad. (2024). DeepLIFT Explained: Python Techniques for AI Transparency. Medium.
- Stabenau, M. et al. (2023). innsight: Get Deep Insights into Your Neural Network. R package version 0.1.0.
- University of Waterloo. (2017). STAT946F17: Learning Important Features Through Propagating Activation Differences. StatWiki.
- Ancona, M., Ceolini, E., Öztireli, C., & Gross, M. (2018). Towards better understanding of gradient-based attribution methods for Deep Neural Networks. International Conference on Learning Representations (ICLR).
- Tseng, G. (2018, November 16). How to explain deep learning models, part 2: SHAP and the path to better model interpretability. Personal Blog.
- Shrikumar, A., Greenside, P., & Kundaje, A. (2017). Learning Important Features Through Propagating Activation Differences. Proceedings of the 34th International Conference on Machine Learning (ICML).
- Shrikumar, A. (2017). DeepLIFT: A method for explaining predictions of deep neural networks (15 min tutorial). [Video]. YouTube.
- Tseng, G. (2018, November 16). How to explain deep learning models, part 2: SHAP and the path to better model interpretability. Personal Blog.
- Shrikumar, A., Greenside, P., & Kundaje, A. (2017). Learning Important Features Through Propagating Activation Differences. Proceedings of the 34th International Conference on Machine Learning (ICML).