In vielen alltäglichen Bereichen werden Machine Learning Algorithmen eingesetzt um dem Nutzer mehr Komfort zu bieten oder Arbeitsabläufe zu beschleunigen. Entscheidungen werden ihm abgenommen oder Inhalte so vorbereitet, dass diese nur noch bestätigt werden müssen. Beispiele mit Bezug zur Bilderkennung hierfür sind z.B. automatische Belegverwaltungen in Firmen oder die Kennzeichenerkennung unter öffentlicher Hand. Jede dieser Programme wird mit Input – dem Bild – gefüttert, woraus man ein entsprechendes Ergebnis basierend auf diesem erwartet. Bei der Belegverwaltung ist dieses beispielhaft der Betrag und Empfänger einer Rechnung, bei der Kennzeichenerfassung das extrahierte Kennzeichen und evtl. Randinformationen über das Fahrzeug.
Mit Adversarial Attacks wird versucht durch minimalste Modifikationen im Bildmaterial oder der Umwelt selber die Erkennungs-Algorithmen in die Irre zu führen. Diese optischen Fehler sind meist nicht einmal mit dem menschlichen Auge direkt erkennbar. Ziele dieser Attacken können es sein, den Algorithmus einfach auszuschalten und mit fehlerhaften Informationen zu täuschen, oder aber ihm ein plausibles – aber falsches – Ergebnis zu entlocken. Diese beiden Typen nennt man “non targeted” oder “targeted” Attacks.
Beispiele für “non targeted” Attacks:
Ziel der sog. “targeted” Attacks ist das Ändern von Output-Variablen des Bilderkennungs – Algorithmus. Dieses können z.B. sein.:
Mit diesem (siehe Abbildung oben) optisch sichtbaren – aber harmlos aussehenden – Patch lässt sich die Output-Klasse eines Erkennungs- Algorithmuses basierend auf dem vortrainierten Netzwerk- Models VGG16 effektiv beeinflussen. Dieses Model wird als Basis für viele Netzwerke in kommerzielle benutzten Softwares benutzt.
Bisher wurde die Anwendung von Adversarial Attacks nur theoretisch gezeigt, größere Attacken sind bisher nicht bekannt oder wurden geschickt geheim gehalten. Die gezeigten Beispiele sind allerdings nur ein kleiner Teil des technisch Möglichen.
Es gibt zwei Arten von Verteidigungsstrategien: