6 Machine Learning und die „Universelle Approximations-Eigenschaft“ Neuronaler Netze

Bernd Thomas

Published in

Beck et al.

3 min readDec 3, 2019

6 Machine Learning und die „Universelle Approximations-Eigenschaft“ Neuronaler Netze

Sechs nicht so einfache Aufgaben für KI — Teil 6

Wir hatten diese Serie mit der Frage begonnen, ob KI, genauer — Maschnelles Lernen, in der Lage ist, einfache “intellektuelle” Fähigkeiten zu erwerben, die schon jedes Kind zu leisten lernt. Zum Beispiel einfachste mathematische Fähigkeiten wie, gerade und ungerade Zahlen zu unterscheiden.

Das Universelle Approximations-Theorem besagt, dass jede stetige Funktion durch ein geeignet gewähltes Neuronales Netzwerk (sogar mit nur einem hidden layer) beliebig gut approximiert werden kann. Eine genauere Formulierung findet man u.a. in Wikipedia:

In the mathematical theory of artificial neural networks, the universal approximation theorem states that a feed-forward network with a single hidden layer containing a finite number of neurons can approximate continuous functions …, under mild assumptions on the activation function.

Allerdings läßt der Approximationssatz keinen Schluß über die Trainierbarkeit des NN zu (per Backpropagation). Praktisch heißt das, man kann mit Hilfe eines geeignet konstruierten NN, passenden Gewichten und Aktivierungsfunktionen einen Funktionswert beliebig genau berechnen. Ob dieses oder ein anderes geeignetes NN die “Funktion erlernen” kann — d.h. die passenden Gewichte durch Training iterieren kann — ist nicht per se klar. Aber genau darum aber geht es in dieser Serie — sogar um “starkes” Lernen (s. Teil 2).

Im Folgenden wollen wir uns an einigen Beispielen mit der Approximations-Eigenschaft und der Trainierbarkeit befassen. Dazu gehören

Eine einfache kubische Funktion aus einem Internet Blog
Wurzeln, Quadrate und “Pythagoras”
Das Multiplikationsproblem
Multiplikation 3.0 — nach einem Modell im Buch von Tegmark in “Leben3.0”
Ein zweidimensionales sin-Beispiel
Universalität und Logische Schaltungen
Universalität und Treppenfunktionen
Zählen und Vergleichen

Bei jedem Beispiel werden wir neue Aspekte aufdecken. Unter anderem werden wir auch die Gerade/Ungerade-Klassifikationsaufgabe, wie sie in Teil 1 formuliert ist, noch einmal aufgreifen.

Anm.: Wieder sind zur Illustration iPython Notebook Code-Schnipsel in den Text eingefügt, meist nur Partien, die darstellen, was im Text gerade besprochen wird. Ausgabe-Routinen etc. werden der Lesbarkeit wegen weg gelassen. Die Code-Schnipsel können beim Lesen übersprungen werden; die Ergebnisse (Output) sind dagegen immer dargestellt.

Vorab noch einige Anmerkungen:

Bei Approximationen geht es immer um die Näherung numerischer Werte (Funktionswerte), nicht um die zeichenweise Darstellung (Dezimalziffern)
Insofern sind NNs mit dem Ziel, Funktionswerte anzunähern, nichts anderes als Regressoren, d.h. sie lösen eine (i.a. nicht-lineare) Regressionsaufgabe.
Natürlich kann man sich auch Bilder, Audio-Daten und sonstige Muster als (hochdimensionale) Funktionen vorstellen, und z.B. Klassifiaktions-aufgaben in dieser Hinsicht als Approximationsaufgaben sehen. Allerdings sind hierbei in der Regel die anzunähernden Funktionen nicht (analytisch) bekannt, bzw. können nur mit anderweitigen Verfahren (z.B. Fourier-Analyse) repräsentiert werden.
In der Numerischen Mathematik kennt man eine Vielzahl von “klassischen” Approximationsverfahren, die Interpolations- bzw. Ausgleichsaufgaben per Formel oder iterativ lösen. Wir kommen darauf gelegnetlich zurück.
Aus der prinzipiellen Universalität von NNs als Approxinationsverfahren leitet sich per se eine Art Universalität des “Lernvermögens” von NNs ab.

Weiter lesen: 6.1 Ein kubisches Polynom als Beispiel für die NN-Approximation nicht-linearer Funktionen

Zurück auf Anfang

bernhard.thomas@becketal.com
www.becketal.com

6 Machine Learning und die „Universelle Approximations-Eigenschaft“ Neuronaler Netze

Written by Bernd Thomas