3.4 Einige Erkenntnisse

Bernd Thomas

Published in

Beck et al.

2 min readOct 16, 2019

3.4 Erkenntnisse

Der Ansatz, das Gerade/Ungerade-Problem in zwei (NN-)Schritten zu lösen, d.h. auch mit zwei unterschiedlichen Trainingssets, gibt damit noch keine Antwort auf die ursprüngliche Frage: Kann man einem NN-basierten ML-System beibringen gerade/ungerade Zahlen allgemein zu unterscheiden? Denn dazu bräuchten wir eigentlich ein NN (ggf. mehrschichtig), das durch Trainingsets wie in 3.1 im ersten NN-Versuch verwendet lernen kann! D.h. in Form von [Zahl x]:[Kategorie y]. Das haben wir hiermit noch nicht erstellen können.
Wie bei allen ML-Problemen liegt “das zu Lernende” in den Trainingsdaten! Verborgen, wie die Features bei der Bilderkennung, oder erkennbar, wie hier bei den einfachen Zahlenproblemen. Bei solch einfachen Problemstellungen ist man geneigt, die Überschaubarkeit in den Daten bereits als Lernergebnis und damit als trivial zu empfinden. Dennoch können wir klar trennen: Informationen, die implizit in den Daten stecken (und gefunden werden müssen) und die Leistung des ML-Algorithmus, diese Informationen explizit zu machen (zu finden) und, vor allem, für Vorhersagen (Anwendung auf neue Daten) zu verwenden.
Die NN’s in 3.2 und 3.3 sind minimal in dem Sinne, dass es einerseits keine komplexeren NN’s braucht, um das Lernziel zu erreichen, und andererseits kein einfacheres NN dieses leistet. Wir werden das in Teil 4 noch einmal beleuchten.
Die NN’s sind “verstehbar”, d.h. man kann verstehen, warum das trainierte NN eine bestimmte Vorhersage trifft. Das liegt an dem überschaubaren Parameter-Set (Gewichte) der minimalen NN’s und dem klaren “Lernzustand” der Gewichte am Ende des Trainings. Man erkennt, wie die Entscheidung gerade/ungerade zustande kommt. Diese Eigenschaft ist meist nicht gegeben bei komplexen NN’s. Oft kann man aber Gewichte-Subsets deuten, z.B. als Features.
Die NN’s für die Teilaufgaben sind eigentlich by design entstanden — und nicht durch “Raten” einer geeigneten NN-Struktur, wie wir es in 3.1 erfolglos versucht haben. Wegen der Einfachheit der Teilaufgaben kann man sich nämlich theoretisch überlegen, welche Struktur mit welchen Gewichten den optimalen Lernzustand darstellt. Erfreulicherweise wird dieser Zustand auch tatsächlich durch durch ein Trainingsverfahren (gradient backpropagation) erreicht. Das Modell funktioniert by learning (s. oben).

Weiter lesen: 4 Neuronale Netze lernen gerade und ungerade Zahlen zu unterscheiden

Zurück auf Anfang

bernhard.thomas@becketal.com
www.becketal.com

Written by Bernd Thomas