Bernd Thomas
Beck et al.
Published in
4 min readJun 26, 2019

--

Six Not-So-Easy Pieces — for AI

Abstract

Six not so easy pieces for AI deals, in 6 parts, with the attempt to learn elementary mathematical facts with methods of machine learning. It considers the simplest knowledge which every child can learn, such as how to distinguish between even and odd numbers.

A special feature of the tasks is that we must demand “strong” learning, i.e. the ability to make exact predictions, as opposed to the weaker form, in which only a (high) probability is achieved or a tolerance in accuracy is accepted.

Part 1 shows that, and why, simple classification methods fail. Unless the divisibility by 2 is already hidden, e.g. in the “kernel trick”.

Part 2 develops a successful statistical learning method by detecting anomalies.

Part 3 tries to apply (multi-layered) neural networks — unsuccessfully at first. By splitting the task into two intuitive independent subtasks, it is possible to design minimal NNs that can be trained for these and at the same time be understood theoretically.

Part 4 shows a way to construct a (minimum) NN from the experiences in Part 3 that solves the overall task, i.e. strong learning of the even/odd classification solely from given training data. The learning process is robust in the sense that 100% prediction accuracy is achieved even from incorrect training data.

This procedure will then be implemented on NN architectures from the keras/tensorflow toolbox. The significantly higher parameter dimensionality shows surprising, interpretable properties in the trained state of the network.

The NNs for even/odd classification can be trained to the classification of multiples of e.g. 5 simply by specifying other training data. This proves that divisibility is not already implemented as hidden knowledge, as was the case in Part 1.

Part 5 develops exemplary ML methods for the classification of multiples of 3, 7 and 9 using NNs. The networks are slightly more complex than those for even/odd classification and make use of recurrent and transfer learning.

Part 6 investigates the possibility of non-linear approximations by NNs in the sense of the Universal Approximation Property of Deep Learning NNs. It becomes clear that this does not solve the elementary strong learning tasks.

In an appendix (to be done) the possibility is investigated to evolve the known elementary “arithmetic tasks” (algorithms) by iterative code modification (genetic mechanisms, breeding).

Note: Translations with support of deepl.com

Back to Intro

Zusammenfassung

Six not so easy pieces for AI befasst sich, in 6 Teilen, mit dem Versuch, elementare mathematische Gegebenheiten mit Methoden des Machine Learning lernen zu lassen. Es geht dabei um einfachste Kenntnisse, die jedes Kind lernt, wie etwa gerade und ungerade Zahlen zu unterscheiden.

Eine Besonderheit der Aufgaben ist dabei, dass wir “starkes” Lernen fordern müssen, d.h. die Fähigkeit zu exakten Vorhersagen, im Gegensatz zur schwächeren Form, bei der nur eine (hohe) Wahrscheinlichkeit erreicht oder eine Toleranz in der Genauigkeit akzeptiert wird.

Teil 1 zeigt, dass und warum einfache Klassifikationsmethoden scheitern. Es sei denn, die Teilbarkeit durch 2 wird schon versteckt eingebaut, z.B. im “Kernel-Trick”.

Teil 2 entwickelt eine erfolgreiche statistische Lern-Methode durch Erkennen von Auffälligkeiten.

Teil 3 versucht es mit (mehrschichtigen) Neuronalen Netzen — zunächst erfolglos. Durch Zerlegen der Aufgabe in zwei intuitive unabhängige Teilaufgaben gelingt es, minimale NNs zu entwerfen, die für diese trainiert werden können und gleichzeitig theoretisch verstanden werden.

Teil 4 zeigt einen Weg, aus den Erfahrungen in Teil 3 ein (minimales) NN zu konstruieren, dass die Gesamtaufgabe löst, d.h. starkes Lernen der Gerade/Ungerade-Klassifikation allein aus vorgegebenen Trainingsdaten. Das Lernverfahren zeigt sich robust in dem Sinne, dass 100% Vorhersagegenauigkeit auch aus fehlerhaften Trainigsdaten erzielt wird.

Das Verfahren wird weiterhin auf NN-Architekturen aus der keras/tensorflow Toolbox implementiert. Die deutlich höhere Parameterdimensionalität zeigt im trainierten Zustand des Netzes überraschende, interpretierbare Eigenschaften.

Die NNs für Gerade/Ungerade-Klassifikation lassen sich allein durch Vorgabe anderer Trainingsdaten auf die Klassifikation von Vielfachen von z.B. 5 trainieren. Das belegt, dass nicht, wie in Teil 1, die Teilbarkeit bereits als hidden knowledge implementiert ist.

Teil 5 entwickelt beispielhaft ML-Verfahren zur Klassifikation von Vielfachen von 3, 7 und 9 mittels NNs. Die Netzwerke sind leicht komplexer als die für die Gerade/Ungerade-Klassifikation und machen Gebrauch von Recurrent und Transfer Learning.

Teil 6 untersucht die Möglichkeit nicht-linearer Approximationen durch NN’s im Sinne der Universal Approximation Property von Deep Learning NNs. Es wird klar, dass damit die elementaren starken Lern-Aufgaben nicht gelöst werden.

In einem Anhang (später) wird die Möglichkeit untersucht, die bekannten zugehörigen elementaren “Rechenverfahren” (Algorithmen) durch iterative Code-Modifikation (Genetische Mechanismen, Breeding) zu evolvieren.

Zurück zur Einleitung

bernhard.thomas@becketal.com
www.becketal.com
www.im-pulse.info

--

--

Bernd Thomas
Beck et al.

Dr. Bernhard Thomas — Mathematics, Theor. Biology, Computational Sciences, AI and advanced Technologies for the Enterprise. Beck et al. Consultant