Skip to main content

2021 | OriginalPaper | Buchkapitel

3. Künstliche Neuronale Netze

Aktivieren Sie unsere intelligente Suche, um passende Fachinhalte oder Patente zu finden.

search-config
loading …

Zusammenfassung

Die Natur hat den Menschen zu vielen Entwicklungen und Erfindungen inspiriert. So haben etwa Vögel den Menschen dazu inspiriert zu fliegen oder sind Pflanzenfasern Inspirator für die Herstellung künstlicher Fasern. Vergleichbares gilt für die Strukturen des (menschlichen) Gehirns in Bezug auf das Erschaffen Künstlicher Intelligenz und den hier verortbaren KNN.

Sie haben noch keine Lizenz? Dann Informieren Sie sich jetzt über unsere Produkte:

Springer Professional "Wirtschaft+Technik"

Online-Abonnement

Mit Springer Professional "Wirtschaft+Technik" erhalten Sie Zugriff auf:

  • über 102.000 Bücher
  • über 537 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Maschinenbau + Werkstoffe
  • Versicherung + Risiko

Jetzt Wissensvorsprung sichern!

Springer Professional "Wirtschaft"

Online-Abonnement

Mit Springer Professional "Wirtschaft" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 340 Zeitschriften

aus folgenden Fachgebieten:

  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Versicherung + Risiko




Jetzt Wissensvorsprung sichern!

Fußnoten
1
Vgl. Géron 2017, S. 253.
 
2
Vgl. Crone 2010, S. 159 ff.
 
3
Vgl. Kruse u. a. 2016, S. 8.
 
4
Vgl. Crone 2010, S. 159.
 
5
Vgl. Crone 2010, S. 161.
 
6
Vgl. McCulloch und Pitts 1943; Zell 1994, S. 3; Wiedmann und Buckler 2003, S. 48.
 
7
Vgl. Géron 2017, S. 253.
 
8
Vgl. Görz 1993, S. 9.
 
9
Vgl. Görz 1993, S. 3.
 
10
McCorduck 1979, S. 93.
 
11
Vgl. Görz 1993, S. 4. Für eine Detaillierte historische Ausarbeitung siehe Levine 2000, S. 11–32.
 
12
Dies ist allerdings kein Spezifikum der KI sondern auch in anderen Teildisziplinen ein Problem. Vgl. Werner 2016, S. 5.
 
13
Vgl. Görz 1993, S. 3.
 
14
Vgl. Goodfellow, Bengio und Courville 2016, S. 98.
 
15
Vgl. Goodfellow, Bengio und Courville 2016, S. 30.
 
16
Siehe auch Goodfellow, Bengio und Courville 2016, S. 99.
 
17
Vgl. Jordan und Mitchell 2015, S. 255.
 
18
Vgl. Wiedmann und Buckler 2003, S. 48; Zell 1994, S. 461.
 
19
Vgl. Crone 2010, S. 159.
 
20
Vgl. Crone 2010, S. 159. Zum mathematischen Beweis siehe Cybenko 1989.
 
21
Hiermit sind beispielsweise die klassische Regressionsanalyse und Zeitreihenmodelle gemeint.
 
22
Vgl. Srinivasan u. a. 2011, S. 1.
 
23
Vgl. Srinivasan u. a. 2011, S. 2.
 
24
Vgl. Wiedmann und Buckler 2003, S. 48 f.
 
25
Vgl. Levine 2000, S. ix.
 
26
Vgl. Zinkevich u. a. 2010, S. 2596.
 
27
Vgl. Kappes und Schentler 2015, S. 74.
 
28
Entnommen aus: Khalid 2015.
 
29
Zur Definition vorwärts gerichteter KNN siehe Abschnitt 3.4.
 
30
Vgl. Goodfellow, Bengio und Courville 2016, S. 225 mit Verweis auf Leibniz 1679; L’Hôptial 1696.
 
31
Siehe hierzu im selbigen Kontext Cauchy 1847.
 
32
Siehe hierzu Goodfellow, Bengio und Courville 2016, S. 225 mit dem Verweise auf Rumelhart, Hinton und Williams 1986; Hinton und Sejnowski 1986.
 
33
Vgl. Goodfellow, Bengio und Courville 2016, S. 226.
 
34
Vgl. Goodfellow, Bengio und Courville 2016, S. 227, sowie den in Y. LeCun, Bengio und Hinton 2015, S. 442, zu finden Verweis auf die Arbeit von Krizhevsky, Sutskever und Hinton 2012.
 
35
In diesem Fall handelt es sich um überwachtes Lernen (supervised learning).
 
36
Für eine Definition aus dem Blickwinkel der Graphentheorie siehe Kruse u. a. 2016, S. 33 ff.
 
37
Vgl. einführend Heuser 2006, S. 212 ff.
 
38
Dies ist der so genannte nabla-Operator.
 
39
Vgl. Weltner 2013, S. 34 f.
 
40
Siehe für eine erste Idee Agrawal, Gans und Goldfarb 2018, S. 74 f.
 
41
Die Bilderkennung und Spracherkennung machen einen hohen Teil der Forschungsbestrebungen aus. Anhand dieser zwei Strömungen soll hier die Inspiration der Umsetzung dieser Untersuchung skizziert werden.
 
42
Das angeleitete oder auch überwachte Lernen, siehe Abschnitt 3.1, wird als supervised learning bezeichnet. Zum Unterschied des überwachten und nicht überwachten Lernens siehe Russell und Norvig 2016.
 
43
Die Beispiele sollen der Veranschaulichung dienen.
 
44
Zu Lernalgorithmen siehe Goodfellow, Bengio und Courville 2016, S. 99 ff.
 
45
Vgl. Wiedmann und Buckler 2003, S. 70.
 
46
Eigene Darstellung. Für eine umfangreiche Betrachtung siehe Wiedmann und Buckler 2003, S. 70.
 
47
Zum Thema des Hyperparameter Tunings siehe Srivastava u. a. 2014.
 
48
Siehe zum Thema der ausbalancierten Daten Provost und Fawcett 2013, sowie die Ausführungen in Abschnitt 4.​2.​1.​2.
 
49
Zur genaueren Auseinandersetzung mit der Auswahl und Aufbereitung der Daten, sowie mit der Ausgestaltung des Instrumentes KNN und deren Hyperparameter siehe Abschnitt 4.​2.
 
50
Zur Thematik des Kategorisieren von Bildern mit Sicherheitsabfragen siehe o. V. 2019b.
 
51
Zum grundsätzlichen Aufbau siehe etwa Wiedmann und Buckler 2003, S. 52; Brause 1995.
 
52
Hierbei sei angemerkt, dass es spezifizierter heißen müsste, dass es sich um einen Baustein eines KNN handelt. Aufgrund der Übersichtlichkeit und dem Vorhaben, dem Leser einen Überblick in die Thematik zu verschaffen wird in diesem Abschnitt keine explizite Unterscheidung zwischen einem Systemteil, dem Neuron, und der Verknüpfung dieser in einem Netz vorgenommen, auch wenn dies zu einem Bruch in der Notation führen wird.
 
53
Genauer handelt es sich um einen stark vereinfachten Baustein, da so noch kein Netz vorliegt.
 
54
Vgl. Sarle 1994; Hastie, Tibshirani und Friedman 2009, S. 43. Wichtig ist hier anzumerken, dass die lineare Regression einen Spezialfall der Regressionsverfahren darstellt, welche ganz allgemein versuchen, eine Kurve durch eine Punktwolke zu legen. Die Eigenschaften der linearen Regression sind nicht gleichzusetzen mit denen der KNN. (Vgl. dazu etwa Wiedmann und Buckler 2003, S. 47).
 
55
Einführend zum Thema Regressionsanalyse siehe Allison 1999; Backhaus u. a. 2016; Urban und Mayerl 2006.
 
56
Zur Verwendung der Regressionsanalyse gibt es mehrere Voraussetzungen. Für das hier zur Einführung in die computergestützten Methoden herangezogene lineare Regressionsmodell sind dies etwa die Variabilität, Linearität, ein metrisches Niveau der Regressoren, korrekte Spezifizierung durch das Modell, Stichprobe muss größer sein als die Anzahl der Regressoren, Störgrößen haben den Erwartungswert Null, keine Kovarianzen zwischen unabhängiger Variablen und Fehlerterm, Homoscedastizität, keine Autokorrelation, keine Multikolinearität und zu guter Letzt Normalverteilung der Störgrößen. Es bestehen jeweils Wege um die Annahmen zu adjustieren oder durch geeignete Werkzeuge zu entschärfen. Für die fachliche Auseinandersetzung mit der Thematik siehe etwa: Backhaus u. a. 2006, Gujarati 2003. Hier wird der Ansatz der computergestützten Methoden verfolgt und die Regression soll den Einstieg in die Thematik darstellen. Wie sich zeigen wird, resultiert aus der Erweiterung des Systems des zunächst sehr simpel gehaltenen KNN eine Methode, welche viele Annahmen der Statistik an die lineare Regression nicht benötigt, denn es wird sich schlussendlich nicht mehr um diese handeln. Mit anderen Worten besteht das angestrebte System nicht lediglich aus einem Vielfachen von linearen Regressionsanalysen, sondern der Aufbau oder besser die Idee der linearen Regressionsanalyse kann ein Teilstück des Ganzen sein.
 
57
Vgl. Goodfellow, Bengio und Courville 2016, S. 678.
 
58
Dieses gilt es in den folgenden Ausführungen zu beschreiben.
 
59
Zum Thema Reduktion der Komplexität von Matrizen siehe Srebro und Shraibman 2005. Zur Notwendigkeit der Standardisierung zur Robustheit siehe Iglewicz 1983.
 
60
Im Bereich des maschinellen Lernens werden die Fehlerfunktionen häufig als Kostenfunktionen bezeichnet. Dies führt insbesondere in der Disziplin der Betriebswirtschaftslehre ggf. zu Missverständnissen, da es sich keineswegs um eine klassische Kostenfunktion mit etwaigen fixen und variablen Kostenteilen handelt. Da der Terminus im maschinellen Lernen ebenso eine feste Bedeutung einnimmt, wie in der Betriebswirtschaftslehre, die Motivation der Arbeit ein betriebswirtschaftlicher ist, wird in dieser Arbeit der Begriff Fehlerfunktion verwendet.
 
61
Vgl. Géron 2017, S. 106.
 
62
Vgl. Géron 2017, S. 111.
 
63
Da es sich bei den hier angeführten Ideen um einen zweidimensionalen Raum handelt, gibt es durchaus nennenswerte Funktionen, bei denen lokale Minima auftreten. Im angestrebten Anwendungsbereich der KNN ist der Lösungsraum jedoch hochdimensional, weshalb dieser Umstand zunächst zu vernachlässigen ist.
 
64
Vgl. Géron 2017, S. 111.
 
65
Für nicht differenzierbare Funktionen besteht die Möglichkeit, die Methode des Zufallsaufstiegs anzuwenden.
 
66
Vgl. Kruse u. a. 2016, S. 58.
 
67
Entnommen aus Kruse u. a. 2016, S. 59.
 
68
In der Abbildung wird ein Maximum gesucht.
 
69
Die im Rahmen des Gradientenverfahren benutzte Schrittweite \(\eta \) wird im Kontext der Methodik KNN als Lernrate bezeichnet, wie im weiteren Verlauf dieses Kapitels erläutert wird.
 
70
Vgl. Kruse u. a. 2016, S. 58 f.
 
71
Zu den Varianten siehe die Ausführung im Abschnitt 3.4.2 zum Backpropagation-Verfahren.
 
72
Vgl. Kruse u. a. 2016, S. 60.
 
73
Vgl. etwa die Gegenüberstellung der beiden Verfahren in Wilson und Martinez 2003.
 
74
Vgl. Hochreiter und Schmidhuber 1997, S. 2; Kruse u. a. 2016, S. 26.
 
75
Eine Epoche ist mit einem Trainingsdurchlauf zu beschreiben, der alle Trainingsdaten einbezieht.
 
76
Vgl. Géron 2017, S. 114 ff.
 
77
Vgl. Ruder 2016.
 
78
Vgl. Géron 2017, S. 115.
 
79
Vgl. Géron 2017, S. 115. Zur sogenannten Delta-Lernregel siehe Rumelhart, Hinton und Williams 1986.
 
80
Vgl. Russell und Norvig 2004, S. 896.
 
81
Siehe zur Idee des Aufbaus dieses Abschnitt 3.3 Seemann 2019.
 
82
Vgl. Goodfellow, Bengio und Courville 2016, S. 112.
 
83
Eigene Darstellung.
 
84
Vgl. Hinton und Sejnowski 1986, S. 8 ff.
 
85
Die Abbildung wurde mit Hilfe von Matplotlib in Python erstellt.
 
86
Vgl. Hinton und Sejnowski 1986, S. 9.
 
87
Als Aktivierungsfunktion für viele Schichten, die hier jedoch nicht vorliegen, erweist sich eine andere Aktivierungsfunktion als praktikabel. Dies ist die ReLu-Funktion, wie Glorot, Bordes und Bengio 2011 zeigen. Siehe dazu Abschnitt 3.4.3.
 
88
Vgl. Goodfellow, Bengio und Courville 2016, S. 195; Crone 2010, S. 173.
 
89
Vgl. Géron 2017, S. 136.
 
90
Siehe dazu Gleichung 3.3.
 
91
Siehe etwa Russell und Norvig 2004, S. 898.
 
92
Zur binären Schreibweise bzw. One-Hot-Encoding des exklusiven Oder (XOR) siehe etwa Rumelhart, Hinton und Williams 1986, S. 1.
 
93
Zur Notation siehe Russell und Norvig 2004, S. 896.
 
94
Siehe zum Batch-Verfahren Abschnitt 3.3.2.
 
95
Hier findet sich damit die Schreibweise aus Gleichung 3.3 wieder.
 
96
Vgl. Russell und Norvig 2004, S. 898. In der Informatik wird zwischen einem ‚oder‘ und einem ‚entweder oder‘, d. h. einem ‚exklusiven oder‘ unterschieden. Die Ansätze werden häufig gebraucht um Modellierungen umzusetzen. XOR meint eine ‚entweder oder‘-Verknüpfung. Dabei gilt es beispielsweise im Rahmen der Wahrheitstabelle genau dann einen Wert \({>}0.5\) auszugeben, wenn entweder \(x_0\) oder \(x_1\) einen Wert von 1 haben, nicht jedoch, wenn keine der Variable oder beide den Wert von 1 aufweisen.
 
97
Zum Unterschied der Regression und Klassifikation siehe etwa Wiedmann und Buckler 2003, S. 58.
 
98
MNIST ist eine sehr bekannte Datenbank, welche 60.000 Bilder von handschriftlich erstellten Ziffern (0 bis 9) beinhaltet. Die Bilder sind \(28 \times 28\) Pixel groß und samt Label in Training- und Testdaten unterteilt. Abrufbar sind diese unter http://​yann.​lecon.​com/​exdb/​mnist. Eine kurze Beschreibung findet sich in Srivastava u. a. 2014, S. 1953 f.
 
99
Das Bild wurde mit der vorgefertigten Funktion imshow() aus matplotlib in python erstellt. Hier werden die Helligkeitswerte farblich interpretiert. Die ursprünglichen Daten sind in schwarz/weiß bereitgestellt.
 
100
Visualisiert mit Matplotlib.
 
101
Siehe zur Thematik der unausgeglichenen Daten auch 4.​2.​1.​2.
 
102
Vgl. ähnlich bei Seemann 2019.
 
103
In der Literatur gibt es diesbezüglich keine einheitliche Notation. In dieser Arbeit wird die aus Stanfort stammende Schreibweise verwendet.
 
104
Siehe zu dieser Thematik ebenfalls Abschnitt 4.​2.​1.​3.
 
105
Für Python im Package scikitlearn im Unterpacket preprocessing verwendbar unter OneHotEncoder().
 
106
In der hier zur Veranschaulichung erläuterten Anwendung auf den MNIST-Datensatz sind dies die Ziffern.
 
107
Zur Ausgestaltung des Datensatzes siehe Srivastava u. a. 2014, S. 1953 f.
 
108
Aufgrund der Anwendungsbezogenheit des Themenfeldes findet ein Großteil der Diskussion auf Programmiererplattformen statt, aus welchen viele wissenschaftlich weiter verfolgte und akzeptierte Anwendungen und Implementierungen fußen. Vgl. Géron 2017.
 
109
Für eine Übersicht der verschiedenen Konstruktionsformen KNN siehe Crone 2010, S. 138.
 
110
Hier ist zunächst nur eine verdeckte Schicht angeführt und dient als Anknüpfung an den vorangegangen Abschnitt.
 
111
Siehe hier zur Generalisierung der Delta-Regel Rumelhart, Hinton und Williams 1986, S. 4.
 
112
In Anlehnung an Seemann 2019.
 
113
Damit sind die vorhandenen Datensätze im Training-Set gemeint.
 
114
Dieser Wert wird über die Batchsize bestimmt.
 
115
Für jede Variable der letzten Schicht.
 
116
Vgl. Y. LeCun, Bengio und Hinton 2015, S. 438; Hochreiter und Schmidhuber 1997, S. 3; Rosenblatt 1961, S. 292.
 
117
Dies ist in Abschnitt 3.3 der Fall.
 
118
Rumelhart, Hinton und Williams 1986, S. 4.
 
119
Der Gradientenabstieg kann im Kontext des Backpropagation-Verfahrens zurückgeführt werden auf Werbos 1990; Zell 1994, S. 105 ff.; Rumelhart, Hinton und Williams 1986.
 
120
Vgl. Goodfellow, Bengio und Courville 2016, S. 204.
 
121
Vgl. Mozolin, Thill und Usery 2000, S. 57; Werbos 1990, S. 1550.
 
122
Als Beispiel hierfür siehe etwa Goodfellow, Bengio und Courville 2016.
 
123
Hier besteht die Annahme, dass die Funktionen die Anforderungen der Ableitungsregeln erfüllen.
 
124
Vgl. Werbos 1990, S. 1552.
 
125
Vgl. Kourentzes, Barrow und Crone 2014, S. 3 mit Verweis auf Rumelhart, Hinton und Williams 1986 und Werbos 1990.
 
126
Für einen Überblick siehe K. 2007, S. 100 und dortigen Verweis auf weitere Literatur.
 
127
Vgl. Goodfellow, Bengio und Courville 2016, S. 174.
 
128
Diese sigmoide Funktion wird im maschinellen Lernen kurz als Sigmoidfunktion bezeichnet.
 
129
Eine Art Gleichrichter, engl. Rectifier.
 
130
Für ein anschauliches Beispiel und die formale Notation siehe Géron 2017, S. 139 f.
 
131
Vgl. Crone 2010, S. 172.
 
132
Vgl. Crone 2010, S. 172.
 
133
Wie oben ebenfalls korrigiert um einen Schwellwert.
 
134
Vgl. Géron 2017, S. 262. Für die ReLU-Funktion existieren weitere Abwandlungen, wie etwa die Leaky-ReLU oder die ELU-Funktion. Siehe Géron 2017, S. 279 f.
 
135
Diese Arbeit beschränkt sich auf die Ausgestaltung vorwärtsgerichteter vollständig verknüpfter Topologie.
 
136
Dies ist keine allgemein gültige Zusammenstellung von Hyperparametern. Es gilt sich nach Modell und Bedürfnissen dieser zu bedienen. Was in dieser Arbeit keine weitere Erwähnung findet, ist etwa die Wahl der Eingabefunktion. Hierzu gibt es diverse andere Möglichkeiten, als lediglich die Summe aus den Produkten von Ausgang der vorangegangen Zelle und zugehörigem Gewicht. Für eine Übersicht siehe Crone 2010, S. 170.
 
137
Vgl. Géron 2017, S. 3 ff.
 
138
Vgl. Ruder 2016, S. 4–9.
 
139
Vgl. Ruder 2016, S. 2.
 
140
Vgl. Géron 2017, S. 302.
 
141
Vgl. Kingma und Ba 2015. Das Symbol \(\otimes \) meint eine Multiplikation Element für Element. Das Symbol \(\oslash \) meint eine Subtraktion Element für Element.
 
142
Vgl. Géron 2017, S. 300 ff.
 
143
Damit gilt nach wie vor das ‚no free lunch‘-Theorem.
 
Metadaten
Titel
Künstliche Neuronale Netze
verfasst von
Marius Hölscher
Copyright-Jahr
2021
DOI
https://doi.org/10.1007/978-3-658-34132-9_3