2.1 Bayesianismus im Kontext von Effectuation
2.1.1 Zum bayesschen Wahrscheinlichkeitsbegriff
2.1.2 Das Bayes-Theorem
-
Festlegung der a-priori-Wahrscheinlichkeiten \(P(S_1), P(S_2), \ldots P(S_{n_S})\) für die Zustände vor dem Erhalt zusätzlicher Informationen durch den Agenten
-
Einschätzung der stochastischen Abhängigkeit zwischen den Zuständen \(S_1, S_2, \ldots , S_{n_S}\) und den Informationsereignissen \(I_1, I_2, \ldots , I_{n_I}\) vor Informationserhalt durch den Agenten in Form der bedingten Wahrscheinlichkeiten \(P(I_i|S_s)\)
-
Tatsächliches Eintreten des Informationsereignisses \(I_i\)
Sarasvathy definiert jedoch nicht hinreichend genau, ob mit der Beobachtung die a-priori-Wahrscheinlichkeit \(P(I)\) oder die bedingte Wahrscheinlichkeit \(P(I|S)\) gemeint ist. Aufgrund der Schlussfolgerung, dass der Agent mehrere Unternehmen gründet, wenn er beobachtet, dass viele Unternehmen scheitern, ist anzunehmen, dass \(P(S|I)\) die a-posteriori-Wahrscheinlichkeit darstellt. Diese besagt, wie wahrscheinlich es ist, dass ein Agent mehrere Unternehmen gründet, sofern er beobachtet hat, dass mindestens ein bereits von ihm gegründetes Unternehmen gescheitert ist. Folglich kann \(P(I)\) nur als a-priori-Wahrscheinlichkeit verstanden werden, dass mindestens ein vom Agenten gegründetes Unternehmen scheitert.„I observe that the probability of firm failure is very high. Therefore I will start several firms.“
Der Argumentation Sarasvathys folgend, versucht ein effektuativ handelnder Agent mehrere Unternehmen zu gründen, um die Wahrscheinlichkeit für seinen Erfolg zu erhöhen. Diese wird durch die bedingte a-posteriori-Wahrscheinlichkeit \(P(S|I)\) ausgedrückt. Die Behauptung, dass Bayesianismus unter effektuativen Gesichtspunkten vielmehr ein Steuerungsmechanismus, als ein Inferenzmechanismus ist, kann demnach nicht bestätigt werden. In beiden Fällen werden Wahrscheinlichkeiten für das Eintreten eines bestimmten Zustandes geschätzt. Dieser wird im klassischen wie im effektuativen Fall anders definiert. Im klassischen Sinne wird die Wahrscheinlichkeit für das Eintreten des Ereignisses, dass der Agent mehr als ein Unternehmen gründet, geschätzt, unter der Bedingung, dass ein von ihm gegründetes Unternehmen gescheitert ist. Im effektuativen Beispiel wird versucht zu ermitteln, wie hoch die Wahrscheinlichkeit für den Erfolg des Unternehmens des Agenten ist, unter der Voraussetzung, dass \(P(I)\) manipulierbar ist. \(P(I)\) kann aus wahrscheinlichkeitstheoretischer Sicht jedoch nicht verändert werden, sondern ist lediglich beobachtbar als a-priori-Wahrscheinlichkeit (Peyrolón, 2020, S. 18). Unter Zuhilfenahme des Satz von Bayes aus Gleichung (2.5) kann die a-posteriori-Wahrscheinlichkeit \(P(S|I)\) für das Gründen mehr als eines Unternehmens unter der Voraussetzung, dass mindestens ein bereits gegründetes Unternehmen des Agenten gescheitert ist (siehe Korollar 2.5), berechnet werden:„In the effectual interpretation, however, the entrepreneur reasons as follows: irrespective of what the probability of firm failure is, I can increase the probability of ‘my’ success through serial entrepreneurship.“
2.2 Ungewissheit
-
Technologische Ungewissheit
-
Politische Ungewissheit
-
Wettbewerbsungewissheit
-
Kundenungewissheit
-
Ressourcenungewissheit
Das Treffen von Entscheidungen, in Situationen, die von knightscher Ungewissheit geprägt sind, bestimmen das Wesen von Entrepreneurship (Sarasvathy & Kotha, 2001, S. 32). Durch das Vorhandensein von Ungewissheit über zukünftige Ereignisse erhalten Unternehmer die Möglichkeit, trotz bestehender Marktgleichgewichte Gewinne zu erzielen (Blaug, 1997, S. 444). Sie können im Sinne von Schumpeter (1943, S. 83) durch „schöpferische Zerstörung“ Innovationen hervorbringen.„Uncertainty must be taken in a sense radically distinct from the familiar notion of risk, from which it has never been properly separated. [...] The essential fact is that ‘risk’ means in some cases a quantity susceptible of measurement, while at other times it is something distinctly not of this character; and there are far-reaching and crucial differences in the bearings of the phenomena depending on which of the two is really present and operating. [...] It will appear that a measurable uncertainty, or ‘risk’ proper, as we shall use the term, is so far different from an unmeasurable one that it is not in effect an uncertainty at all.“ (Knight, 1921, S. 19)
2.3 Maschinelles Lernen im Kontext von Effectuation
-
Supervised Learning,
-
Unsupervised Learning und
-
Reinforcement Learning.
2.3.1 Reinforcement Learning als Methode zur Lösung entscheidungstheoretischer Probleme
-
\(S\)\(\ldots \) die Menge von Zuständen mit \({}s,s' \in {}S\)
-
\(A\)\(\ldots \) die Menge von Aktionen mit \({}a \in {}A\)
-
\(p\)\(\ldots \) die Transitionsfunktion und
-
\(r\)\(\ldots \) die Belohnungsfunktion
Die von Mitchell (1997) dargestellte Erfahrung E stellt im Kontext von RIL das Erhalten einer Belohnung \({r(s',a,s)}\) sowie die Beobachtung eines Zustandes \({}s\) dar. Zur Bestimmung der Aufgabe T und des Leistungsmaßes P werden in RIL weitere Konzepte eingeführt. Dazu gehören die Policy (zu deutsch etwa Strategie) und die Value-Funktion (zu deutsch etwa Wertfunktion). Eine Policy \(\pi \) stellt in diesem Zusammenhang die Zuordnung von Zuständen \({}s \in {}S\) der Umgebung zu Aktionen \({}a \in {}A(s)\) dar. Verfolgt ein Agent eine Policy \(\pi \) zum Zeitpunkt \({}t\), dann ist \(\pi (a|s)\) die Wahrscheinlichkeit dafür, dass \({}a_t = {}a\), wenn \({}s_t = {}s\), so dass \({}\pi : {}S \times {}A \rightarrow [0,1]\). Die Policy \(\pi (a|s)\) wird dann allgemein eine stochastische Policy genannt. Für den Fall, dass \({}\pi (a|s) = 1\), wenn zum Zeitpunkt \({}t\) \({}a_t = {}a\) und \({}s_t = {}s\), und \({}\pi (a|s) = 0\), wenn \({}a_t \ne {}a\) und \({}s_t = {}s\), ergibt sich \({}\pi : {}S \rightarrow {}A\). Die Policy \(\pi (s)\) wird deterministische Policy genannt. Eine Policy ist der Kern eines RIL-Agenten und bestimmt sein inhärentes Verhalten. Sutton und Barto (2018, S. 58) schreiben konkret, dass „RIL methods specify how the agent’s policy is changed as a result of its experience.“. Eine Value-Funktion \(v_{\pi }(s)\) beschreibt, welchen Gesamtbetrag an Belohnungen ein Agent über die Zeit erwarten kann, wenn er im Zustand \({}s\) startet und anschließend der Policy \({}\pi \) folgt. Damit wird die langfristige Erwünschtheit von Zuständen ausgedrückt, unter Berücksichtigung der zu erwartenden Zustände und den damit verbundenen Belohnungen. Ziel des Agenten ist es demzufolge, kumulierte Belohnungen zu maximieren, die er auf lange Sicht erhält (Sutton & Barto, 2018). Dieses Ziel entspricht der von Mitchell (1997) definierten Aufgabe T in RIL.„A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.“
2.3.2 Lösungsverfahren zur Bestimmung optimaler Policies in Reinforcement Learning
-
First-Visit Monte Carlo Steuerung (On-Policy)
-
Importance Sampling (Off-Policy)
-
Monte Carlo Vorhersage und Steuerung (Off-Policy)
-
Ein-Schritt Temporal-Difference-Learning (Off-Policy)
-
SARSA (On-Policy)
-
Q-Learning (Off-Policy)
2.3.3 Reinforcement Learning im entrepreneurialen Kontext
{hoch,gering}
, die sich auf die dem Agenten zur Verfügung stehenden Mittel beziehen. In jedem Zustand kann der Agent entscheiden, ob er ein {Produkt anpassen}
, ein {Produkt nicht verändern}
oder ein {neues Produkt entwickeln}
möchte. Im Beispiel wird die Annahme getroffen, dass der entrepreneuriale Agent bei einem Mittelbestand von {hoch}
nicht daran interessiert ist, ein neues Produkt zu erstellen. Demnach ergeben sich die Aktionsmengen A(hoch
)={Produkt anpassen, Produkt nicht verändern}
und A(gering
)={Produkt anpassen, Produkt nicht verändern, neues Produkt entwickeln}
.\({}s\) | \({}a\) | \(s'\) | \(p(s'| s,a)\) | \({r(s',a,s)}\) |
---|---|---|---|---|
hoch | Produkt anpassen | hoch | \(\alpha \) | \(r_{\texttt {Produkt anpassen}}\) |
hoch | Produkt anpassen | gering | \(1 - \alpha \) | \(r_{\texttt {Produkt anpassen}}\) |
gering | Produkt anpassen | hoch | \(1 - \beta \) | \(r_{\texttt {scheitern}}\) |
gering | Produkt anpassen | gering | \(\beta \) | \(r_{\texttt {Produkt anpassen}}\) |
hoch | Produkt nicht verändern | hoch | 1 | \(r_{{\texttt {Produkt nicht ver}}{\ddot{\texttt {a}}}{\texttt {ndern}}}\) |
hoch | Produkt nicht verändern | gering | 0 | − |
gering | Produkt nicht verändern | hoch | 0 | − |
gering | Produkt nicht verändern | gering | 1 | \(r_{{\texttt {Produkt nicht ver}}{\ddot{\texttt {a}}}{\texttt {ndern}}}\) |
gering | neues Produkt entwickeln | hoch | 1 | 0 |
gering | neues Produkt entwickeln | gering | 0 | − |
hoch
und gering
werden aus Gründen der Übersichtlichkeit mit h
und g
, die Aktionen Produkt anpassen
, Produkt nicht verändern
und neues Produkt entwickeln
mit an
, nv
und ne
abgekürzt. Für die zwei Zustände h
und g
ergeben sich folglich die Gleichungen \(v_{*}(\texttt {h})\) und \(v_{*}(\texttt {g})\) mit