Erschienen in:

Open Access 2023 | OriginalPaper | Buchkapitel

4. Forschungsmethodik

verfasst von : Martin Sterzel

Erschienen in: Effectuation entwickeln

Verlag: Springer Fachmedien Wiesbaden

Ergänzende Inhalte

Aktivieren Sie unsere intelligente Suche, um passende Fachinhalte oder Patente zu finden.

search-config

KI-gestützte Suche

Patentsuche

Aus

Zusammenfassung

Zur algorithmischen Interpretation von Effectuation kommen Ansätze agentenbasierter Modellierung zum Einsatz. Zur Abbildung effektuativen Lernens werden Methoden des Reinforcement Learnings zur Anwendung gebracht. Anhand einer protypischen Gründungssituation wird ein Zustandsraum gebildet, der als Lernumgebung des effektuativen Agenten dient. Durch Modellierung einer Belohnungsfunktion erhält der entrepreneuriale Agent die Möglichkeit Effectuation zu erlernen. Die Verwendung des Q-Learning-Algorithmus als Lernstrategie erlaubt die Modellierung der Kernelemente des entrepreneurialen Problemraums.

Ergänzende Information

Die elektronische Version dieses Kapitels enthält Zusatzmaterial, auf das über folgenden Link zugegriffen werden kann https://doi.org/10.1007/978-3-658-39251-2_4.

Zusatzmaterial 1 (pdf 306 KB)

Ziel der vorliegenden Arbeit ist es, effektuatives Verhalten algorithmisch zu modellieren und interpretieren. Dadurch sollen zum einen Erkenntnisse darüber gewonnen werden, wie Effectuation erlernt wird. Andererseits soll damit die Grundlage geschaffen werden, effektuative Entscheidungsfindung automatisiert anwendbar zu machen. Insgesamt soll damit ein Beitrag zur Weiterentwicklung des Theoriengerüsts von Effectuation geleistet werden.

Zur Erreichung des genannten Ziels und zur Beantwortung der in Abschnitt 1.2 erläuterten Forschungsfrage ist der Einsatz von Agentenbasierten Modellen (in der Folge ABM), der Argumentation von Garcia (2005) folgend, zweckdienlich. Konkret wird diesbezüglich die Auffassung vertreten, dass „simulation should be used as a tool for the refinement of theory“ (Garcia, 2005, S. 382). Weiterhin fordern Chandler et al. (2011) und Alsos et al. (2019), dass die Operationalisierung und Messbarkeit von Effectuation weiterentwickelt werden muss. Die Verwendung von ABM als Untersuchungsmethode wird dieser Forderung gerecht, da „by simulating an approximation of real world behavior that may be difficult to capture in static models, the ABM approach focuses on how processes evolve over time and how policies might be changed to affect the outcomes of an evolving system“ (Garcia, 2005, S. 382).

ABM eignen sich gemäß Bonabeau (2002) insbesondere bei der Beschreibung realweltlicher unternehmerischer Probleme und weisen folgende Eigenschaften auf:

ABM bieten die Möglichkeit emergente Phänomene zu erfassen.
ABM stellen eine natürliche Beschreibung eines Systems zur Verfügung.
ABM sind flexibel in ihrer Ausgestaltung.

Dabei repräsentieren ABM Prozesse, bei denen davon auszugehen ist, dass sie in der sozialen Welt existieren (Macy & Willer, 2002).

Gupta et al. (2016) fordern darüber hinaus die künftige Betrachtung von Effectuation aus einer insbesondere prozessorientierten Sicht und die Abkehr von einer rein varianzbasierten Perspektive. Varianztheoretische Betrachtungen zielen auf die Einordnung eines Phänomens in ein Marktgleichgewicht ab (Chiles et al., 2009) und verkennen so die diskontinuierlichen Marktdynamiken entrepreneurialer Phänomene (Gupta et al., 2016). Payne et al. (2016) stellen heraus, dass die Betrachtung einer Problemstellung aus prozesstheoretischer Sicht die Frage nach der emergenten Entwicklung eines Phänomens über die Zeit adressiert. Wie Bonabeau (2002) konstatieren, eignen sich ABM zur Untersuchung sich über die Zeit emergent verhaltender Systeme.

Die von Mauer et al. (2017) und Welter und Kim (2018) verwendeten ABM erlauben die Interaktion von Agenten in emergenten Systemen, vernachlässigen jedoch aufgrund des statischen Verhaltensregelsatzes der Agenten das dynamische Anpassen des Vorgehens aufgrund von neuen Erfahrungen. Die Agenten in den Modellen von Mauer et al. (2017) und Welter und Kim (2018) werden das kurzfristige Erreichen schlechterer Leistungswerte in der unmittelbaren Umgebung nicht zugunsten einer möglichen langfristigen Leistungsmaximierung in Kauf nehmen. Folglich wird nur ein Teil des realweltlichen Phänomens abgebildet, da (effektuativ agierende) Entrepreneure aus dem Wechselspiel zwischen Exploration und Exploitation ihrer Umgebung lernen (Yang & Chandra, 2013).

Dass die Modellierung von Lern- und Entscheidungsverhalten durch den Einsatz von RIL im Rahmen von ABM sinnvoll ist, wurde durch Bone und Dragićević (2010) veranschaulicht. Zudem konnte durch Haiyan (2018) nachgewiesen werden, dass RIL im Kontext von entrepreneurialen Problemen anwendbar ist.

Inwiefern ABM grundlegend aufgebaut werden und Abläufe gestaltet werden können, beschreiben Abdou et al. (2012). Demnach bestehen ABM im Wesentlichen aus Agenten und der korrespondierenden Umgebung. Weitere charakteristische Elemente von ABM sind

eine Menge von Verhaltensregeln des Agenten,
ein Arbeitsgedächtnis des Agenten,
ein adäquates Lernverhalten des Agenten sowie
das Modell der Umgebung.

In RIL werden diese Elemente ebenfalls bei der Modellierung von Entscheidungsproblemen berücksichtigt (Abbeel & Ng, 2004; Mnih et al., 2016; Sutton & Barto, 2018). Die in den folgenden Abschnitten vorgeschlagene Modellierung effektuativen Verhaltens im Kontext von ABM und RIL basiert grundlegend auf den Vorgehensbeschreibungen und Ansätzen von Welter und Kim (2018), Mauer et al. (2017), Yang und Chandra (2013), Sutton und Barto (2018) und Abdou et al. (2012)

4.1 Beschreibung des Problemraums

Wie in Abschnitt 2.3.1 dargestellt, müssen Algorithmen, die ein Lernproblem mit der dort beschriebenen Struktur lösen sollen, mit einer konkreten Aufgabe konfrontiert werden (Mitchell, 1997). Zur Modellierung und Untersuchung des Lernverhaltens eines effektuativen Agenten ist analog die Konstruktion einer Entscheidungsaufgabe im entrepreneurialen Kontext notwendig. Sarasvathy (2009) beschreibt zur Veranschaulichung effektuativer Logik eine Entscheidungssituation im Rahmen des Produktentwicklungsprozesses eines Entrepreneurs, welche sie mit „The anatomy of the initial commit“ (Sarasvathy, 2009, S. 102 f.) betitelt.

In diesem Entscheidungsproblem offeriert ein Entrepreneur einem potentiellen Kunden eine bestimmte Menge eines Produkts mit einer speziellen Produkteigenschaft zu einem initialen Preis. In der Entscheidungssituation wird die Annahme getroffen, dass der Kunde das Produkt unter Umständen kaufen würde, wenn die spezielle Produkteigenschaft eine andere Ausprägung hätte (beispielsweise: Das Produkt soll die Farbe blau statt grün haben.). Der Entrepreneur steht nun vor der Entscheidung, eine bestimmte Höhe von Kosten für die Anpassung des Produkts in Kauf zu nehmen.

Sarasvathy (2009) definiert daraufhin drei Kriterien, die die Entscheidung beeinflussen:

Der Entrepreneur ist oder ist nicht im Besitz der Mittel zur Umsetzung der Produktanpassung.
Die Vermutung des Entrepreneurs, ob der Kunde das Produkt kaufen wird oder nicht, wenn die Produktanpassung vorgenommen wurde.
Es existiert ein weiterer Kunde, der bereit ist, das Produkt ohne Anpassung zu kaufen und einen höheren Preis pro Einheit zu bezahlen als ursprünglich vom Entrepreneur gefordert oder ein solcher Kunde existiert nicht.

Um für sich festzulegen, ob der ursprüngliche Kunde das angepasste Produkt kaufen wird (echter Kunde) oder nicht (Nicht-Kunde), benötigt der Entrepreneur einen Entscheidungsmechanismus. Dieser Mechanismus ist für zwei Arten von Fehlern anfällig, die auch im Kontext der klassischen Statistik Anwendung finden (Neyman & Pearson, 1933):

Der Entrepreneur klassifiziert einen Kunden als Nicht-Kunden, obwohl dieser bereit gewesen wäre das Produkt nach Produktanpassung zu kaufen (Typ-I-Fehler).
Der Entrepreneur klassifiziert einen Kunden als echten Kunden, obwohl dieser in Wirklichkeit ein Nicht-Kunde ist (Typ-II-Fehler).

Zur Lösung des beschriebenen Problems nach effektuativem Vorgehen ist der Entrepreneur bestrebt, Typ-I-Fehler zu reduzieren, wenngleich damit Kosten für das Auftreten von Typ-II-Fehlern einhergehen. Weiterhin wird ein effektuativ handelnder Entrepreneur dem Kunden den Vorschlag unterbreiten, dass dieser die Kosten für die Produktanpassung übernimmt und dafür im Gegenzug einen geringeren Gesamtpreis nach der Produktanpassung zahlen muss, wodurch sich gegenüber dem initialen Preis ein Kostenvorteil für den Kunden ergibt.

Das geschilderte Szenario dient als Grundlage für die Formulierung des ABM unter Einbeziehung des Lernverhaltens durch RIL.

4.2 Modellierung des effektuativ handelnden Agenten

Im Gegensatz zu Mauer et al. (2017) und Welter und Kim (2018) zielt die Entwicklung des vorliegenden Modells nicht vordergründig auf den Vergleich der Leistungsfähigkeit von Effectuation und Causation ab, welcher die varianztheoretische Untersuchung der Logiken in den Mittelpunkt stellt. Vielmehr soll der Forderung von Gupta et al. (2016) Rechnung getragen werden, den prozesstheoretischen Hintergrund von Effectuation verstärkt in die Betrachtung einzubeziehen und entsprechend zu modellieren.

Um das in der Arbeit vorgestellte ABM, welches auf Methoden des RIL basiert, nutzbar zu machen, ist es notwendig, einen Aktionsraum zu definieren, der effektuatives Handeln beinhaltet. Weiterhin ist die Bestimmung einer Lernfunktion maßgeblich für die Steuerung des Lernverhaltens des Agenten. Darauf aufbauend wird mit der Wahl einer geeigneten Lernstrategie sichergestellt, dass Effectuation performant und realitätsnah erlernt werden kann.

In den Abschnitten 4.2.1 und 4.2.2 werden diese Aspekte näher diskutiert.

4.2.1 Bestimmung der Verhaltensregeln

Die Modellierung des Aktionsraums dient der Bestimmung des Verhaltens des Agenten innerhalb der definierten Umgebung. Der Aktionsraum $A$, als eines der vier Elemente des 4-Tupels eines MDP, beinhaltet alle möglichen Aktionen, die ein Agent grundsätzlich im formulierten Problem ausführen kann. Die ausführbaren Aktionen können weiter eingeschränkt werden, indem in einem bestimmten Zustand ${}s \in {}S$ nur ausgewählte Aktionen ausgeführt werden können. Dies ist dann der Fall, wenn in definierten Zuständen nur einzelne Aktionen sinnvoll sind.

Beispielsweise könnte ein Aktionsraum, wie in Abschnitt 2.3.1 erläutert, mit ${}A =$ {Produkt anpassen, Produkt nicht verändern, neues Produkt entwickeln} definiert sein. Befindet sich ein Agent in einem Zustand, in dem er einen Mittelbestand, der mit hoch gekennzeichnet ist, beobachtet, kann es für diesen ausschließlich sinnvoll sein, das bestehende Geschäftsmodell inklusive der dazugehörigen Produkte auszunutzen, anstatt mit der Entwicklung eines neuen Produktes in einem unsicheren Markt zu starten. Folglich ergibt sich die Aktionsmenge $A(\texttt {hoch}) =$ {Produkt anpassen, Produkt nicht verändern}.

Die Bestimmung effektuativer Handlungsoptionen ergibt sich aus der von Sarasvathy (2009) beschriebenen Entscheidungssituation. Im erläuterten Szenario wird ausgehend von einer formulierten Problemstellung ein entrepreneuriales Lösungsvorgehen geschildert, das der Effectuation-Logik folgt: „It may either classify C as a non-customer (F) [...] or it might classify C as [a real customer] (T) [...].“ (Sarasvathy, 2009, S. 103). Dieses Vorgehen bildet die Grundlage für die Konkretisierung des Aktionsraums. Es lassen sich zwei Aktionen aus der Aussage filtrieren:

${}a0$: classify C as customer und
${}a1$: classify C as non-customer.

Der Aktionsraum wird daher mit den diskreten Elementen ${}A = \{{}a0,{}a1\}$ definiert. Diese Aktionen kann der Agent in jedem Zustand ${}s \in {}S$ anwenden. Es gilt ${}A(s) = {}A \text { } \forall \text { } {}s \in {}S$. Im vorliegenden Fall ist der Aktionsraum folglich nicht von ${}s \in {}S$ abhängig.

4.2.2 Bestimmung der Lernstrategie

Zur Entwicklung einer allgemeingültigen Policy $\pi $, die effektuatives Entscheiden ermöglicht, ist die Auswahl einer geeigneten Lernstrategie erforderlich. In Abschnitt 2.3.2 wurden einige Lernverfahren aufgezählt bzw. genauer erläutert. Um einen adäquaten Lernalgorithmus zu identifizieren, besteht die Notwendigkeit, Bedingungen für die Auswahl zu definieren. Mauer et al. (2017), Welter und Kim (2018) und Eberz (2018) nutzen zur Modellierung der Simulationsumgebung das Konzept der knightschen Ungewissheit (Knight, 1921). Mauer et al. (2017) erweitern den Modellraum um die Aspekte Informationsisotropie und Ziel-Ambiguität. Zusammen bilden die genannten Elemente den von Sarasvathy (2009, S. 70) beschriebenen entrepreneurialen Problemraum.

Folglich sollte die gewählte Lernstrategie

knightsche Ungewissheit,
Informationsisotropie und
Ziel-Ambiguität

handhaben können.

Wie in Abschnitt 2.3.2 geschildert, können RIL-Lösungsmethoden in Model-Free- und Model-Based-Verfahren eingeteilt werden. Bei Model-Free-Methoden lernt der Agent durch Interaktion mit der Umgebung, ohne die Wahrscheinlichkeiten von Zustandsänderungen zu kennen (Bertsekas & Tsitsiklis, 1995). Bei knightscher Ungewissheit sind weder die möglichen einzutretenden Ereignisse (Zustände) noch deren Eintrittswahrscheinlichkeiten (Transitionswahrscheinlichkeiten) bekannt (Knight, 1921).

Zur Lösung des RIL-Problems kommen daher nur Model-Free-Lernalgorithmen in Frage. Anders als bei Mauer et al. (2017), Welter und Kim (2018) und Eberz (2018) besteht keine Notwendigkeit, zusätzliche Konzepte zur Modellierung von knightscher Ungewissheit – wie beispielsweise Umgebungsturbulenzen – zu verwenden. Das von Watkins & Dayan (1992) formulierte Q-Learning-Prinzip ist dem Bereich der Model-Free-Methoden zuzuordnen (Sutton & Barto, 2018, S. 131) und kann mit

$$\begin{aligned} q(s_t,a_t) \leftarrow q(s_t,a_t) + \alpha \left[ r_{t+1} + {}\gamma \max _a q(s_{t+1},a) - q(s_t,a_t)) \right] \end{aligned}$$

(4.1)

formuliert werden. Gleichung (4.1) macht deutlich, dass der Agent lediglich durch die Interaktion mit seiner Umgebung lernt, welche Aktion in welchem Zustand seine Gesamtbelohnung langfristig maximiert. Die optimale Action-Value-Funktion $q_{*}$ wird hierbei direkt approximiert.

Die Formulierung aus (4.1) stellt eine Update-Funktion dar, bei der ${}q(s,a)$ in jedem Zeitschritt anhand der zur Verfügung stehenden Informationen mit dem Lernparameter $\alpha \in [0,1]$ aktualisiert wird. Diese Informationen sind der unmittelbar nach einem Zeitschritt erhaltene Reward $r_{t+1}$, der bereits bekannte q-Wert $q(s_t,a_t)$ und zum Zeitschritt $t+1$ beobachtbare Wert $q(s_{t+1},a)$. Die Action-Value-Funktion hat unmittelbaren Einfluss auf die Policy $\pi $ des Agenten. Der Agent wird nach Beobachtung des Zustands die Aktion auswählen, für die ${}q(s,a)$ maximal ist.

Diese Modellierung erlaubt die Konzeptualisierung der Informationsisotropie (Kalinic et al., 2012). Einem Entrepreneur stehen in der Realität zum Zeitpunkt der Entscheidung eine Fülle von Informationen zur Verfügung, von denen nicht klar ist, welche für die zu fällende Entscheidung relevant sind. Wird dieses Problem auf das Modell übertragen, wird der effektuative Agent daher zu Beginn seiner Unternehmung zunächst ein exploratives Verhalten an den Tag legen und Aktionen zu einem bestimmten Grad zufällig wählen, da er nicht sicher sein kann, welche Informationen des jeweiligen Zustandes für ein optimales Verhalten notwendig sind. Mit zunehmender Lernerfahrung wird der Agent immer häufiger Aktionen wählen, für die ${}q(s,a)$ maximal ist. In RIL wird dieses Vorgehen als Exploration-Exploitation-Tradeoff bezeichnet (Still & Precup, 2012).

Der Parameter ${}\varepsilon \in [0,1]$ dient der Steuerung des Tradeoffs während des Lernvorgangs und legt fest, mit welcher Wahrscheinlichkeit der Agent exploratives Verhalten an den Tag legt. Zu Beginn wird ${}\varepsilon = 1$ gesetzt, wodurch der Agent zunächst die Aktion ${}a$ zufällig aus dem Aktionsraum ${}A$ wählt. Nach jeder durchgeführten Aktion wird ${}\varepsilon $ um einen festgelegten Anteil ${}\varepsilon _{decay}$ anhand folgender Vorschrift verringert:

$$\begin{aligned} \varepsilon _{t} = \varepsilon _{t-1} \cdot {}\varepsilon _{decay}. \end{aligned}$$

Dadurch steigt die Wahrscheinlichkeit mit jedem Zeitschritt, dass der Agent die Aktion ${}a$ in Zustand ${}s$ wählt, für die ${}q(s,a)$ maximal ist. Zudem wird eine untere Grenze $\varepsilon _{min}$ als Hyperparameter festgelegt, die bei Erreichen der Grenze in jedem Zeitschritt ermöglicht, dass der Agent mit einer geringen Wahrscheinlichkeit exploratives Verhalten an den Tag legt.

Des Weiteren sind die Bestandteile des entrepreneurialen Problemraums, Ziel-Ambiguität (Gabrielsson & Gabrielsson, 2013) und knightsche Ungewissheit (Townsend et al., 2018), inhärente Eigenschaften des Q-Learning Prinzips. Ein effektuativ handelnder Agent bezieht sich zu jedem Zeitpunkt auf den beobachteten Zustand sowie die davon ausgehend möglichen Aktionen. Aus Sicht des Agenten ist es nicht notwendig konkrete Ziele zu definieren. Sie ergeben sich aus der Vereinbarung (Ausführung der Aktion) mit den Kunden und resultieren in neuen Zuständen, die wiederum die Produktvorstellungen des Entrepreneurs und des Kunden im jeweiligen Zeitschritt beinhalten. Die Produktvorstellungen des effektuativen Agenten sind nicht fix und können anhand der verwendeten Lernstrategie angepasst werden.

Das Konzept der knightschen Ungewissheit, wie es in Abschnitt 2.2 diskutiert wurde, wird im vorliegenden Modell ebenfalls konkret umgesetzt. Dies wird ermöglicht, indem der Agent keinen Zugang zur Umgebungsdynamik hat. Dadurch ist er nicht in der Lage, direkt vorauszusagen, mit welcher Transitionswahrscheinlichkeit er einen bestimmten Zustand erreicht respektive welchen Zustand er überhaupt erreicht. Der Agent lernt lediglich durch Interaktion mit seiner Umgebung und baut anhand von Erfahrung sein Wissen über die Dynamiken des Modells auf. Dieses Vorgehen erweitert die bisher von Eberz (2018), Mauer et al. (2017) und Welter und Kim (2018) vorgestellten Modellierungsansätze und macht knightsche Ungewissheit zu einem direkten Bestandteil der Umgebung.

Das effektuative Lernproblem wird zudem als nicht-episodische Aufgabe modelliert. Dies erfordert einen Wert ${}\gamma < 1$ für den Diskontierungsfaktor zu wählen. Dieser Faktor ermöglicht die Festlegung, inwieweit künftige Belohnungen in die Berechnung der Action-Value-Funktion einbezogen werden. In Effectuation spielen mögliche Gewinne der Unternehmung in der Zukunft, die eine Vorhersage erfordern, eine untergeordnete Rolle (Sarasvathy, 2001). Daher wird der Diskontierungsfaktor mit einem vergleichsweise kleinen Wert initialisiert, so dass ${}\gamma = 0.2$ während des Lernprozesses angenommen wird.

4.3 Modellierung der Umgebung

Die Modellierung der Umgebung ist durch den Zustandsraum ${}S$ sowie den Transitionswahrscheinlichkeiten ${}p$ eines MDP bestimmt. Im vorliegenden Fall werden zur Formulierung der Umgebung die Erkenntnisse von Mauer et al. (2017), Welter und Kim (2018) und das Szenario aus Abschnitt 4.1 einbezogen. Die Beschreibung der Umgebung hat, neben der Formulierung der Belohnungsfunktion ${}r$, Einfluss auf das Verhalten des lernenden effektuativen Agenten. Die in den Abschnitten 4.3.1 und 4.3.3 erläuterte Modellierung der Umgebung stellt eine Annäherung an eine realweltliche Entscheidungssituation eines effektuativ agierenden Entrepreneurs dar.

4.3.1 Bestimmung des Zustandsraums

Die Zustände ${}s \in {}S$ beschreiben, in welcher konkreten Ausprägung des Umfeldes sich der lernende Agent befindet. Zustände selbst bestehen aus Realisierungen einer definierten Menge von Merkmalen, die für die Lösung eines MDP von Relevanz sind.¹ Die Merkmale eines Zustandes des Zustandsraumes ${}S$ wird für das vorliegende Modell für ${}t \in \{0, \ldots , {}T\}$ mit ${}T$ als finalem Zeitpunkt in Tabelle 4.1 definiert.

Tabelle 4.1

Merkmale eines Zustands

Symbol	Beschreibung
$E_{t}$	Produktvektor des Agenten zum Zeitpunkt t
$C_{t}$	Produktvektor des Kunden zum Zeitpunkt t
$Class_{t-1}$	Klassifizierung zum Zeitpunkt t, ob der Kunde zum Zeitpunkt $t-1$ ein echter Kunde oder Nicht-Kunde ist
$Cost_{t}$	Kosten für die Änderung des Produktvektors von $E_{t} \rightarrow C_{t}$
$I_{t}$	Potentielle Investition des Kunden zum Zeitpunkt t, sofern der Agent die Änderung des Produktvektors vornimmt

Die Modellierung der Produktvektoren der Agenten ${}E$ und der Kunden ${}C$ orientieren sich an den Vorschlägen von Mauer et al. (2017) und Welter und Kim (2018) zur Repräsentation von Produkten respektive Entscheidungsketten. In der vorliegenden Untersuchung werden die von Welter und Kim (2018) verwendeten Entscheidungskonfigurationen als konkrete Produktentscheidungen interpretiert, indem sie zum einen die gleiche mathematische Struktur wie die von Mauer et al. (2017) verwendeten Produktvektoren aufweisen und diese Interpretation zum anderen keinen Einfluss auf die Dynamik des zu entwickelnden Modells hat.

Die Produktvektoren im Fallbeispiel besitzen die Länge ${}N = 10$, wobei ${}N$ die Anzahl der möglichen Produkteigenschaften eines Produkts darstellt und diese grundsätzlich verallgemeinerbar ist. Jede Produktvektorkomponente kann zwei verschiedene Ausprägungen annehmen, die unabhängig voneinander entweder 0 oder 1 sein können. Die binäre Repräsentation von Produktvektorkomponenten deckt sich mit dem Vorgehen von Mauer et al. (2017) und Welter und Kim (2018) sowie der von Sarasvathy (2009) beschriebenen Entscheidungssituation, in der es heißt, dass „${}C$ responds as follows: ‚I would gladly buy [the product] if only it were blue instead of green‘.“ (Sarasvathy, 2009, S. 102). Im Gegensatz zu Mauer et al. (2017) und Welter und Kim (2018) wird ein Produktvektor ${}E$ nicht als inhärente Eigenschaft des Agenten modelliert, sondern als Teil eines beobachtbaren Zustandes. Dies ermöglicht eine weitere Annäherung an das realweltliche Phänomen. Durch die Anzahl der Produktvektorkomponenten ${}N$ und der Anzahl an möglichen Ausprägungen der Komponenten ergeben sich $2^N$ mögliche Produkte. Unter der Voraussetzung, dass ${}N=10$ existieren demzufolge 1024 Produktvarianten.

Ein Kunde kann ein echter Kunde oder Nicht-Kunde sein. Das binäre Merkmal $\textit{Class}$ kann demzufolge die zwei Werte 0 und 1 annehmen. Darüber hinaus ist das Klassifizierungsmerkmal, neben den definierten Aktionen aus dem Aktionsraum, grundlegend zur Bestimmung der Transitionswahrscheinlichkeiten, welche ebenfalls in Abschnitt 4.3.3 diskutiert werden. Weiterhin ist der effektuative Agent in der Lage, das Investitionsverhalten ${}I$ eines Kunden zu beobachten. Dabei ist grundsätzlich ${}I > 0$. Unter welchen Voraussetzungen ein Kunde bereit ist in die Produktentwicklung des Agenten zu investieren, wird in Abschnitt 4.3.3 näher erläutert.

Wie im von Sarasvathy (2009, S. 102 f.) beschriebenen Szenario können für einen effektuativen Agenten Kosten für die Produktanpassung anfallen. Diese werden im Modell durch das Merkmal $\textit{Cost}$ symbolisiert und können Werte von ${}\textit{Cost} \ge 0$ annehmen. Die Bedingungen, die für das Auftreten von Kosten für den Agenten gelten, werden ebenfalls in Abschnitt 4.3.3 erläutert.

Die Menge aller möglichen Zustände im Zustandsraum definiert sich durch die Menge aller Kombinationen der Ausprägungen von ${}C$, ${}E$ und $\textit{Class}$. Dabei wird jeder möglichen Ausprägungskombination von ${}C$ und ${}E$ ein Paar von $\textit{Cost}$ und ${}I$ zugeordnet. Um die Vergleichbarkeit mit den bereits bekannten Modellen von Mauer et al. (2017) und Welter und Kim (2018) zuzulassen, erweitern die Kosten und Investitionen den Zustandsraum nicht.

4.3.2 Bestimmung der Belohnungsfunktion

Die Belohnungsfunktion ${}r$ eines MDP dient der Verhaltenssteuerung eines Agenten und bestimmt maßgeblich den Lernvorgang. Sie beschreibt inhaltlich, welche Belohnung ein Agent erhält, wenn er in einem bestimmten Zustand eine ausgewählte Aktion ausführt und in den nächsten Zustand gelangt. Formal lässt sich dies durch ${r(s',a,s)}$ ausdrücken (siehe Abschnitt 2.3.1).

Zur Modellierung einer Belohnungsfunktion, die effektuatives Verhalten des Agenten belohnt, ist herauszustellen, welche Aspekte im Sinne von Effectuation belohnenswert sind. Für das vorliegende Modell wurden drei Aspekte identifiziert, die Einfluss auf eine effektuative Belohnungsfunktion ${}r$ haben. Die Bestandteile werden mit $r^1$ bezeichnet. Zudem soll gelten $0 \le {}r \le 1$.

Der erste Bestandteil zur Beeinflussung des Verhaltens des Agenten im Sinne eines effektuativen Vorgehens lässt sich durch die Übertragung der zur Verfügung stehenden Mittel ${}M$ des Agenten in eine Belohnungsfunktion realisieren. Konkret repräsentiert ${}M_t$ das aktuell vorhandene finanzielle Budget des Agenten, welches ihm die Anpassung des Produktes ${}E$ ermöglicht. Durch Einbeziehung der Mittel ${}M$ in die Modellierung werden die von Mauer et al. (2017) und Welter und Kim (2018) definierten Problemräume erweitert und der von Sarasvathy (2001), Sarasvathy (2003), Wiltbank et al. (2006) und Zhang und Van Burg (2019) beschriebenen means, als Entscheidungsgrundlage im effektuativen Prozess, Rechnung getragen. Im von KfW Research (2017) publizierten Gründungsreport wurde herausgestellt, dass Existenzgründer im Jahr 2016 mit einem mittleren Eigenkapitaleinsatz von

https://static-content.springer.com/image/chp%3A10.1007%2F978-3-658-39251-2_4/538115_1_De_4_IEq78_HTML.gif

eine Unternehmung begonnen haben. Die dem Agenten zu Beginn des Lernprozesses zur Verfügung stehenden Mittel $M_0$ werden daher im Fallbeispiel mit dem Wert 7500 initialisiert. Die Mittel des Agenten zu einem beliebigen Zeitpunkt ${}t > 0$ beziehen die Kosten für eine Produktanpassung sowie das Investitionsverhalten eines Kunden in die Berechnung ein. Welchen Berechnungsvorschriften die Mittel unterliegen, wird in Abschnitt 4.3.3 dargestellt. Um die effektuative Verwendung der Mittel, wie sie unter anderem von Peng et al. (2020), Brettel et al. (2012), Sarasvathy (2009) und Karami et al. (2019) diskutiert wird, zu modellieren, ist die Bewertung der Veränderung des Mittelbestandes innerhalb eines Zeitschritts einzubeziehen, die mit $M_{t+1} - {}M_t$ definiert ist. Für den Belohnungsfunktionsbestandteil gilt, dass mit jeder Erhöhung des Mittelzuwachses ein geringerer Anstieg der Belohnung einhergeht. Dieser Modellierungsansatz deckt sich mit den Annahmen von Sarasvathy (2001), wonach effektuativ agierende Entrepreneure im Sinne des Affordable-Loss-Prinzips weniger Wert darauf legen, künftige Einnahmen respektive ihren Mittelbestand zu erhöhen, sondern vielmehr bestrebt sind, ihren aktuellen Mittelbestand so ressourcenschonend wie möglich einzusetzen. Eine Funktion, die diese Eigenschaften erfüllt, kann wie folgt modelliert werden:

$$\begin{aligned} r^1 \left( m \right) = {\left\{ \begin{array}{ll} \frac{e^{m}}{e^{m} + e^{\frac{1}{m}}} &{} {}m > 0\\ 0 &{} \text {sonst.} \end{array}\right. } \end{aligned}$$

(4.2)

Dabei stellt ${}m$ die Mittelveränderung im Verhältnis zum Anfangsbestand der Mittel als Bezugsgröße dar (in der Folge als Means Variation Ratio bezeichnet) und lässt sich mit

$$\begin{aligned} {}m_t = 1 + \frac{M_{t+1} - {}M_t}{M_0} \end{aligned}$$

(4.3)

berechnen.

Abbildung 4.1 zeigt den Zusammenhang zwischen dem Verhältnis von Means Variation Ratio ${}m$ und Belohnungsbestandteil $r^1$. Es wird deutlich, dass der Agent nicht bereits bei ${}m = 1$ keine Belohnung mehr erhält. Vielmehr kann der Agent das Affordable-Loss-Prinzip anwenden und seine aktuell zur Verfügung stehenden Mittel zum Voranbringen der Unternehmung aufbrauchen. Er wird erst dann keine Belohnung mehr erhalten ($r^1 = 0$), wenn die Kosten für eine Produktanpassung der Höhe der Mittel zu Beginn der Unternehmung entsprechen und er einen Typ-II-Fehler begeht.

Ein weiterer die Belohnungsfunktion beeinflussender Aspekt ergibt sich aus dem von Sarasvathy vorgestellten Entscheidungsszenario, welches ein typisches effektuatives Verhaltensmerkmal herausstellt:

„This final solution to the problem is the strongly effectual one consisting any mechanism that reduces Type I errors at the cost of incurring Type II errors. In other words, the effectual commitment always favors the error of letting possible customers go as opposed to letting non-customers drive the decision process.“ (Sarasvathy, 2009, S. 103)

Demnach nimmt ein effektuativ handelnder Entrepreneur in Kauf, Typ-II-Fehler (Agent schätzt Kunden als echten Kunden ein, obwohl sich dieser in Wirklichkeit als Nicht-Kunde herausstellt und entsprechend das angepasste Produkt nicht kaufen wird.) zu begehen, wenn er damit erreicht, Typ-I-Fehler (Agent schätzt Kunden als Nicht-Kunden ein, obwohl sich dieser in Wirklichkeit als echter Kunde herausstellt und entsprechend das angepasste Produkt gekauft hätte.) zu vermeiden. Zur Veranschaulichung der Zusammenhänge zwischen der Klassifizierung des Kunden durch den Agenten und des tatsächlichen Verhaltens des Kunden dient die Entscheidungstabelle 4.2. Die Merkmalsausprägungen ${}\textit{Class}0$ und ${}\textit{Class}1$ repräsentieren hierbei folgendes:

${}\textit{Class}0$: Der Kunde ist ein echter Kunde und
${}\textit{Class}1$: Der Kunde ist ein Nicht-Kunde.

Neben dem Auftreten der Fehler vom Typ I und II kann der Agent den Kunden auch korrekt einschätzen, indem er

den Kunden mit der Aktion ${}a0$ als echten Kunden einschätzt und ${}\textit{Class}0$ eintritt oder
den Kunden mit der Aktion ${}a1$ als Nicht-Kunden einschätzt und ${}\textit{Class}1$ eintritt.

Aus den in Tabelle 4.2 vorgestellten Entscheidungsresultaten und der von Sarasvathy (2009) beschriebenen bevorzugten effektuativen Verhaltensweise ergibt sich ein Aspekt zur Bestimmung der Belohnungsfunktion.

Tabelle 4.2

Entscheidungstabelle

		Wirklichkeit
		${}\textit{Class}0$	${}\textit{Class}1$
Einschätzung mit	$\ldots {}a0$	Korrekte Einschätzung	Typ-II-Fehler
Einschätzung mit	$ \ldots {}a1$	Typ-I-Fehler	Korrekte Einschätzung

Die vier möglichen Entscheidungsergebnisse lassen sich für das Fallbeispiel in die in Tabelle 4.3 dargestellten Belohnungsparameter überführen und initialisieren. Für das Einschätzen eines Kunden als echten Kunden, der in Wirklichkeit ein Nicht-Kunde ist (Typ-I-Fehler) bzw. das Einschätzen eines Kunden als Nicht-Kunden, der in Wahrheit ein echter Kunde ist (Typ-II-Fehler), erhält der Agent keine Belohnung ($r^2(\textit{Class}0,a1) = r^2(\textit{Class}1,a0) = 0$). Für das korrekte Einschätzen des Kunden erhält der Agent eine Belohnung von 1 ($r^2(\textit{Class}0,a0)$) bzw. 0.5 ($r^2(\textit{Class}1,a1)$). Unter der Annahme, dass die Wahrscheinlichkeiten dafür, dass ein Kunde in Wirklichkeit ein echter Kunde beziehungsweise Nicht-Kunde ist, gleich sind, wird ein Agent bei Wahl der Aktion ${}a0$ im Mittel eine höhere Belohnung erwarten, als wenn er sich für die Aktion ${}a1$ entscheidet. Folglich nimmt er langfristig eher in Kauf, Typ-II-Fehler zu begehen.

Tabelle 4.3

Mögliche Werte des Belohnungsfunktionsbestandteils $r^2$

$r^2$	$\textit{Class}0$	$\textit{Class}1$
${}a0$	1 (Korrekte Einschätzung)	0 (Typ-II-Fehler)
${}a1$	0 (Typ-I-Fehler)	0.5 (Korrekte Einschätzung)

Ein weiterer Aspekt zur Steuerung effektuativen Verhaltens mittels einer Belohnungsfunktion ist die Einbeziehung der Leistungsfähigkeit eines Produktvektors, wie sie von Welter und Kim (2018) vorgeschlagen wurde. Die Leistungsfähigkeit eines vom Entrepreneur entwickelten Produktes dient im Modell als Maß zur Bestimmung, zu welchem Grad der Product-Market-Fit erreicht wurde. Formal lässt sich der Product-Market-Fit als $r^3(E)$ mit $r^3 \in [0,1]$ ausdrücken. Die Berechnung von $r^3(E)$ folgt der Vorschrift, die sich aus Gleichung (3.6) in Abschnitt 3.1.2 ergibt. Zum Zeitpunkt ${}t$ beschreibt der Wert $r^3(E_t)$ folglich, wie gut das vom effektuativ handelnden Entrepreneur angepasste Produkt der Marktnachfrage entspricht. Ein vergleichsweise guter Product-Market-Fit korrespondiert mit vergleichsweise hohen Werten $r^3(E)$, ein schlechter Product-Market-Fit mit vergleichsweise niedrigen Werten $r^3(E)$.

Zur Bestimmung der endgültigen Belohnungsfunktion, die das effektuative Verhalten des Agenten beeinflusst, werden die beschriebenen Teilaspekte einer Belohnung in eine Konvexkombination überführt und jeweils mit einem Gewichtungskoeffizienten versehen. Daraus ergibt sich die Belohnungsfunktion

$$\begin{aligned} r_{t+1} = \frac{\omega _1 r^1 \left( m_t\right) + \omega _2 r^2(\textit{Class},a)_t + \omega _3 r^3(E_{t+1})}{\displaystyle \sum _{i=1}^3 \omega _i} \end{aligned}$$

(4.4)

für ${}\omega _1 \ge 0$ mit ${}r_t \in [0,1]$ und ${}t \ge 0$. Die in Gleichung (4.4) vorgestellte Belohnungsfunktion wird in Abbildung 4.2 veranschaulicht. Die Abbildung zeigt die Belohnungsfunktionen ${}r_t$ für variierendes Means Variation Ratio ${}m$ und Product-Market-Fit $r^3(E_t)$ bei fixierter Belohnung für das Einschätzen des Kunden durch den Agenten mit $r^2(\textit{Class}0,a0) = 1$ und unterschiedlichen Gewichtungsfaktoren $\omega _3$. Der Gewichtungsfaktor $\omega _3$ wurde mit den Werten 1 und 4 initialisiert, um die damit verbundene Änderung der Belohnungsfunktion ${}r_t$ zu verdeutlichen. Demnach kann ein Agent grundsätzlich größere Belohnungen erhalten, wenn die Gewichtung $\omega _3 = 4$ gesetzt wird. Bei Fixierung von ${}m$ ist ein stärker Anstieg von ${}r_t$ mit steigendem $r^3(E_t)$ im Vergleich zu $\omega _1 = 1$ zu beobachten.

Camacho et al. (2019) folgend müssen Belohnungsfunktionen unter anderem die Markov-Eigenschaft erfüllen und Zuständen bzw. Zustands-Aktionspaaren skalare Belohnungswerte zuordnen. Die in Gleichung (4.4) dargestellte Belohnungsfunktion erfüllt diese Bedingungen. Die Teilbelohnung, welche sich aus Gleichung (4.2) ergibt, bezieht zur Berechnung von ${}m_t$ Investitionswerte und Kosten aus maximal einem vorhergehenden Zeitpunkt $t-1$ ein. Die Teilbelohnungen $r^2(\textit{Class},a)_t$ und $r^3(E_t)$ stehen in Zusammenhang mit einem Zustands-Aktionspaar im Zeitschritt $t-1$ zu ${}t$, wodurch die Markov-Eigenschaft ebenfalls nicht verletzt wird. Die Belohnung ${}r_t$ ergibt nach der in Gleichung (4.4) definierten Rechenvorschrift einen skalaren Wert. Der entsprechende Quellcode zum Aufbau des Zustandsraums und der Bildung des NK-Modells zur Bestimmung des Produkt-Market-Fits kann in Anhang C.2 im elektronischen Zusatzmaterial nachvollzogen werden.

4.3.3 Bestimmung der Transitionswahrscheinlichkeiten

Die Bestimmung der Transitionswahrscheinlichkeiten ${}p$ ist Bestandteil der Modellierung der Umgebung. Die Transitionswahrscheinlichkeiten geben Auskunft darüber, mit welcher Wahrscheinlichkeit ein Agent nach Ausführung einer Aktion von einem Zustand in den nächsten Zustand kommt. Im Modellansatz sind diese Wahrscheinlichkeiten dem Agenten aus den in Abschnitt 4.2.2 erläuterten Gründen nicht bekannt. Dadurch kann der Agent lediglich durch Interaktion mit der Umgebung die Genauigkeit der Schätzung des Erwartungswertes einer Action-Value-Funktion, wie sie ebenfalls in Abschnitt 4.2.2 beschrieben ist, über die Zeit verbessern.

Tabelle 4.2 bildet die Grundlage zur Bestimmung der Transitionswahrscheinlichkeiten und orientiert sich in ihrer Darstellungsform an Entscheidungstabellen im Kontext von Hypothesentests. Diese dienen traditionell der Ermittlung statistischer Fehler (Neyman & Pearson, 1933). Formal kann Tabelle 4.2 auch mit Hilfe bedingter Wahrscheinlichkeiten ausgedrückt werden (Wooldridge, 2013, S. 779). In Tabelle 4.4 werden die bedingten Wahrscheinlichkeiten definiert.

Tabelle 4.4

Bedingte Wahrscheinlichkeiten

$P(a\|\textit{Class})$	$\textit{Class}0$	$\textit{Class}1$
${}a0$	$1 - {}\varphi $	${}\chi $
${}a1$	${}\varphi $	$1 - {}\chi $

Die bedingte Wahrscheinlichkeit ${}P(a0|\textit{Class}0)$ korrespondiert hierbei mit der linken oberen Zelle in Tabelle 4.2 (Korrekte Einschätzung), ${}P(a0|\textit{Class}1)$ mit der rechten oberen Zelle (Typ-II-Fehler), ${}P(a1|\textit{Class}0)$ mit der linken unteren Zelle (Typ-I-Fehler) und ${}P(a1|\textit{Class}1)$ mit der rechten unteren Zelle (Korrekte Einschätzung).

Zur Bestimmung der Wahrscheinlichkeiten, dass ein Kunde ein echter Kunde ($\textit{Class}0$) bzw. Nicht-Kunde ($\textit{Class}1$) ist, unter der Voraussetzung, dass ein Kunde als echter Kunde (Aktion ${}a0$) bzw. Nicht-Kunde (Aktion ${}a1$) eingeschätzt wird, erfolgt die Anwendung des Satzes von Bayes, der in Abschnitt 2.1 diskutiert wird. Hierfür ist es zusätzlich notwendig, die totale Wahrscheinlichkeit für das Eintreten des Ereignisses, dass ein Kunde ein echter Kunde bzw. Nicht-Kunde ist, zu modellieren. Die Wahrscheinlichkeit für das Eintreten des Ereignisses, dass ein Kunde ein echter Kunde ist, wird entsprechend mit ${}P(\textit{Class}0) = {}\psi $ definiert. Für das Eintreten des Ereignisses, dass ein Kunde ein Nicht-Kunde ist, ergibt sich die Gegenwahrscheinlichkeit mit ${}P(\textit{Class}1) = 1 - {}\psi $. Für die Zustandsänderungen können damit die folgenden Eintrittswahrscheinlichkeiten berechnet werden:

$$\begin{aligned} {}P(\textit{Class}0|a0) = \frac{(1-{}\varphi ) {}\psi }{{}\chi (1-{}\psi ) + (1-{}\varphi ){}\psi }\end{aligned}$$

(4.5)

$$\begin{aligned} {}P(\textit{Class}1|a0) = \frac{{}\chi (1-{}\psi )}{(1-{}\varphi ){}\psi + {}\chi (1-{}\psi )}\end{aligned}$$

(4.6)

$$\begin{aligned} {}P(\textit{Class}0|a1) = \frac{{}\varphi {}\psi }{ {}\varphi {}\psi + (1-{}\chi )(1-{}\psi )}\end{aligned}$$

(4.7)

$$\begin{aligned} {}P(\textit{Class}1|a1) = \frac{(1-{}\chi )(1-{}\psi )}{{}\varphi {}\psi + (1-{}\chi )(1-{}\psi )}. \end{aligned}$$

(4.8)

Dem Vorgehen von Welter und Kim (2018) folgend, wird im vorliegenden Modell ein Agent bei einer Zustandsänderung potentiell nur die Zustände erreichen, bei denen der Produktvektor eines Kunden in maximal einer Komponente von dem des Entrepreneurs abweicht. Führt der Agent die Aktion ${}a0$ zum Zeitpunkt ${}t$ aus, übernimmt er für den Produktvektor $E_{t+1}$ den Produktvektor ${}C_t$, so dass gilt $E_{t+1} = {}C_t$. Klassifiziert der Agent einen Kunden mit der Aktion ${}a1$, verändert der Agent seinen bisherigen Produktvektor nicht und es ergibt sich $E_{t + 1} = {}E_t$. Schätzt der Agent einen Kunden demnach als echten Kunden ein, ist er bereit die Produktvorstellung des Kunden umzusetzen. Klassifiziert der Agent einen Kunden als Nicht-Kunden, wird er von einer Produktanpassung Abstand nehmen und belässt das Produkt im ursprünglichen Zustand.

Bisher beziehen sich die gemeinsam auftretenden Ereignisse nur auf die auszuführende Aktion und die tatsächliche Klassifizierung des Kunden. Da bei jeder Zustandsänderung grundsätzlich jedoch unterschiedliche Produktvektoren bei den Kunden auftreten können, müssen die bedingten Wahrscheinlichkeiten auf die Anzahl der möglichen zu beobachtenden Zustände aufgeteilt werden. Im vorliegenden Modell werden die bedingten Wahrscheinlichkeiten über alle Zustände mit dem vom Agenten beobachtbaren Produktvektoren der Kunden nach Ausführung einer Aktion gleichverteilt. Es ergibt sich die Gewichtung der bedingten Wahrscheinlichkeiten mit $\frac{1}{N}$.

Die Bestimmung der Transitionswahrscheinlichkeiten erfolgt auf Grundlage eines empirischen Wertes, der in der Literatur zu finden ist. Laut dem Center for Venture Research (2019) beträgt die Investitionsrate von Wagniskapital-Unternehmen in der ersten Finanzierungsphase eines Unternehmens 30,7%. Die Investitionsrate stellt hierbei das Verhältnis von der tatsächlich getätigten Anzahl an Investitionen des Wagniskapital-Unternehmens zur Anzahl der Investitionsmöglichkeiten dar. Im Rahmen der Effectuation-Theorie entfällt eine Unterscheidung zwischen Kunden und Investor (Sarasvathy, 2009, S. 102–105), da beide grundsätzlich im Sinne des Crazy-Quilt-Prinzips Partner der Unternehmung des effektuativen Entrepreneurs sein können (Chandler et al., 2011). Die Nutzung der Investitionsrate zur Modellierung der Wahrscheinlichkeit, ob ein Kunde in Wirklichkeit ein echter Kunde oder Nicht-Kunde ist, ist daher zielführend. Entsprechend wird die Wahrscheinlichkeit dafür, dass der Kunde, mit dem eine potentielle Zusammenarbeit angestrebt wird, ein echter Kunde ist und dieser als echter Kunde klassifiziert wird (${}P(\textit{Class}0 \cap a0)$), mit dem Wert 0.307 initialisiert. Formal lässt sich die Wahrscheinlichkeit ${}P(\textit{Class}0)$ durch

$$\begin{aligned} {}\psi = {}P(\textit{Class}0) = \frac{{}P(\textit{Class}0 \cap a0)}{{}P(a0|\textit{Class}0)} = \frac{0.307}{1-{}\varphi } \end{aligned}$$

(4.9)

berechnen. Die Wahrscheinlichkeiten ${}\varphi $ und ${}\chi $ werden zur Untersuchung des Lernverhaltens des effektuativen Agenten als variabel angenommen.

Die in (4.5) bis (4.8) formulierten bedingten Wahrscheinlichkeiten basieren auf den Ereignissen ${}a0$ bzw. ${}a1$ und ${}\textit{Class}0$ bzw. ${}\textit{Class}1$. Für die gemeinsam auftretenden Ereignisse existieren verschiedene Berechnungsvorschriften der Mittel in Zeitschritt $t + 1$:

$$\begin{aligned} {}\textit{Class}0 \cap {}a0: M_{t + 1}&= {}M_t - {}\textit{Cost}_t + I_{t} \end{aligned}$$

(4.10)

$$\begin{aligned} {}\textit{Class}1 \cap {}a0: M_{t + 1}&= {}M_t - {}\textit{Cost}_t \end{aligned}$$

(4.11)

$$\begin{aligned} {}\textit{Class}0 \cap {}a1: M_{t + 1}&= {}M_t\end{aligned}$$

(4.12)

$$\begin{aligned} {}\textit{Class}1 \cap {}a1: M_{t + 1}&= {}M_t \end{aligned}$$

(4.13)

Schätzt ein Agent einen Kunden als echten Kunden ein, wird der Agent zunächst seinen Produktvektor so anpassen, dass gilt $E_{t+1} = {}C_t$. Klassifiziert der Agent einen Kunden als Nicht-Kunden gilt $E_{t+1} = {}E_t$. Der Agent glaubt demzufolge nicht, dass der Kunde das angepasste Produkt kaufen wird und nimmt daher von einer mit Kosten verbundenen Anpassung des Produktvektors Abstand. Stellt der Agent nach Ausführung der Aktion ${}a0$ fest, dass der Kunde tatsächlich ein echter Kunde (${}\textit{Class}0$) ist, ergibt sich die Rechenvorschrift der Mittel aus (4.10). Die Mittel $M_{t + 1}$ errechnen sich aus den zum Zeitpunkt t verfügbaren Mitteln ${}M_t$ abzüglich der Kosten $\textit{Cost}_t$ für die Produktanpassung $E_{t+1} \leftarrow {}C_t$ und zuzüglich der Investition ${}I_t$, die ein Kunde bereit ist für die Produktanpassung zu leisten. Dabei wird ${}I_t$ gleichverteilt mit ${}\textit{Cost}_t< {}I_t < 1.5 \cdot {}\textit{Cost}_t$ angenommen.

Tritt der Fall ein, dass der Agent einen Kunden als echten Kunden einschätzt, dieser in Wahrheit jedoch ein Nicht-Kunde ist, hat der Agent die mit Kosten verbundene Produktanpassung vorgenommen, ohne dass der Kunde bereit ist, das Produkt zu kaufen und damit in die Anpassung zu investieren. Gleichung (4.11) verdeutlicht die damit einhergehende Berechnung der Mittel $M_{t + 1}$.

Wird der Agent einen Kunden im Zeitschritt ${}t$ als Nicht-Kunden klassifizieren, ergeben sich zur Mittelberechnung im Zeitschritt $t + 1$ die Vorschriften aus den Gleichungen (4.12) und (4.13). Unabhängig davon, ob der Agent beobachtet, dass der Kunde aus dem vorangegangenen Zeitschritt ein echter Kunde oder Nicht-Kunde ist, nimmt der Agent keine Produktanpassung vor. Folglich fallen keine Kosten für den Agenten an und er erhält keine Investitionen vom Kunden, wodurch die Mittel im Zeitschritt $t + 1$ dem Mittelbestand ${}M_t$ entsprechen.

Zur Veranschaulichung der erläuterten Transitionen ist in Abbildung 4.3 eine beispielhafte Zustandsänderung dargestellt. In der Darstellung ist der Anfangszustand mit der Start-Produktkonfiguration des Agenten $E_0 = (010)$ sowie des Kunden $C_0 = (000)$ der Länge $N=3$ zu finden. Der Agent startet mit den im Zustand zu beobachtenden Mitteln $M_0 = 7500$. Die Kosten für die Produktanpassung von $(010) \rightarrow (000)$ betragen 1000. Die mögliche Investitionssumme $I_0$ des Kunden für eine Produktanpassung beträgt 1100.

Der Agent hat die Möglichkeit, den Kunden aus dem initialen Zustand als echten Kunden (${}a0$) oder Nicht-Kunden (${}a1$) zu klassifizieren. Nach Ausführung einer Aktion kann der Agent in einem der in den beiden Tabellen dargestellten möglichen Zustände landen. Jede Spalte beschreibt hierbei jeweils einen möglichen Zustand im Zeitschritt 1 mit konkreten Ausprägungen, die vom Zustand zum Zeitpunkt 0 aus erreichbar sind.

4.4 Standardisierung des Modells

Um die Möglichkeit zu gewährleisten, das entwickelte Modell entsprechend der in Abschnitt 3.1.4 erläuterten Methoden durch weitere Autoren zu verifizieren, besteht die Notwendigkeit den Implementierungsprozess zu standardisieren. Brockman et al. (2016) präsentieren in ihrem Rahmenwerk eine Möglichkeit Modelle, die auf Methoden des RIL aufbauen, zu vereinheitlichen. Mit Hilfe der OpenAI Gym-Schnittstelle können modellierte RIL-Probleme explizit dargestellt und korrespondierende Lösungen verglichen werden. Die Verifikations-Umgebung ist quelloffen verfügbar und in Python implementiert. Im Kern stellt die Bibliothek eine Schnittstelle zur Verfügung, um die Umgebung des RIL-Problems standardisiert darzustellen. Hierfür ist die Erstellung einer dedizierten Environment-Klasse notwendig, die die Implementierung einiger weniger Attribute und Methoden fordert. Zu Vergleichszwecken ist unter anderem die Typen-Deklaration der Elemente des Zustandsraumes notwendig.

Anhand der Charakteristik der einzelnen Merkmale des in Abschnitt 4.3.1 beschriebenen Zustandsraumes ergibt sich die in Anhang C.1 im elektronischen Zusatzmaterial aufgestellte Klassen-Definition zur Implementierung in OpenAI Gym. Der modellierte Zustandsraum wird in OpenAI Gym zu Deklarationszwecken als Python-Dictionary übergeben. Die Merkmale des Zustandsraumes werden als Schlüssel-Strings codiert. Den Schlüsseln werden Werte zugeordnet. Die Typen der Werte werden entsprechend der durch OpenAI Gym vorgegebenen möglichen Klassendefinitionen deklariert. In einer OpenAI Gym-Umgebung dienen die Werte des Dictionaries als Definition des Wertebereiches der möglichen Ausprägungen der Zustandsmerkmale. Der vollständige Aufbau der Umgebung ist in Anhang C.3 im elektronischen Zusatzmaterial dargestellt.

Zum Zweck der Transparenz und Nachvollziehbarkeit ist zudem in Algorithmus 4 das Lernprogramm des sich in der definierten Umgebung bewegenden Agenten in Pseudo-Code dargestellt. Dabei wird angenommen, dass der Agent in jedem Zeitschritt ein exploitatives Verhalten an den Tag legt. Die konkrete Implementierung des Algorithmus in Python unter Beachtung des Explorations-Exploitations-Tradeoffs ist in Anhang C.4 im elektronischen Zusatzmaterial wiederzufinden.

Open Access Dieses Kapitel wird unter der Creative Commons Namensnennung 4.0 International Lizenz (http://creativecommons.org/licenses/by/4.0/deed.de) veröffentlicht, welche die Nutzung, Vervielfältigung, Bearbeitung, Verbreitung und Wiedergabe in jeglichem Medium und Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle ordnungsgemäß nennen, einen Link zur Creative Commons Lizenz beifügen und angeben, ob Änderungen vorgenommen wurden.

Die in diesem Kapitel enthaltenen Bilder und sonstiges Drittmaterial unterliegen ebenfalls der genannten Creative Commons Lizenz, sofern sich aus der Abbildungslegende nichts anderes ergibt. Sofern das betreffende Material nicht unter der genannten Creative Commons Lizenz steht und die betreffende Handlung nicht nach gesetzlichen Vorschriften erlaubt ist, ist für die oben aufgeführten Weiterverwendungen des Materials die Einwilligung des jeweiligen Rechteinhabers einzuholen.

Symbol	Beschreibung
\(E_{t}\)	Produktvektor des Agenten zum Zeitpunkt t
\(C_{t}\)	Produktvektor des Kunden zum Zeitpunkt t
\(Class_{t-1}\)	Klassifizierung zum Zeitpunkt t, ob der Kunde zum Zeitpunkt \(t-1\) ein echter Kunde oder Nicht-Kunde ist
\(Cost_{t}\)	Kosten für die Änderung des Produktvektors von \(E_{t} \rightarrow C_{t}\)
\(I_{t}\)	Potentielle Investition des Kunden zum Zeitpunkt t, sofern der Agent die Änderung des Produktvektors vornimmt

\(r^2\)	\(\textit{Class}0\)	\(\textit{Class}1\)
\({}a0\)	1 (Korrekte Einschätzung)	0 (Typ-II-Fehler)
\({}a1\)	0 (Typ-I-Fehler)	0.5 (Korrekte Einschätzung)

\(P(a\|\textit{Class})\)	\(\textit{Class}0\)	\(\textit{Class}1\)
\({}a0\)	\(1 - {}\varphi \)	\({}\chi \)
\({}a1\)	\({}\varphi \)	\(1 - {}\chi \)

Springer Professional