Skip to main content
Erschienen in:
Buchtitelbild

Open Access 2021 | OriginalPaper | Buchkapitel

2. Aspekte des Wahrscheinlichkeitsbegriffs

verfasst von : Markus Kalisch, Lukas Meier

Erschienen in: Logistische Regression

Verlag: Springer Fachmedien Wiesbaden

Aktivieren Sie unsere intelligente Suche, um passende Fachinhalte oder Patente zu finden.

search-config
download
DOWNLOAD
print
DRUCKEN
insite
SUCHEN
loading …

Zusammenfassung

Ausgehend von dem Begriff der Wahrscheinlichkeit werden die Begriffe der Odds (Chance) und Log-Odds eingeführt und anhand von einem Beispiel illustriert. Beide Größen werden später bei der Interpretation des logistischen Regressionsmodells eine zentrale Rolle spielen. Neben exakten Definitionen wird Wert auf ein intuitives Verständnis der Zusammenhänge gelegt. Die Begriffe Risk-Ratio und Odds-Ratio erlauben es, Wahrscheinlichkeiten bzw. Odds für ein Ereignis in zwei verschiedenen Situationen zu vergleichen.
Aussagen wie „Die Chancen stehen 4:1, dass es morgen regnet“ oder „Die Chancen sind 50:50, dass Du in diesem Spiel gewinnst“ sind im Alltag häufig anzutreffen und sagen implizit etwas über die zugrunde liegende Wahrscheinlichkeit der entsprechenden Ereignisse aus. Was solche Aussagen mathematisch präzise bedeuten, schauen wir uns nun in diesem Kapitel genau an, weil es von großer Bedeutung für das Verständnis der logistischen Regression ist.

2.1 Der Begriff der Odds

Für ein Ereignis A (z. B. \(A = \) „Morgen regnet es“) bezeichnen wir mit \({\mathbb {P}}({A})\) die entsprechende Wahrscheinlichkeit und mit \(A^c\) das entsprechende Komplementär- oder Gegenereignis („nicht A“). Sobald man eine Wahrscheinlichkeit hat, kann man die sogenannten Odds definieren (wir verwenden typischerweise das englische Wort „Odds“ statt „Chance“).
Definition:  Odds (Chance)
Die Odds (Chance) eines Ereignisses A bezeichnen wir mit \({\text {odds}}\, ({A})\), wobei1
$$\begin{aligned} {\text {odds}}\, ({A}) = \frac{{\mathbb {P}}({A})}{{\mathbb {P}}\left( {A^c}\right) } = \frac{{\mathbb {P}}({A})}{1-{\mathbb {P}}({A})} \in [0{,} \infty ). \end{aligned}$$
Die Zahl \({\text {odds}}\, ({A})\) gibt uns also an, wievielmal wahrscheinlicher das Eintreten von A verglichen mit dem Nicht-Eintreten von A ist.
Bemerkung: \({\text {odds}}\, ({A})\) ist nur definiert für \({\mathbb {P}}({A}) < 1\).
Wenn man von einem Ereignis A den Wert von \({\text {odds}}\, ({A})\) kennt, dann kennt man automatisch auch \({\mathbb {P}}({A})\), denn es gilt
$$ {\mathbb {P}}({A}) = \frac{{\text {odds}}\, ({A})}{1 + {\text {odds}}\, ({A})}. $$
Dieser Zusammenhang ist in Abb. 2.1 (unten) dargestellt. Oder anders ausgedrückt: In den Odds steckt gleich viel Information wie in den Wahrscheinlichkeiten, einfach auf einer anderen Skala. Während eine Wahrscheinlichkeit auf dem Intervall [0, 1] „lebt“, ist dies bei Odds die Menge aller reellen Zahlen größer gleich Null.
Beispiel:  Regen
Die Wahrscheinlichkeit, dass es morgen regnet (Ereignis A) ist \({\mathbb {P}}({A}) = 0{.}8\). Die Odds, dass es morgen regnet, also \({\text {odds}}\, ({A})\), sind gemäß Formel
$$ {\text {odds}}\, ({A}) = \frac{0{.}8}{1 - 0{.}8} = \frac{0{.}8}{0{.}2} = 4. $$
Regen ist also viermal so wahrscheinlich wie kein Regen. Umgekehrt kann man aus den Odds die Wahrscheinlichkeit ausrechnen:
$$ {\mathbb {P}}({A}) = \frac{{\text {odds}}\, ({A})}{1 + {\text {odds}}\, ({A})} = \frac{4}{1 + 4}= 0{.}8 $$
Für die Modellierung in Kap. 3 wird es nützlich sein, einen Wert zu haben, der sich auf den ganzen reellen Zahlen (d. h. nicht nur auf der positiven Halbachse) abspielt. Dies erreicht man, indem man die Odds geeignet transformiert. Wenn man dabei die (natürliche) Logarithmus-Funktion verwendet, spricht man von sogenannten Log-Odds.
Definition:  Log-Odds
Die Log-Odds eines Ereignisses A bezeichnen wir mit \({\text {log-odds}}({A})\), wobei
$$\begin{aligned} {\text {log-odds}}({A}) = \log ({\text {odds}}\, ({A})), \end{aligned}$$
d. h.
$$ {\text {odds}}\, ({A}) = \exp ({\text {log-odds}}({A})). $$
Bemerkung: \({\text {log-odds}}({A})\) ist nur definiert für \({\text {odds}}\, ({A}) > 0\).
Beispiel:  Regen (Fortsetzung)
Die Log-Odds, dass es morgen regnet, sind \({\text {log-odds}}({A}) = \log (4) \approx 1{.}386\). Umgekehrt können wir aus den Log-Odds die Odds
$$ {\text {odds}}\, ({A}) = \exp ({\text {log-odds}}({A})) = \exp (1{.}386) \approx 4 $$
und daraus die Wahrscheinlichkeit \({\mathbb {P}}({A})\) berechnen. Dies führt zur Formel
$$ {\mathbb {P}}({A}) = \frac{\exp ({\text {log-odds}}({A}))}{1 + \exp ({\text {log-odds}}({A}))} = 0{.}8. $$
Der Zusammenhang zwischen \({\text {log-odds}}({A})\) und \({\mathbb {P}}({A})\) ist in Abb. 2.2 dargestellt.
Wie alle bis jetzt gelernten Größen zusammenhängen und welche Eigenschaften diese haben, fassen wir folgendermaßen zusammen:
Intuition:  Wahrscheinlichkeiten, Odds und Log-Odds
Die wichtigsten Zusammenhänge und Merkregeln:
  • Wahrscheinlichkeit, Odds und Log-Odds eines Ereignisses sind redundant: Wenn man eine der Größen kennt, kann man die anderen beiden Größen damit berechnen. Der einzige Unterschied besteht darin, auf welcher Skala sich die Information befindet:
    $$\begin{aligned}\begin{gathered} 0 \le {\mathbb {P}}({A}) \le 1 \\ 0 \le {\text {odds}}\, ({A})< \infty \\ -\infty< {\text {log-odds}}({A}) < \infty \end{gathered}\end{aligned}$$
  • Änderungen gehen in die gleiche Richtung: Wenn man eine der drei Werte größer (bzw. kleiner) macht, werden die anderen beiden auch größer (bzw. kleiner). Zum Beispiel „Je größer die Odds, desto größer die Wahrscheinlichkeit“.
  • Für seltene Ereignisse (z. B. \({\mathbb {P}}({A}) \le 0{.}05\)) liefern Odds und Wahrscheinlichkeit in etwa die gleichen Zahlenwerte, d. h. \({\text {odds}}\, ({A}) \approx {\mathbb {P}}({A})\). So gilt z. B. für \({\mathbb {P}}({A})=0{.}05\), dass \({\text {odds}}\, ({A}) \approx 0{.}0526\).
  • Später nützliche Faustregeln für Log-Odds sind:
    $$\begin{aligned} \begin{array}{|c|c|c|c|c|c|c|c|} \hline {\text {log-odds}}({A}) &{} -3 &{} -2 &{} -1 &{} 0 &{} 1 &{} 2 &{} 3 \\ \hline {\mathbb {P}}({A}) &{} 5\,\% &{} 10\,\% &{} 25\,\% &{} 50\,\% &{} 75\,\% &{} 90\,\% &{} 95\,\% \\ \hline \end{array} \end{aligned}$$
    Bemerkung: Die Wahrscheinlichkeiten wurden hier jeweils auf \(5 \, \%\) gerundet.
Im Zusammenhang mit weiteren Ereignissen werden Odds auch mit bedingten Wahrscheinlichkeiten verwendet. Für die bedingte Wahrscheinlichkeit von A gegeben B schreiben wir \({\mathbb {P}}({A}\, |\, B)\). Die bedingte Wahrscheinlichkeit gegeben B ist nichts anderes als eine Wahrscheinlichkeit für die Situation, bei der wir wissen, dass B schon eingetreten ist. Die Odds von A gegeben B sind dann definiert als
$$ {\text {odds}}\, ({A}\, |\, B) = \frac{{\mathbb {P}}({A}\, |\, B)}{{\mathbb {P}}({A^c}\, |\, B)} = \frac{{\mathbb {P}}({A}\, |\, B)}{1 - {\mathbb {P}}({A}\, |\, B)}. $$
Man verwendet einfach die „normale“ Definition mit den entsprechenden bedingten Wahrscheinlichkeiten.

2.2 Vergleich von Wahrscheinlichkeiten und Odds

Eine Betrachtung mit bedingten Wahrscheinlichkeiten ist insbesondere dann nützlich, wenn man verschiedene Situationen miteinander vergleichen will. Wir könnten z. B. die Wahrscheinlichkeit (oder die Odds) betrachten für das Ereignis \(A = \) „Morgen regnet es“ für die zwei Situationen \(B = \) „Wetterprognose kündet Regen an“ und \(C = \) „Wetterprognose kündet Bewölkung aber keinen Regen an“. Oder aus dem medizinischen Bereich: Wie ändert sich die Wahrscheinlichkeit (oder die Odds) für Lungenkrebs (Ereignis A), wenn wir Raucher (B) mit Nichtrauchern (C) vergleichen?
Eine Möglichkeit für einen solchen Vergleich besteht darin, direkt die entsprechenden bedingten Wahrscheinlichkeiten zu betrachten. Dies führt zum sogenannten relativen Risiko (auf Englisch Risk-Ratio), abgekürzt mit RR, welches durch das Verhältnis der bedingten Wahrscheinlichkeiten gegeben ist (die Wahrscheinlichkeit für ein solches nachteiliges Ereignis nennt man auch „Risiko“). Formell schreiben wir dies als
$$ \text {RR}(A \mid B \, \text {vs.}\, C) = \frac{{\mathbb {P}}({A}\, |\, B)}{{\mathbb {P}}({A}\, |\, C)} $$
oder im Beispiel
$$ \text {RR}(\text {Lungenkrebs} \mid \text {Raucher vs. Nichtraucher}) = \frac{{\mathbb {P}}({\text {Lungenkrebs}}\, |\, \text {Raucher})}{{\mathbb {P}}({\text {Lungenkrebs}}\, |\, \text {Nichtraucher})}. $$
Das relative Risiko gibt uns hier direkt an, wievielmal wahrscheinlicher es in der Gruppe „Raucher“ ist, an Lungenkrebs zu erkranken, verglichen mit der Gruppe „Nichtraucher“. Neben dem relativen Risiko ist auch das absolute Risiko (d. h. die bedingte Wahrscheinlichkeit \({\mathbb {P}}({\text {Lungenkrebs}} | \text {Raucher})\)) von Bedeutung: Ein sehr großes relatives Risiko muss nicht zwangsläufig „bedrohlich“ sein, wenn das absolute Risiko immer noch für den Alltag bedeutungslos ist.
Beispiel:  Relatives und absolutes Risiko
Zwei Medikamente A und B kommen für eine Behandlung in Frage. Die Wahrscheinlichkeit für eine bestimmte Nebenwirkung ist bei Medikament A gleich 0.0001 und bei Medikament B gleich 0.001. Die Wahrscheinlichkeit für die Nebenwirkung ist also bei Medikament B zehnmal so groß wie bei Medikament A. Das relative Risiko ist 10 und somit scheint Medikament B deutlich gefährlicher als Medikament A. Allerdings ist das absolute Risiko bei Medikament B immer noch sehr klein. Je nach anderen Vorzügen dieses Medikaments könnte es daher dennoch zur Anwendung kommen.
Anstelle von bedingten Wahrscheinlichkeiten können wir auch die entspre chenden Odds miteinander vergleichen. Im Beispiel würden wir also \({\text {odds}}\left( {\text {Lungenkrebs}} | \text {Raucher}\right) \) mit \({\text {odds}}\left( {\text {Lungenkrebs}} | \text {Nichtraucher}\right) \) vergleichen. Wenn wir das entsprechende Verhältnis betrachten, führt dies zum sogenannten Odds-Ratio.
Definition:  Odds-Ratio
Das Odds-Ratio (auch: Chancenverhältnis oder relative Chancen) \({\text {OR}}({A}\,|\,{B}\,{\text {vs.}}\, {C})\) ist definiert als das Verhältnis von \({\text {odds}}\,({A}\,|\,B)\) zu \({\text {odds}}\,({A}\,|\,C)\), d. h.
$$ {\text {OR}}({A}\, | \,{B}\, {\text {vs.}}\, {C}) = \frac{{\text {odds}}\, ({A}\,|\,B)}{{\text {odds}}\, ({A}\,|\,C)} \quad \left( = \frac{{\mathbb {P}}({A}\,|\, B)}{{\mathbb {P}}({A}\,|\, C)} \cdot \frac{1 - {\mathbb {P}}({A}\,|\, C)}{1 - {\mathbb {P}}({A}\,|\, B)}\right) . $$
Weil die Odds schon selber ein Verhältnis sind, bezeichnet man das Odds-Ratio auch als Doppelverhältnis.
Beispiel:  Wirksamkeit eines Medikaments für zwei Patientengruppen
Wir schauen uns ein Medikament an und das Ereignis \(A = \) „Patient geheilt“ für die beiden Gruppen \(B = \) „Standardpatient“ und \(C = \) „Patient mit Zusatzerkrankungen“. Es seien
$$\begin{aligned} {\mathbb {P}}({A}\,|\, B) = 0{.}9 \, \text {bzw. \,} {\mathbb {P}}({A}\,|\, C) = 0{.}5. \end{aligned}$$
Für das relative Risiko gilt
$$ \text {RR}(A \mid B \text { vs. } C) = \frac{{\mathbb {P}}({A}\, |\, B)}{{\mathbb {P}}({A}\, |\, C)} = \frac{0{.}9}{0{.}5} = 1{.}8. $$
Die (bedingte) Wahrscheinlichkeit, geheilt zu werden, ist also bei Standardpatienten 1.8-mal so groß wie bei Patienten mit Zusatzerkrankungen.
Auf der Skala der Odds haben wir \({\text {odds}}\, ({A}\, |\, B) = 9\) und \({\text {odds}}\, ({A}\, |\, C) = 1\), was zu einem Odds-Ratio von
$$ {\text {OR}}({A}\, | \,{B}\, {\text {vs.}}\; {C}) = \frac{{\text {odds}}\, ({A}\, |\, B)}{{\text {odds}}\, ({A}\, |\, C)} = \frac{9}{1} = 9 $$
führt. Die Odds, geheilt zu werden, sind also bei den Standardpatienten 9-Mal so groß wie bei den Patienten mit Zusatzerkrankungen.
Bei all diesen Vergleichen ist es wichtig, dass diese im Alltag richtig interpretiert werden. Ein typischer Fehler besteht z. B. darin, das Odds-Ratio und das Risk-Ratio zu verwechseln. Die Interpretation ist für das Odds-Ratio zu Beginn sicher am schwierigsten. Wie wir später in Kap. 3 sehen werden, hat das Odds-Ratio diverse Vorteile und taucht später bei der logistischen Regression „ganz natürlich“ auf.
Die wichtigsten Merkregeln schreiben wir daher jetzt schon auf:
Intuition:  Merkregeln Odds-Ratio
Für das Odds-Ratio nützliche Merkregeln:
\({\text {OR}}({A}\, |\, {B}\, {\text {vs.}}\,{C}) = 1\)
Es gibt keinen Unterschied zwischen den Odds von A wenn man die Situationen B und C vergleicht (und damit ist auch die Wahrscheinlichkeit von A gleich).
\({\text {OR}}({A}\,| \,{B}\, {\text {vs.}}\,{C}) > 1\)
Die Odds von A sind in der Situation B erhöht verglichen mit C (und damit auch die Wahrscheinlichkeit von A).
\({\text {OR}}({A}\,| \,{B}\, {\text {vs.}}\,{C}) < 1\)
Die Odds von A sind in der Situation B reduziert verglichen mit C (und damit auch die Wahrscheinlichkeit von A).
 
Open Access Dieses Kapitel wird unter der Creative Commons Namensnennung 4.0 International Lizenz (http://​creativecommons.​org/​licenses/​by/​4.​0/​deed.​de) veröffentlicht, welche die Nutzung, Vervielfältigung, Bearbeitung, Verbreitung und Wiedergabe in jeglichem Medium und Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle ordnungsgemäß nennen, einen Link zur Creative Commons Lizenz beifügen und angeben, ob Änderungen vorgenommen wurden.
Die in diesem Kapitel enthaltenen Bilder und sonstiges Drittmaterial unterliegen ebenfalls der genannten Creative Commons Lizenz, sofern sich aus der Abbildungslegende nichts anderes ergibt. Sofern das betreffende Material nicht unter der genannten Creative Commons Lizenz steht und die betreffende Handlung nicht nach gesetzlichen Vorschriften erlaubt ist, ist für die oben aufgeführten Weiterverwendungen des Materials die Einwilligung des jeweiligen Rechteinhabers einzuholen.
download
DOWNLOAD
print
DRUCKEN
Fußnoten
1
Bei der Beschreibung eines Intervalls verwenden wir eine eckige Klammer, wenn der Endpunkt zum Intervall gehört und eine runde Klammer, wenn der Endpunkt nicht zum Intervall gehört.
 
Metadaten
Titel
Aspekte des Wahrscheinlichkeitsbegriffs
verfasst von
Markus Kalisch
Lukas Meier
Copyright-Jahr
2021
DOI
https://doi.org/10.1007/978-3-658-34225-8_2