Top

Published in:

2019 | OriginalPaper | Chapter

22. Fallstudie: Kreditwürdigkeit mit caret

Author : Sebastian Sauer

Published in: Moderne Datenanalyse mit R

Publisher: Springer Fachmedien Wiesbaden

Activate our intelligent search to find suitable subject content or patents.

search-config

AI-assisted search

Off

Zusammenfassung

In dieser Fallstudie wird ein beliebtes Szenario für prädiktive Modellierung und für baumbasierte Verfahren vorgestellt. Die Leitfrage lautet: Anhand welcher personenbezogener Variablen kann man vorhersagen, ob ein Kunde einen Kredit zurückzahlen wird oder nicht? Im Rahmen dieser Fallstudie wird das R-Paket caret verwendet, welches eine einheitliche Syntax für eine Vielzahl prädiktiver Modelle bietet (die Syntax ist vergleichbar mit der von mosaic). Die Fallstudie bearbeitet die wichtigsten Stufen einer solchen Analyse: vom Daten aufbereiten, über Modelle anpassen und vergleichen weiter zur Kreuzvalidierung bis hin zur Bestimmung der Prädiktorenrelevanz.

Dont have a licence yet? Then find out more about our products and how to get one now:

Springer Professional "Wirtschaft+Technik"

Online-Abonnement

Mit Springer Professional "Wirtschaft+Technik" erhalten Sie Zugriff auf:

über 102.000 Bücher
über 537 Zeitschriften

aus folgenden Fachgebieten:

Automobil + Motoren
Bauwesen + Immobilien
Business IT + Informatik
Elektrotechnik + Elektronik
Energie + Nachhaltigkeit
Finance + Banking
Management + Führung
Marketing + Vertrieb
Maschinenbau + Werkstoffe
Versicherung + Risiko

Jetzt Wissensvorsprung sichern!

inform now

Springer Professional "Technik"

Online-Abonnement

Mit Springer Professional "Technik" erhalten Sie Zugriff auf:

über 67.000 Bücher
über 390 Zeitschriften

aus folgenden Fachgebieten:

Automobil + Motoren
Bauwesen + Immobilien
Business IT + Informatik
Elektrotechnik + Elektronik
Energie + Nachhaltigkeit
Maschinenbau + Werkstoffe

Jetzt Wissensvorsprung sichern!

inform now

Springer Professional "Wirtschaft"

Online-Abonnement

Mit Springer Professional "Wirtschaft" erhalten Sie Zugriff auf:

über 67.000 Bücher
über 340 Zeitschriften

aus folgenden Fachgebieten:

Bauwesen + Immobilien
Business IT + Informatik
Finance + Banking
Management + Führung
Marketing + Vertrieb
Versicherung + Risiko

Jetzt Wissensvorsprung sichern!

inform now

previous chapter Baumbasierte Verfahren

next chapter Clusteranalyse

Allerdings ist Multikollinearität für Vorhersagemodelle, wo es darum geht, einen Wert möglichst exakt vorherzusagen, weniger ein Problem als für Erklärungsmodelle, wo es darum geht, die Art und Stärke des Einfluss von Prädiktoren zu ermitteln (vgl. Hyndman (2014), Punkt 3).

https://cran.r-project.org/web/views/HighPerformanceComputing.html.

anyNA() bietet dazu einen Weg.

skimr(meine_tabelle).

count(GermanCredit, Class).

http://appliedpredictivemodeling.com/blog/2014/11/27/vpuig01pqbklmi72b8lcl3ij5hj2qm.

https://topepo.github.io/caret/available-models.html.

https://topepo.github.io/caret/index.html.

train %>% select(-name_der_variable) -> train.

attr(train, ″high corr checked″) <- TRUE.

Ja.

expand.grid(sex = c(″w″, ″m″, ″x″), age = c(″jj″, ″j″, ″m″, ″a″, ″aa″)).

$3\cdot 5=15$.

Es ist eine Liste.

Ja.

Möchte man herausfinden, welche Tuningparameter ein Modell hat, so kann man die Funktion caret::modelLookup(″svmRadial″) verwenden; man übergibt der Funktion den Namen des Modells.

cm_svm2 <- confusionMatrix(data = svm_pred2, reference = test$Class).

Nein, die Gefahr, Zufallsrauschen überzubewerten, ist zu groß. Das Test-Sample sollte nur einmal verwendet werden. Das Modell ist immer an anderen Daten zu berechnen als zu testen.

modelLookup(″model_name″).

Z. B. kann man in dieser Tabelle suchen: https://topepo.github.io/caret/available-models.html.

$4\cdot 5=20$.

Ja.

str(svm_fit1$results).

Die besten Likelihood-Werte werden bestimmt durch bestimmte mathematische Verfahren wie Ableiten und Nullsetzen der Ableitung oder durch Ausprobieren.

Z. B. so attr(x = train$Class, which = ″levels″)[1]; mit str(train$Class) bekommt man die Information in ähnlicher Form. Schließlich kann man auch levels(test$Class) verwenden.

Mit count(train, Class) bekommt man die absoluten Häufigkeiten; die Anteile bekommt man einfach mit mosaic::tally(~Class, data = train, format = ″proportion″).

glm1 <- glm(Class ~ Amount + Age + Duration, family = ″binomial″, data = train).

Nein, die erste Faktorstufe wird als null verstanden; bei test$Class ist das Bad. Die zweite Faktorstufe ist das zu modellierende Ereignis; hier ist das Good.

Mit debug(compare_accuracies) kann man eine Funktion debuggen, d. h. auf Fehler prüfen.

test %>% summarise_all(is_binary) %>% gather %>% filter(value == TRUE) -> test_binaries.

test %>% select(one_of(test_binaries$key)).

https://topepo.github.io/caret/variable-importance.html.

Title: Fallstudie: Kreditwürdigkeit mit caret
Author: Sebastian Sauer
Publisher: Springer Fachmedien Wiesbaden
Book: Moderne Datenanalyse mit R
Print ISBN: 978-3-658-21586-6

Electronic ISBN: 978-3-658-21587-3

Copyright Year: 2019
DOI: https://doi.org/10.1007/978-3-658-21587-3_22

Springer Professional

Zusammenfassung

Please log in to get access to your license.

Dont have a licence yet? Then find out more about our products and how to get one now:

Springer Professional "Wirtschaft+Technik"

Springer Professional "Technik"

Springer Professional "Wirtschaft"