Skip to main content

2015 | OriginalPaper | Buchkapitel

7. Clusteranalyse

verfasst von : Thomas Cleff

Erschienen in: Deskriptive Statistik und Explorative Datenanalyse

Verlag: Gabler Verlag

Aktivieren Sie unsere intelligente Suche, um passende Fachinhalte oder Patente zu finden.

search-config
loading …

Zusammenfassung

Vor allem in den wirtschaftswissenschaftlichen Disziplinen basieren viele strategische Überlegungen auf der Existenz von unterschiedlichen (Kunden-)Gruppen innerhalb einer Gesamtpopulation. Dem Rat des Mephistopheles folgend – es wird nächstens schon besser gehen, Wenn ihr lernt alles reduzieren Und gehörig klassifizieren (Goethe 1949, S. 201) benötigen Theoretiker und Praktiker objektive und nachvollziehbare Verfahren zur Abgrenzung homogener Gruppen innerhalb einer Gesamtheit von Beobachtungen. Diverse Techniken der Clusteranalyse können diese homogenen Gruppierungen liefern. In diesem Kapitel werden die Hierarchische Clusteranalyse und die Clusterzentrenanalyse genauer erläutert. Neben der Beschreibung der Grundidee der beiden Techniken, werden Vor- und Nachteile bei der Verwendung unterschiedlicher Distanzmaße und Fusionierungsalgorithmen dargelegt. Insbesondere wird auf die Gütekriterien zur Bewertung von Lösungen mit unterschiedlicher Clusteranzahl Wert gelegt. Zum Abschluss wird gezeigt, wie sich die Clusteranalyse mit Hilfe von SPSS oder Stata berechnen lässt. Die Inhalte werden in Übungsaufgaben vertieft.

Sie haben noch keine Lizenz? Dann Informieren Sie sich jetzt über unsere Produkte:

Springer Professional "Wirtschaft+Technik"

Online-Abonnement

Mit Springer Professional "Wirtschaft+Technik" erhalten Sie Zugriff auf:

  • über 102.000 Bücher
  • über 537 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Maschinenbau + Werkstoffe
  • Versicherung + Risiko

Jetzt Wissensvorsprung sichern!

Springer Professional "Wirtschaft"

Online-Abonnement

Mit Springer Professional "Wirtschaft" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 340 Zeitschriften

aus folgenden Fachgebieten:

  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Versicherung + Risiko




Jetzt Wissensvorsprung sichern!

Fußnoten
1
Im Gegensatz hierzu werden bei Divisiven Verfahren alle Beobachtungen zunächst als ein Cluster aufgefasst. Dieses wird in einem ersten Schritt algorithmisch in zwei Gruppen aufgeteilt, in einem zweiten Schritt wird eine dieser Gruppen wieder in zwei einzelne Gruppen aufgeteilt, usw. Der entscheidende Nachteil Divisiver Verfahren ist die hohe Rechenkomplexität. Während bei agglomerativen Verfahren mit n Beobachtungen beim rechenintensivsten ersten Schritt insgesamt n(n − 1) / 2 Distanzmessungen durchgeführt werden müssen, sind es bei Divisiven Verfahren bei Bildung von zwei nicht leeren Gruppen insgesamt 2(n−1) − 1 mögliche Vergleichsrechnungen. Die hohe Zeit- und Rechenkomplexität Divisiver Hierarchischer Verfahren dürfte auch der Grund dafür sein, dass sie weder in der Literatur häufig ausführlich beschrieben werden, noch in den gängigen Statistikpaketen implementiert sind.
 
2
Der Leser mache sich deutlich, dass die Anwendung der Euklidischen Distanz auf den zweidimensionalen Fall der Formel des Satzes von Pythagoras entspricht.
 
3
Von jedem Wert einer Variablen wird der zugehörige Mittelwert \( \bar{\text{x}}\) abgezogen und dieser Wert durch die Standardabweichung S der Variablen geteilt: \( \text{z}_{\text{i}}=\frac{\text{x}_{\text{i}}-\bar{\text{x}}}{\text{S}}\).
 
4
Eine Zerlegung in drei Kalorienvariablen erfolgt beispielsweise wie folgt: Die Kalorienvariable 1 nimmt den Wert Eins an, wenn die Kalorienzahl eines Bieres im Intervall zwischen 60 und 99,99 Kalorien liegt. Die Kalorienvariable 2 nimmt den Wert Eins an, wenn die Kalorienzahl eines Bieres im Intervall zwischen 100 und 139,99 Kalorien liegt. Die Kalorienvariable 3 nimmt den Wert Eins an, wenn die Kalorienzahl eines Bieres im Intervall zwischen 140 und 200 Kalorien liegt. Alle sonstigen Werte sind gleich Null. Die Variable Kalorienzahl wird somit mit Hilfe von drei Variablen dichotomisiert.
 
5
Eine Besonderheit von Centroid-linkage- und Average-linkage-Verfahren ist die Tatsache, dass die Heterogenität nicht zwangsläufig mit jedem Fusionierungsschritt zunimmt.
 
6
Bei der Varianzanalyse werden die Clusterzugehörigkeit als unabhängiger Faktor und die bei der Clusteranalyse verwendeten n Dimensionen (Variablen) jeweils in n unterschiedlichen Varianzanalysen hintereinander als abhängige Variablen gewählt. In unserem Beispiel sind dies zwei Varianzanalysen mit den n = 2 abhängigen Variablen Kosten und Kalorien der Biere. Tatsächlich ergeben sich bei den beiden durchgeführten Varianzanalysen signifikante Unterschiede hinsichtlich der drei Gruppen: Gemäß der post-hoc Verfahren unterscheiden sich Premiumbiere preislich und die Light Biere in ihrem Kaloriengehalt signifikant von den restlichen Bieren. Scheffé und Tamhane Tests ergeben gleichermaßen diese Signifikanzunterschiede.
 
7
Der Centroid wird ermittelt, indem für alle Beobachtungen eines jeden Clusters getrennt der Mittelwert für jede Variable berechnet wird.
 
8
(−0,401 − (−0,401))2 + (−1,353 − (−0,563))2 = 0,792: Distanz: 0,79.
 
9
(−0,571 − (−0,401))2 + (0,486 − (−0,563))2 = 0,652: Distanz: 0,65.
 
10
In der deutschsprachigen SPSS Version ist die Befehlsfolge Analysieren → Klassifizieren → Hierarchische Cluster …
 
11
In der deutschsprachigen SPSS Version ist die Befehlsfolge Analysieren → Deskriptive Statistiken → Deskriptive Statistik …
 
12
In der deutschsprachigen SPSS Version heißt dieses Feld Standardisierte Werte als Variable speichern.
 
13
In der deutschsprachigen SPSS Version ist die Befehlsfolge Analysieren → Klassifizieren → K-Means Cluster …
 
Literatur
Zurück zum Zitat Backhaus K, Erichson B, Plinke W, Weiber R (2011) Multivariate Analysemethoden. Eine Anwendungsorientierte Einführung, 13. Aufl. Springer, Berlin, Heidelberg Backhaus K, Erichson B, Plinke W, Weiber R (2011) Multivariate Analysemethoden. Eine Anwendungsorientierte Einführung, 13. Aufl. Springer, Berlin, Heidelberg
Zurück zum Zitat Berg S (1981) Optimalität bei Cluster-Analysen. Westfälische Wilhelms-Universität, Münster (Münster: Dissertation, Fachbereich Wirtschafts- und Sozialwissenschaften) Berg S (1981) Optimalität bei Cluster-Analysen. Westfälische Wilhelms-Universität, Münster (Münster: Dissertation, Fachbereich Wirtschafts- und Sozialwissenschaften)
Zurück zum Zitat Bühl A (2012) Einführung in die moderne Datenanalyse unter Windows, 13. Aufl. SPSS 20. Pearson Studium, München Bühl A (2012) Einführung in die moderne Datenanalyse unter Windows, 13. Aufl. SPSS 20. Pearson Studium, München
Zurück zum Zitat Everitt BS, Rabe-Hesketh S (2004) A Handbook of Statistical Analyses Using Stata, 3. Aufl. Chapman & Hall, Boca RatonMATH Everitt BS, Rabe-Hesketh S (2004) A Handbook of Statistical Analyses Using Stata, 3. Aufl. Chapman & Hall, Boca RatonMATH
Zurück zum Zitat Goethe JW (1949) Faust. Eine Tragödie. In: Beutler E (Hrsg) Gedenkausgabe der Werke, Briefe und Gespräche, Bd. 5. Artemis, Zürich, S 140–526 Goethe JW (1949) Faust. Eine Tragödie. In: Beutler E (Hrsg) Gedenkausgabe der Werke, Briefe und Gespräche, Bd. 5. Artemis, Zürich, S 140–526
Zurück zum Zitat Janssens W, Wijnen K, de Pelsmacker P, van Kenvove P (2008) Marketing Research with. Pearson Education, Esse Janssens W, Wijnen K, de Pelsmacker P, van Kenvove P (2008) Marketing Research with. Pearson Education, Esse
Zurück zum Zitat Kaufman L, Rousseeuw PJ (1990) Finding Groups in Data. Wiley, New York Kaufman L, Rousseeuw PJ (1990) Finding Groups in Data. Wiley, New York
Zurück zum Zitat Mooi E, Sarstedt M (2011) A Concise Guide to Market Research. The Process, Data, and Methods Using IBM SPSS Statistics. Springer, Berlin und Heidelberg Mooi E, Sarstedt M (2011) A Concise Guide to Market Research. The Process, Data, and Methods Using IBM SPSS Statistics. Springer, Berlin und Heidelberg
Zurück zum Zitat Ward JH Jr. (1963) Hierarchical grouping to optimize an objective function. Journal of the American Statistical Association 58:236–244CrossRefMathSciNet Ward JH Jr. (1963) Hierarchical grouping to optimize an objective function. Journal of the American Statistical Association 58:236–244CrossRefMathSciNet
Metadaten
Titel
Clusteranalyse
verfasst von
Thomas Cleff
Copyright-Jahr
2015
Verlag
Gabler Verlag
DOI
https://doi.org/10.1007/978-3-8349-4748-2_7