nach oben

Erschienen in:

2015 | OriginalPaper | Buchkapitel

7. Clusteranalyse

verfasst von : Thomas Cleff

Erschienen in: Deskriptive Statistik und Explorative Datenanalyse

Verlag: Gabler Verlag

Einloggen

Aktivieren Sie unsere intelligente Suche, um passende Fachinhalte oder Patente zu finden.

search-config

KI-gestützte Suche

Aus

Zusammenfassung

Vor allem in den wirtschaftswissenschaftlichen Disziplinen basieren viele strategische Überlegungen auf der Existenz von unterschiedlichen (Kunden-)Gruppen innerhalb einer Gesamtpopulation. Dem Rat des Mephistopheles folgend – es wird nächstens schon besser gehen, Wenn ihr lernt alles reduzieren Und gehörig klassifizieren (Goethe 1949, S. 201) benötigen Theoretiker und Praktiker objektive und nachvollziehbare Verfahren zur Abgrenzung homogener Gruppen innerhalb einer Gesamtheit von Beobachtungen. Diverse Techniken der Clusteranalyse können diese homogenen Gruppierungen liefern. In diesem Kapitel werden die Hierarchische Clusteranalyse und die Clusterzentrenanalyse genauer erläutert. Neben der Beschreibung der Grundidee der beiden Techniken, werden Vor- und Nachteile bei der Verwendung unterschiedlicher Distanzmaße und Fusionierungsalgorithmen dargelegt. Insbesondere wird auf die Gütekriterien zur Bewertung von Lösungen mit unterschiedlicher Clusteranzahl Wert gelegt. Zum Abschluss wird gezeigt, wie sich die Clusteranalyse mit Hilfe von SPSS oder Stata berechnen lässt. Die Inhalte werden in Übungsaufgaben vertieft.

Sie haben noch keine Lizenz? Dann Informieren Sie sich jetzt über unsere Produkte:

Springer Professional "Wirtschaft+Technik"

Online-Abonnement

Mit Springer Professional "Wirtschaft+Technik" erhalten Sie Zugriff auf:

über 102.000 Bücher
über 537 Zeitschriften

aus folgenden Fachgebieten:

Automobil + Motoren
Bauwesen + Immobilien
Business IT + Informatik
Elektrotechnik + Elektronik
Energie + Nachhaltigkeit
Finance + Banking
Management + Führung
Marketing + Vertrieb
Maschinenbau + Werkstoffe
Versicherung + Risiko

Jetzt Wissensvorsprung sichern!

Jetzt informieren

Springer Professional "Wirtschaft"

Online-Abonnement

Mit Springer Professional "Wirtschaft" erhalten Sie Zugriff auf:

über 67.000 Bücher
über 340 Zeitschriften

aus folgenden Fachgebieten:

Bauwesen + Immobilien
Business IT + Informatik
Finance + Banking
Management + Führung
Marketing + Vertrieb
Versicherung + Risiko

Jetzt Wissensvorsprung sichern!

Jetzt informieren

Vorheriges Kapitel Zeitreihen- und Indexrechnung

Nächstes Kapitel Faktorenanalyse

Im Gegensatz hierzu werden bei Divisiven Verfahren alle Beobachtungen zunächst als ein Cluster aufgefasst. Dieses wird in einem ersten Schritt algorithmisch in zwei Gruppen aufgeteilt, in einem zweiten Schritt wird eine dieser Gruppen wieder in zwei einzelne Gruppen aufgeteilt, usw. Der entscheidende Nachteil Divisiver Verfahren ist die hohe Rechenkomplexität. Während bei agglomerativen Verfahren mit n Beobachtungen beim rechenintensivsten ersten Schritt insgesamt n(n − 1) / 2 Distanzmessungen durchgeführt werden müssen, sind es bei Divisiven Verfahren bei Bildung von zwei nicht leeren Gruppen insgesamt 2⁽ⁿ⁻¹⁾ − 1 mögliche Vergleichsrechnungen. Die hohe Zeit- und Rechenkomplexität Divisiver Hierarchischer Verfahren dürfte auch der Grund dafür sein, dass sie weder in der Literatur häufig ausführlich beschrieben werden, noch in den gängigen Statistikpaketen implementiert sind.

Der Leser mache sich deutlich, dass die Anwendung der Euklidischen Distanz auf den zweidimensionalen Fall der Formel des Satzes von Pythagoras entspricht.

Von jedem Wert einer Variablen wird der zugehörige Mittelwert \( \bar{\text{x}}\) abgezogen und dieser Wert durch die Standardabweichung S der Variablen geteilt: \( \text{z}_{\text{i}}=\frac{\text{x}_{\text{i}}-\bar{\text{x}}}{\text{S}}\).

Eine Zerlegung in drei Kalorienvariablen erfolgt beispielsweise wie folgt: Die Kalorienvariable 1 nimmt den Wert Eins an, wenn die Kalorienzahl eines Bieres im Intervall zwischen 60 und 99,99 Kalorien liegt. Die Kalorienvariable 2 nimmt den Wert Eins an, wenn die Kalorienzahl eines Bieres im Intervall zwischen 100 und 139,99 Kalorien liegt. Die Kalorienvariable 3 nimmt den Wert Eins an, wenn die Kalorienzahl eines Bieres im Intervall zwischen 140 und 200 Kalorien liegt. Alle sonstigen Werte sind gleich Null. Die Variable Kalorienzahl wird somit mit Hilfe von drei Variablen dichotomisiert.

Eine Besonderheit von Centroid-linkage- und Average-linkage-Verfahren ist die Tatsache, dass die Heterogenität nicht zwangsläufig mit jedem Fusionierungsschritt zunimmt.

Bei der Varianzanalyse werden die Clusterzugehörigkeit als unabhängiger Faktor und die bei der Clusteranalyse verwendeten n Dimensionen (Variablen) jeweils in n unterschiedlichen Varianzanalysen hintereinander als abhängige Variablen gewählt. In unserem Beispiel sind dies zwei Varianzanalysen mit den n = 2 abhängigen Variablen Kosten und Kalorien der Biere. Tatsächlich ergeben sich bei den beiden durchgeführten Varianzanalysen signifikante Unterschiede hinsichtlich der drei Gruppen: Gemäß der post-hoc Verfahren unterscheiden sich Premiumbiere preislich und die Light Biere in ihrem Kaloriengehalt signifikant von den restlichen Bieren. Scheffé und Tamhane Tests ergeben gleichermaßen diese Signifikanzunterschiede.

Der Centroid wird ermittelt, indem für alle Beobachtungen eines jeden Clusters getrennt der Mittelwert für jede Variable berechnet wird.

(−0,401 − (−0,401))² + (−1,353 − (−0,563))² = 0,79²: Distanz: 0,79.

(−0,571 − (−0,401))² + (0,486 − (−0,563))² = 0,65²: Distanz: 0,65.

In der deutschsprachigen SPSS Version ist die Befehlsfolge Analysieren → Klassifizieren → Hierarchische Cluster …

In der deutschsprachigen SPSS Version ist die Befehlsfolge Analysieren → Deskriptive Statistiken → Deskriptive Statistik …

In der deutschsprachigen SPSS Version heißt dieses Feld Standardisierte Werte als Variable speichern.

In der deutschsprachigen SPSS Version ist die Befehlsfolge Analysieren → Klassifizieren → K-Means Cluster …

Backhaus K, Erichson B, Plinke W, Weiber R (2011) Multivariate Analysemethoden. Eine Anwendungsorientierte Einführung, 13. Aufl. Springer, Berlin, Heidelberg

Berg S (1981) Optimalität bei Cluster-Analysen. Westfälische Wilhelms-Universität, Münster (Münster: Dissertation, Fachbereich Wirtschafts- und Sozialwissenschaften)

Bühl A (2012) Einführung in die moderne Datenanalyse unter Windows, 13. Aufl. SPSS 20. Pearson Studium, München

Everitt BS, Rabe-Hesketh S (2004) A Handbook of Statistical Analyses Using Stata, 3. Aufl. Chapman & Hall, Boca RatonMATH

Goethe JW (1949) Faust. Eine Tragödie. In: Beutler E (Hrsg) Gedenkausgabe der Werke, Briefe und Gespräche, Bd. 5. Artemis, Zürich, S 140–526

Janssens W, Wijnen K, de Pelsmacker P, van Kenvove P (2008) Marketing Research with. Pearson Education, Esse

Kaufman L, Rousseeuw PJ (1990) Finding Groups in Data. Wiley, New York

Mooi E, Sarstedt M (2011) A Concise Guide to Market Research. The Process, Data, and Methods Using IBM SPSS Statistics. Springer, Berlin und Heidelberg

Ward JH Jr. (1963) Hierarchical grouping to optimize an objective function. Journal of the American Statistical Association 58:236–244CrossRefMathSciNet

Titel: Clusteranalyse
verfasst von: Thomas Cleff
Verlag: Gabler Verlag
Buch: Deskriptive Statistik und Explorative Datenanalyse
Print ISBN: 978-3-8349-4747-5

Electronic ISBN: 978-3-8349-4748-2

Copyright-Jahr: 2015
DOI: https://doi.org/10.1007/978-3-8349-4748-2_7