Skip to main content
main-content

Tipp

Weitere Kapitel dieses Buchs durch Wischen aufrufen

2021 | OriginalPaper | Buchkapitel

8. Clusteranalyse

verfasst von : Klaus Backhaus, Bernd Erichson, Sonja Gensler, Rolf Weiber, Thomas Weiber

Erschienen in: Multivariate Analysemethoden

Verlag: Springer Fachmedien Wiesbaden

share
TEILEN

Zusammenfassung

Die Clusteranalyse ist ein Verfahren zur Gruppierung von Fällen (Untersuchungsobjekten) in einem Datensatz. Zu diesem Zweck muss im ersten Schritt die Ähnlichkeit bzw. Unähnlichkeit (Distanz) zwischen den Fällen über ein geeignetes Maß festgestellt werden. Im zweiten Schritt ist der Fusionierungsalgorithmus zu bestimmen, mit dessen Hilfe die einzelnen Fälle sukzessive zu Gruppen (Cluster) zusammengefasst werden. Ziel ist es dabei, solche Untersuchungsobjekte zu Gruppen (Cluster) zusammenzufassen, die im Hinblick auf die betrachteten Eigenschaften oder Merkmale der Untersuchungsobjekte als möglichst homogen zu bezeichnen sind. Gleichzeitig sollten die Gruppen untereinander eine möglichst große Heterogenität aufweisen, d. h. möglichst unähnlich sein. Die Verfahren der Clusteranalyse können dabei sowohl Variablen mit metrischem, nicht-metrischem als auch gemischtem Skalenniveau verarbeiten. Den Schwerpunkt des Kapitels bilden die hierarchisch-agglomerativen Clusterverfahren, wobei vor allem das Single Linkage-Verfahren und das Ward-Verfahren im Detail vorgestellt werden. Abschließend werden mit der K-Means-Clusteranalyse und der Two-Step-Clusteranalyse auch zwei partitionierende Clusterverfahren behandelt, die vor allem bei großen Datenmengen deutliche Vorteile gegenüber den hierarchischen Clusterverfahren bieten.
Fußnoten
1
Die Abbildung lässt leicht erkennen, dass die beiden Merkmale „Einkommen“ und „Alter“ nicht unabhängig sind. Das bedeutet, dass die erzielte Zwei-Clusterlösung auch allein auf Basis nur eines der beiden Merkmale hätte erzielt werden können. Vgl. zum Unabhängigkeit von Clustervariablen die Ausführungen in Abschn. 8.2.1.
 
2
Vgl. zur Standardisierung von Variablen die Ausführungen zu den statistischen Grundlagen in Abschn. 1.​2.​1.
 
3
Vgl. zur Analyse von Ausreißern auch die Ausführungen zu den statistischen Grundlagen in Abschn. 1.​5.​1 sowie die Darstellungen zum Single Linkage-Verfahren in Abschn. 8.2.3.2, das in besonderer Weise zur Identifikation von Ausreißern in Clusteranalysen geeignet ist.
 
4
Die Auswahl der in Tab. 8.4 aufgezeigten Proximitätsmaße orientierte sich an den auch in der SPSS-Prozedur „Hierarchische Clusteranalyse“ bereitgestellten Maßen.
 
5
Auf der zu diesem Buch gehörigen Internetseite www.​multivariate.​de stellen wir ergänzendes Material zur Verfügung, um das Verstehen der Methode zu erleichtern und zu vertiefen.
 
6
Zur Vereinfachung der folgenden Berechnungen wurden nur ganzzahlige Werte in die Ausgangsdatenmatrix aufgenommen.
 
7
Vgl. zur Standardisierung von Variablen die Ausführungen zu den statistischen Grundlagen in Abschn. 1.​2.​1.
 
8
Eine ausführliche Darstellung zur Berechnung des Korrelationskoeffizienten findet der Leser in Abschn. 1.​2.​2.
 
9
Aufgrund ihrer für die Praxis eher geringen Bedeutung werden die divisiven Verfahren hier nicht weiter betrachtet. Allerdings stehen in SPSS mit dem Klassifizierungsbaum (Menüfolge: Analysieren/Klassifizieren/Baum) divisive Clusteralgorithmen zur Verfügung.
 
10
Der konkrete Ablauf eines Fusionierungsprozesses wird i. d. R. anhand einer Tabelle (sog. Zuordnungsübersicht) und auch grafisch mittels Dendrogramm oder Eiszapfendiagramm verdeutlicht. Beide Möglichkeiten werden für das Single Linkage-Verfahren in Abschn. 8.2.3.2.1 ausführlich erläutert.
 
11
Für das erweiterte Anwendungsbeispiel wurden die Dendrogramme mit Hilfe der Prozedur CLUSTER in SPSS erzeugt. Vgl. hierzu die Darstellungen in Abschn. 8.3.2.
 
12
Auch die Zuordnungsübersicht wurde mit Hilfe der Prozedur CLUSTER in SPSS erzeugt.
 
13
Da in SPSS bisher keine Kriterien zur Bestimmung der optimalen Clusterzahl verfügbar sind, wird empfohlen ggf. auf alternative Programme wie S-Plus, R oder SAS und das hier verfügbare Cubic Clustering Criterion (CCC) zurückzugreifen.
 
14
Zur Auffrischung der Grundlagen zum statistischen Testen bietet Abschn. 1.​3 eine Zusammenfassung der grundlegenden Aspekte.
 
15
Neben der KM-CA kann auch die Two-Step Clusteranalyse zur Optimierung einer gefundenen Clusterlösung herangezogen werden. Beide Verfahren zählen zu den partitionierenden Clustermethoden und werden in Abschn. 8.4.2 genauer dargestellt.
 
16
Vgl. zur Ausreißer-Problematik auch die Ausführungen zu den Grundlagen empirischer Analysen in Abschn. 1.​5.​1.
 
17
Vertiefende Betrachtungen zur Robustheit von Clusteranalysen findet der Leser z. B. in dem Beitrag von García-Escudero et al. (2010, S. 89).
 
18
Zur Auffrischung der Grundlagen zum statistischen Testen bietet Abschn. 1.​3 eine Zusammenfassung der grundlegenden Aspekte.
 
19
Auf der Internetseite www.​multivariate.​de wird ergänzendes Material (z. B. Excel-Dateien) zur Verfügung gestellt, mit dessen Hilfe der Leser sein Verständnis zur Clusteranalyse vertiefen kann.
 
20
Fehlende Werte sind ein häufiges und leider unvermeidbares Problem bei empirischen Erhebungen (z. B. weil Personen nicht antworten konnten oder wollten). Der Umgang mit fehlenden Werten in empirischen Studien wird in Abschn. 1.​5.​2 diskutiert.
 
21
Die Mittelwerte wurden auf der Grundlage des Datensatzes berechnet, der auch im Fallbeispiel der Diskriminanzanalyse (Kap. 4), der Logistischen Regression (Kap. 5) und der Faktorenanalyse (Kap. 7) verwendet wurde. Die Gemeinsamkeiten und Unterschiede zwischen den Methoden können durch das gemeinsame Fallbeispiel besser veranschaulicht werden.
 
22
Die multinomiale logistische Regression erfordert mindestens drei Gruppen. Im Falle der Zwei-Cluster-Lösung müsste hingegen eine binäre logistische Regression durchgeführt werden.
 
Literatur
Zurück zum Zitat Bergs, S. (1981). Optimalität bei Custer-Analysen. Münster: Diss. Bergs, S. (1981). Optimalität bei Custer-Analysen. Münster: Diss.
Zurück zum Zitat Calinski, T., & Harabasz, J. (1974). A dendrite method for cluster analysis. Communications in statistics – Theory and methods, 3(1), 1–27. Calinski, T., & Harabasz, J. (1974). A dendrite method for cluster analysis. Communications in statistics – Theory and methods, 3(1), 1–27.
Zurück zum Zitat García-Escudero, L., Gordaliza, A., Matrán, C., & Mayo-Iscar, A. (2010). A review of robust clustering methods. Advances in Data Analysis and Classification, 4(2–3), 89–109. CrossRef García-Escudero, L., Gordaliza, A., Matrán, C., & Mayo-Iscar, A. (2010). A review of robust clustering methods. Advances in Data Analysis and Classification, 4(2–3), 89–109. CrossRef
Zurück zum Zitat Kaufman, L., & Rousseeuw, P. (2005). Finding groups in data: an introduction to cluster analysis. New Jersey: John Wiley & Sons. Kaufman, L., & Rousseeuw, P. (2005). Finding groups in data: an introduction to cluster analysis. New Jersey: John Wiley & Sons.
Zurück zum Zitat Kline, R. (2011). Principles and practice of structural equation modeling (3. Aufl.). New York: Guilford Press. Kline, R. (2011). Principles and practice of structural equation modeling (3. Aufl.). New York: Guilford Press.
Zurück zum Zitat Lance, G. H., & Williams, W. T. (1966). A general theory of classification sorting strategies i hierarchical systems. The Computer Journal, 9(4), 373–380. Lance, G. H., & Williams, W. T. (1966). A general theory of classification sorting strategies i hierarchical systems. The Computer Journal, 9(4), 373–380.
Zurück zum Zitat Milligan, G. W. (1980). An examination of the effect of six types of error pertubation on fifteen clustering algorithms. Psychometrika, 45(3), 325–342. Milligan, G. W. (1980). An examination of the effect of six types of error pertubation on fifteen clustering algorithms. Psychometrika, 45(3), 325–342.
Zurück zum Zitat Milligan, G. W., & Cooper, M. (1985). An examination of procedures for determining the number of clusters in a data set. Psychometrika, 50(2), 159–179. Milligan, G. W., & Cooper, M. (1985). An examination of procedures for determining the number of clusters in a data set. Psychometrika, 50(2), 159–179.
Zurück zum Zitat Mojena, R. (1977). Hierarchical clustering methods and stopping rules: An evaluation. The Computer Journal, 20(4), 359–363. CrossRef Mojena, R. (1977). Hierarchical clustering methods and stopping rules: An evaluation. The Computer Journal, 20(4), 359–363. CrossRef
Zurück zum Zitat Punj, G., & Stewart, D. (1983). Cluster analysis in marketing research: Review and suggestions for application. Journal of Marketing Research, 20(2), 134–148. CrossRef Punj, G., & Stewart, D. (1983). Cluster analysis in marketing research: Review and suggestions for application. Journal of Marketing Research, 20(2), 134–148. CrossRef
Zurück zum Zitat Steinhausen, D., & Langer, K. (1977). Clusteranalyse. Berlin: de Gruyter. CrossRef Steinhausen, D., & Langer, K. (1977). Clusteranalyse. Berlin: de Gruyter. CrossRef
Zurück zum Zitat Wedel, M., & Kamakura, W. A. (2000). Market segmentation: Conceptual and methodological foundations (2. Aufl.). New York: Springer. CrossRef Wedel, M., & Kamakura, W. A. (2000). Market segmentation: Conceptual and methodological foundations (2. Aufl.). New York: Springer. CrossRef
Zurück zum Zitat Wind, Y. (1978). Issues and advances in segmentation research. Journal of Marketing Research, 15(3), 317–337. CrossRef Wind, Y. (1978). Issues and advances in segmentation research. Journal of Marketing Research, 15(3), 317–337. CrossRef
Zurück zum Zitat Anderberg, M. R. (2014). Cluster analysis for applications: Probability and mathematical statistics: A series of monographs and textbooks (19. Aufl.). New York: Academic press. Anderberg, M. R. (2014). Cluster analysis for applications: Probability and mathematical statistics: A series of monographs and textbooks (19. Aufl.). New York: Academic press.
Zurück zum Zitat Eisen, M. B., Spellman, P. T., Brown, P. O., & Botstein, D. (1998). Cluster analysis and display of genome-wide expression patterns. Proceedings of the National Academy of Sciences, 95(25), 14863–14868. CrossRef Eisen, M. B., Spellman, P. T., Brown, P. O., & Botstein, D. (1998). Cluster analysis and display of genome-wide expression patterns. Proceedings of the National Academy of Sciences, 95(25), 14863–14868. CrossRef
Zurück zum Zitat Everitt, B., Landau, S., Leese, M., & Stahl, D. (2011). Cluster analysis (5. Aufl.). New York: Wiley. CrossRef Everitt, B., Landau, S., Leese, M., & Stahl, D. (2011). Cluster analysis (5. Aufl.). New York: Wiley. CrossRef
Zurück zum Zitat Hennig, C., Meila, M., Murtagh, F., & Rocci, R. (Hrsg.). (2015). Handbook of cluster analysis. London: Chapman & Hall/CRC. Hennig, C., Meila, M., Murtagh, F., & Rocci, R. (Hrsg.). (2015). Handbook of cluster analysis. London: Chapman & Hall/CRC.
Zurück zum Zitat Romesberg, C. (2004). Cluster analysis for researchers. Lulu.com. Romesberg, C. (2004). Cluster analysis for researchers. Lulu.com.
Zurück zum Zitat Wierzchoń, S., & Kłopotek, M. (2018). Modern algorithms of cluster analysis. Berlin: Springer Nature. CrossRef Wierzchoń, S., & Kłopotek, M. (2018). Modern algorithms of cluster analysis. Berlin: Springer Nature. CrossRef
Metadaten
Titel
Clusteranalyse
verfasst von
Klaus Backhaus
Bernd Erichson
Sonja Gensler
Rolf Weiber
Thomas Weiber
Copyright-Jahr
2021
DOI
https://doi.org/10.1007/978-3-658-32425-4_8