Skip to main content
Top

2020 | OriginalPaper | Chapter

Clusteranalysen

Author : Pascal D. König

Published in: Handbuch Methoden der Politikwissenschaft

Publisher: Springer Fachmedien Wiesbaden

Activate our intelligent search to find suitable subject content or patents.

search-config
loading …

Zusammenfassung

Das Kapitel gibt einen Überblick über wichtige generelle Schritte und Entscheidungen bei der Durchführung von Clusteranalysen und stellt drei zentrale Varianten vor: (1) die hierarchisch-agglomerative Clusteranalyse, (2) das K-Means-Verfahren und (3) die modellbasierte Gruppenbildung auf Basis angenommener Wahrscheinlichkeitsverteilungen. Im Zuge der Beschreibung der grundlegenden Funktionsweise dieser Verfahren wird auch auf Umsetzungsbeispiele in der politikwissenschaftlichen Forschung sowie auf verfügbare Softwarelösungen verwiesen. Außerdem verdeutlicht die Anwendung der Verfahren auf Beispieldaten, wie die behandelten Verfahren Strukturen in Daten auffinden, wie die Ergebnisse zu interpretieren sind und inwieweit die Varianten im direkten Vergleich zu ähnlichen Ergebnissen gelangen.

Dont have a licence yet? Then find out more about our products and how to get one now:

Springer Professional "Wirtschaft+Technik"

Online-Abonnement

Mit Springer Professional "Wirtschaft+Technik" erhalten Sie Zugriff auf:

  • über 102.000 Bücher
  • über 537 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Maschinenbau + Werkstoffe
  • Versicherung + Risiko

Jetzt Wissensvorsprung sichern!

Springer Professional "Wirtschaft"

Online-Abonnement

Mit Springer Professional "Wirtschaft" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 340 Zeitschriften

aus folgenden Fachgebieten:

  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Versicherung + Risiko




Jetzt Wissensvorsprung sichern!

Footnotes
1
Die Clusteranalyse kann zwar auch zu konfirmatorischen Zwecken eingesetzt werden. Konfirmatorischen Analysen im engeren Sinn steht jedoch der Umstand entgegen, dass gängige Verfahren der Clusteranalyse keine statistischen Hypothesentests beinhalten, anhand welcher der Grad der Entsprechung zu einer bestimmten Clusterstruktur bewertet werden könnte (Wiedenbeck und Züll 2010, S. 525). Hierzu muss man sich mit speziellen Teststatistiken zum Vergleich zwischen Clusterlösungen oder der Bootstrapping-Technik behelfen (Bacher et al. 2010, S. 245–246; Huang et al. 2016).
 
2
Daneben gibt es spezielle Verfahren, die Variablen unterschiedliche Gewichte, gegebenenfalls auch gar kein Gewicht, zuweisen und darüber ihren Einfluss auf die Clusterbildung variieren (Everitt et al. 2011, S. 66; De Amorim 2012; Steinley und Brusco 2008). Allerdings gibt es für dieses sogenannte feature weighting keine feststehende beste Lösung, und indem man die Auswahl der relevanten Variablen rein dem Verfahren zur Optimierung eines bestimmten Kriteriums überlässt, entfernt man sich weit von einer theoretisch informierten und angeleiteten Analyse.
 
3
Hierbei sollte berücksichtigt werden, dass sehr unterschiedliche Methoden, die für die Aufdeckung merklich verschiedenartiger Strukturen geeignet sind, folglich auch eher unterschiedliche Ergebnisse liefern. Die Ergebnisse für solche unterschiedlichen Methoden untereinander abzugleichen, ist dann wenig sinnvoll für die Bewertung der Güte einer bestimmten Clusterzahl (Hennig 2016, S. 727).
 
4
Dabei können Ähnlichkeitsdaten sogar direkt in die Analyse eingehen. Eine Datenmatrix, die Fälle und Variablen enthält, ist also nicht erforderlich.
 
5
Sie können dabei auf die Lance-Williams-Formel zurückgeführt werden, nach der es nicht nötig ist, die Abstände zwischen den Clustern nach jedem Fusionierungsschritt erneut zu berechnen. Stattdessen kann die Information der vorherigen Ähnlichkeiten sowie dazu, welche Cluster miteinander verschmolzen wurden, genutzt werden (Backhaus et al. 2016, S. 459–460; Everitt et al. 2011, S. 78–80.
 
6
Ein weiteres Verfahren, das auf eine Visualisierung der Datenbasis und Gruppenstruktur hinausläuft, besteht darin, zunächst eine Dimensionsreduktion über die verwendeten Variablen durchzuführen (üblicherweise über eine Hauptkomponentenanalyse) und die ersten beiden extrahierten Dimensionen (Komponenten) für eine zweidimensionale räumliche Darstellung der Objekte zu nutzen. Diese Abfolge von Schritten führt das R-Paket clusplot auf einen Schlag durch.
 
7
Die beiden Merkmale basieren auf einer Hauptkomponentenanalyse, in die zum einen Items zum Vertrauen in politische Institutionen sowie zum anderen die Positionen von Personen auf einer sozioökonomischen und einer libertär-autoritären Dimension eingegangen sind. Dies hat den Zweck, feinere Abstufungen auf den so gebildeten Variablen zu erhalten, was insbesondere für die Visualisierung weiter unten von Bedeutung ist.
 
8
Ähnliche Aussagen lassen sich zudem anhand von Stripes Plots treffen, die für jedes Cluster visuell Auskunft über die einzelnen Objekte eines Clusters geben, wie eindeutig diese dem Cluster im Vergleich zum zweitnächsten Cluster zugeordnet werden (Everitt et al. 2011).
 
9
Einen ähnlichen Informationswert wie die Silhouetten-Koeffizienten haben die Shadow Values (Everitt et al. 2011, S. 274), aus denen sich ebenfalls ein Indexwert für die Clustertrennung errechnen lässt.
 
10
Allerdings ist die Bezeichnung K-Means selbst wiederum nicht einheitlich, und es gibt eine große Spanne von Varianten von partitionierenden Algorithmen, die unter K-Means verortet werden oder damit eng verwandt sind.
 
11
Das Prozedere kann mit einzelnen Objekten nacheinander oder mit allen auf einmal geschehen. Alternativ kann anstelle der direkten Zuordnung auch ein Austausch zwischen Clustern erfolgen. Darüber hinaus gibt es eine Vielzahl spezieller Weiterentwicklungen (Everitt et al. 2011, S. 121–123).
 
12
Für diese Gleichverteilung werden Datenpunkte in einem niedrig-dimensionalen Raum erzeugt, welcher auf Basis einer vorangehenden Hauptkomponentenanalyse über die Daten beschrieben wird (Everitt et al. 2011, S. 129).
 
13
Verwendet wurde das R-Paket NbClust.
 
14
Daneben gibt es noch weitere, seltener genutzte Verfahren, die mit K-Means verwandt sind (Steinley 2016).
 
15
Dazu zählt auch die Analyse latenter Klassen, die ein clusteranalytisches Verfahren für Daten mit kategorialen Variablen darstellt (allerdings sind auch Erweiterungen für Berechnungen mit gemischten Skalenniveaus möglich). Durch die Anforderungen an die Datenstruktur sind die Anwendungsfelder des Verfahrens recht beschränkt, weshalb diese nicht eigens behandelt, sondern stattdessen das modellbasierte Cluster auf Basis von Wahrscheinlichkeitsdichten vorgestellt wird. Die Analyse latenter Klassen fußt auf der Annahme, dass sich gegebene Objekte in homogene Klassen einteilen lassen. Dafür werden die Klassen so gebildet, dass die Merkmale der Objekte innerhalb der Klassen unabhängig voneinander sind, und ihr gemeinsames Auftreten durch die Klassen aufgeklärt wird (Bacher und Vermunt 2010).
 
Literature
go back to reference Aggarwal, Charu C., und Cheng Xiang Zhai, Hrsg. 2012. Mining text data. New York: Springer. Aggarwal, Charu C., und Cheng Xiang Zhai, Hrsg. 2012. Mining text data. New York: Springer.
go back to reference Bacher, Johann, Andreas Pöge, und Knut Wenzig. 2010. Clusteranalyse: anwendungsorientierte Einführung in Klassifikationsverfahren, 3., erg. vollst. überarb. u. neu gestaltete Aufl. München: Oldenbourg. Bacher, Johann, Andreas Pöge, und Knut Wenzig. 2010. Clusteranalyse: anwendungsorientierte Einführung in Klassifikationsverfahren, 3., erg. vollst. überarb. u. neu gestaltete Aufl. München: Oldenbourg.
go back to reference Backhaus, Klaus, Bernd Erichson, Wulff Plinke, und Rolf Weiber. 2016. Multivariate Analysemethoden: eine anwendungsorientierte Einführung, 14., überarb. u. ak. Aufl. Lehrbuch. Berlin/Heidelberg: Springer Gabler. Backhaus, Klaus, Bernd Erichson, Wulff Plinke, und Rolf Weiber. 2016. Multivariate Analysemethoden: eine anwendungsorientierte Einführung, 14., überarb. u. ak. Aufl. Lehrbuch. Berlin/Heidelberg: Springer Gabler.
go back to reference Castles, Francis Geoffrey, Hrsg. 1993. Families of nations. Patterns of public policy in western democracies. Aldershot: Dartmouth. Castles, Francis Geoffrey, Hrsg. 1993. Families of nations. Patterns of public policy in western democracies. Aldershot: Dartmouth.
go back to reference De Amorim, Renato Cordeiro. 2012. Feature weighting for clustering. Saarbrücken: Lap Lambert Academic Publ. De Amorim, Renato Cordeiro. 2012. Feature weighting for clustering. Saarbrücken: Lap Lambert Academic Publ.
go back to reference Esping-Andersen, Gosta. 1990. The three worlds of welfare capitalism. Cambridge: Polity Press. Esping-Andersen, Gosta. 1990. The three worlds of welfare capitalism. Cambridge: Polity Press.
go back to reference Everitt, Brian S., Sabine Landau, Morven Leese, und Daniel Stahl, Hrsg. 2011. Cluster analysis, Wiley series in probability and statistics, 5. Aufl. Chichester: Wiley. Everitt, Brian S., Sabine Landau, Morven Leese, und Daniel Stahl, Hrsg. 2011. Cluster analysis, Wiley series in probability and statistics, 5. Aufl. Chichester: Wiley.
go back to reference Gehne, David H. 2008. Bürgermeisterwahlen in Nordrhein-Westfalen, Stadtforschung aktuell, Bd. 111. Wiesbaden: VS Verlag für Sozialwissenschaften. Gehne, David H. 2008. Bürgermeisterwahlen in Nordrhein-Westfalen, Stadtforschung aktuell, Bd. 111. Wiesbaden: VS Verlag für Sozialwissenschaften.
go back to reference Geiling, Heiko, Hrsg. 2011. Migration – Teilhabe – Milieus: Spätaussiedler und türkeistämmige Deutsche im sozialen Raum, 1. Aufl. Wiesbaden: VS Verlag für Sozialwissenschaften. Geiling, Heiko, Hrsg. 2011. Migration – Teilhabe – Milieus: Spätaussiedler und türkeistämmige Deutsche im sozialen Raum, 1. Aufl. Wiesbaden: VS Verlag für Sozialwissenschaften.
go back to reference Handl, Andreas, und Torben Kuhlenkasper. 2017. Multivariate Analysemethoden: Theorie und Praxis mit R, 3., wesentl. überarb. Aufl. Statistik und ihre Anwendungen. Berlin: Springer Spektrum. Handl, Andreas, und Torben Kuhlenkasper. 2017. Multivariate Analysemethoden: Theorie und Praxis mit R, 3., wesentl. überarb. Aufl. Statistik und ihre Anwendungen. Berlin: Springer Spektrum.
go back to reference Hennig, Christian M. 2016. Clustering strategy and method selection. In Handbook of cluster analysis. Chapman & Hall/CRC handbooks of modern statistical methods 9, Hrsg. Christian M. Hennig, Marina Meilă, Fionn Murtagh und Roberto Rocci, 703–730. Boca Raton: CRC Press, Taylor & Francis Group. Hennig, Christian M. 2016. Clustering strategy and method selection. In Handbook of cluster analysis. Chapman & Hall/CRC handbooks of modern statistical methods 9, Hrsg. Christian M. Hennig, Marina Meilă, Fionn Murtagh und Roberto Rocci, 703–730. Boca Raton: CRC Press, Taylor & Francis Group.
go back to reference Hennig, Christian M., Marina Meilă, Fionn Murtagh, und Roberto Rocci, Hrsg. 2016. Handbook of cluster analysis, Chapman & Hall/CRC handbooks of modern statistical methods 9. Boca Raton: CRC Press, Taylor & Francis Group. Hennig, Christian M., Marina Meilă, Fionn Murtagh, und Roberto Rocci, Hrsg. 2016. Handbook of cluster analysis, Chapman & Hall/CRC handbooks of modern statistical methods 9. Boca Raton: CRC Press, Taylor & Francis Group.
go back to reference Höppner, Frank, Frank Klawonn, Rudolf Kruse, und Thomas Runkler. 1999. Fuzzy cluster analysis: Methods for classification, data analysis, and image recognition. Chichester/New York: J. Wiley. Höppner, Frank, Frank Klawonn, Rudolf Kruse, und Thomas Runkler. 1999. Fuzzy cluster analysis: Methods for classification, data analysis, and image recognition. Chichester/New York: J. Wiley.
go back to reference Huang, Hanwen, Yufeng Liu, David N. Hayes, Andrew Nobel, J. S. Marron, und Christian M. Hennig. 2016. Significance testing in clustering. In Handbook of cluster analysis. Chapman & Hall/CRC handbooks of modern statistical methods 9, Hrsg. Christian M. Hennig, Marina Meilă, Fionn Murtagh und Roberto Rocci, 315–335. Boca Raton: CRC Press, Taylor & Francis Group. Huang, Hanwen, Yufeng Liu, David N. Hayes, Andrew Nobel, J. S. Marron, und Christian M. Hennig. 2016. Significance testing in clustering. In Handbook of cluster analysis. Chapman & Hall/CRC handbooks of modern statistical methods 9, Hrsg. Christian M. Hennig, Marina Meilă, Fionn Murtagh und Roberto Rocci, 315–335. Boca Raton: CRC Press, Taylor & Francis Group.
go back to reference Jang, Jaewon, und David Hitchcock. 2012. Model-based cluster analysis of democracies. Journal of Data Science 10(2): 321–343. Jang, Jaewon, und David Hitchcock. 2012. Model-based cluster analysis of democracies. Journal of Data Science 10(2): 321–343.
go back to reference Kaufman, Leonard, und Peter J. Rousseeuw. 2005. Finding groups in data: An introduction to cluster analysis, Wiley series in probability and mathematical statistics. Hoboken: Wiley. Kaufman, Leonard, und Peter J. Rousseeuw. 2005. Finding groups in data: An introduction to cluster analysis, Wiley series in probability and mathematical statistics. Hoboken: Wiley.
go back to reference Klawonn, Frank. 2004. Fuzzy clustering: Insights and new approach. Mathware and Soft Computing 11(2–3): 125–142. Klawonn, Frank. 2004. Fuzzy clustering: Insights and new approach. Mathware and Soft Computing 11(2–3): 125–142.
go back to reference Leisch, Friedrich. 2016. Resampling methods for exploring cluster stability. In Handbook of cluster analysis. Chapman & Hall/CRC handbooks of modern statistical methods 9, Hrsg. Christian M. Hennig, Marina Meilă, Fionn Murtagh und Roberto Rocci, 637–652. Boca Raton: CRC Press, Taylor & Francis Group. Leisch, Friedrich. 2016. Resampling methods for exploring cluster stability. In Handbook of cluster analysis. Chapman & Hall/CRC handbooks of modern statistical methods 9, Hrsg. Christian M. Hennig, Marina Meilă, Fionn Murtagh und Roberto Rocci, 637–652. Boca Raton: CRC Press, Taylor & Francis Group.
go back to reference Lijphart, Arend. 1999. Patterns of democracy : Government forms and performance in thirty-six countries. New Haven: Yale University Press. Lijphart, Arend. 1999. Patterns of democracy : Government forms and performance in thirty-six countries. New Haven: Yale University Press.
go back to reference Mirkin, Boris. 2016. Quadratic error and k-means. In Handbook of cluster analysis. Chapman & Hall/CRC handbooks of modern statistical methods 9, Hrsg. Christian M. Hennig, Marina Meilă, Fionn Murtagh und Roberto Rocci, 33–54. Boca Raton: CRC Press, Taylor & Francis Group. Mirkin, Boris. 2016. Quadratic error and k-means. In Handbook of cluster analysis. Chapman & Hall/CRC handbooks of modern statistical methods 9, Hrsg. Christian M. Hennig, Marina Meilă, Fionn Murtagh und Roberto Rocci, 33–54. Boca Raton: CRC Press, Taylor & Francis Group.
go back to reference Rabe-Hesketh, Sophia, und Brian S. Everitt. 2007. A handbook of statistical analyses using Stata, 4. Aufl. Boca Raton: Chapman & Hall/CRC. Rabe-Hesketh, Sophia, und Brian S. Everitt. 2007. A handbook of statistical analyses using Stata, 4. Aufl. Boca Raton: Chapman & Hall/CRC.
go back to reference Steinley, Douglas. 2016. K-Medoids and other criteria for crisp clustering. In Handbook of cluster analysis. Chapman & Hall/CRC handbooks of modern statistical methods 9, Hrsg. Christian M. Hennig, Marina Meilă, Fionn Murtagh und Roberto Rocci, 55–66. Boca Raton: CRC Press, Taylor & Francis Group. Steinley, Douglas. 2016. K-Medoids and other criteria for crisp clustering. In Handbook of cluster analysis. Chapman & Hall/CRC handbooks of modern statistical methods 9, Hrsg. Christian M. Hennig, Marina Meilă, Fionn Murtagh und Roberto Rocci, 55–66. Boca Raton: CRC Press, Taylor & Francis Group.
go back to reference Tenscher, Jens, und Philipp Scherer. 2012. Jugend, Politik und Medien: politische Orientierungen und Verhaltensweisen von Jugendlichen in Rheinland-Pfalz, Studien zur politischen Kommunikation, Bd. 4. Wien: Lit. Tenscher, Jens, und Philipp Scherer. 2012. Jugend, Politik und Medien: politische Orientierungen und Verhaltensweisen von Jugendlichen in Rheinland-Pfalz, Studien zur politischen Kommunikation, Bd. 4. Wien: Lit.
go back to reference Wagschal, Uwe. 1999. Statistik für Politikwissenschaftler. München: Oldenbourg. Wagschal, Uwe. 1999. Statistik für Politikwissenschaftler. München: Oldenbourg.
go back to reference Xu, Rui, und Donald C. Wunsch. 2009. Clustering, IEEE Press series on computational intelligence. Hoboken/Piscataway: Wiley/IEEE Press. Xu, Rui, und Donald C. Wunsch. 2009. Clustering, IEEE Press series on computational intelligence. Hoboken/Piscataway: Wiley/IEEE Press.
Metadata
Title
Clusteranalysen
Author
Pascal D. König
Copyright Year
2020
DOI
https://doi.org/10.1007/978-3-658-16936-7_32