nach oben

Erschienen in:

2017 | OriginalPaper | Buchkapitel

Clusteranalyse

verfasst von : Pascal D. König, Sebastian Jäckle

Erschienen in: Neue Trends in den Sozialwissenschaften

Verlag: Springer Fachmedien Wiesbaden

Einloggen

Aktivieren Sie unsere intelligente Suche, um passende Fachinhalte oder Patente zu finden.

search-config

KI-gestützte Suche

Aus

Zusammenfassung

In diesem Kapitel wird ein Einblick in den sich aktuell vor allem in den Computerwissenschaften äußerst dynamisch entwickelnden Bereich der clusteranalytischen Forschung gegeben. Dabei werden zunächst die klassischerweise verwendeten Ansätze, wie hierarchische oder k-means Clusteranalysen behandelt. Daneben wird aber vor allem auf neuere, in den Sozialwissenschaften bislang weniger verbreitete Typen der Clusteranalyse wie two-step-Ansätze, Fuzzy Clustering, dichtebasierte Verfahren oder modellbasiertes Clustern fokussiert. Zudem wird argumentiert, dass es sich für Sozialwissenschaftler lohnen dürfte, sich mit denjenigen neuen Clusterverfahren zu beschäftigen, die für die Analyse von sehr großen und hochdimensionalen Datensätzen (Stichwort Big Data) entwickelt wurden, wie sie in Zukunft auch in den Sozialwissenschaften immer häufiger anzutreffen sein dürften.

Sie haben noch keine Lizenz? Dann Informieren Sie sich jetzt über unsere Produkte:

Springer Professional "Wirtschaft+Technik"

Online-Abonnement

Mit Springer Professional "Wirtschaft+Technik" erhalten Sie Zugriff auf:

über 102.000 Bücher
über 537 Zeitschriften

aus folgenden Fachgebieten:

Automobil + Motoren
Bauwesen + Immobilien
Business IT + Informatik
Elektrotechnik + Elektronik
Energie + Nachhaltigkeit
Finance + Banking
Management + Führung
Marketing + Vertrieb
Maschinenbau + Werkstoffe
Versicherung + Risiko

Jetzt Wissensvorsprung sichern!

Jetzt informieren

Springer Professional "Wirtschaft"

Online-Abonnement

Mit Springer Professional "Wirtschaft" erhalten Sie Zugriff auf:

über 67.000 Bücher
über 340 Zeitschriften

aus folgenden Fachgebieten:

Bauwesen + Immobilien
Business IT + Informatik
Finance + Banking
Management + Führung
Marketing + Vertrieb
Versicherung + Risiko

Jetzt Wissensvorsprung sichern!

Jetzt informieren

Vorheriges Kapitel Agent-Based Modeling (ABM)

Nächstes Kapitel Experimentelle Forschung – neue Entwicklungen

An dieser Stelle muss nochmals darauf hingewiesen werden, dass die den Entwicklungs-Abbildungen zugrunde liegende SSCI-Suche ausschließlich auf Begriffe in den Keywords, Abstracts und Überschriften der Publikationen basiert. Kann man bei eigenständigen Untersuchungsmethoden in der Regel davon ausgehen, dass der Name der Methode in einem der drei Suchbereiche auftaucht, muss dies bei Methoden, die zumindest teilweise als Hilfsmethode neben, bzw. vor anderen Analyseverfahren zum Einsatz kommen, nicht immer der Fall sein. Die Clusteranalyse kann man, wie im weiteren Verlauf des Kapitels deutlich werden dürfte, häufig in die zuletzt genannte Kategorie einstufen. Deshalb werden vermutlich einige eigentlich relevante Publikationen nicht gefunden werden – anders als bei den in den anderen Kapiteln behandelten Methoden. Die absolute Höhe der Kurve ist damit nur mit Vorsicht zu interpretieren. An der Aussage über die Trends ändert dies jedoch nichts.

Grundsätzlich lassen sich Objekte auch mittels Diskriminanzanalyse voneinander unterscheiden. Im Unterschied zur Clusteranalyse muss dabei jedoch die Gruppenmitgliedschaft von einigen Objekten bereits a priori bekannt sein. Aus diesen lässt sich dann eine Gruppierungsregel gewinnen, die dann auf andere – bislang nicht eingruppierte – Objekte angewendet werden kann (Backhaus et al. 2016a, S. 215–282). Bei der Clusteranalyse hingegen ist zu Beginn nicht klar welches Individuum in welche Gruppe gehört – oftmals ist nicht einmal die Anzahl der Gruppen bekannt.

Es handelt sich hierbei keinesfalls um die einzige denkbare oder sinnvolle Einteilung und bei weitem deckt sie nicht die Breite und die Feingliedrigkeit der verschiedenen einzelnen Varianten oder gar Algorithmen ab. So existieren darüber hinaus etwa sehr spezielle Verfahren wie spektrales Clustern, Kerndichte basiertes Cluster, Clustern auf der Basis von Support Vectors. Die Übersicht in Abb. 2 konzentriert sich auf wesentliche Verfahren, bei denen am ehesten von einer breiteren Anwendung gesprochen werden kann oder künftig auszugehen ist.

Die Verwendung der Euklidischen Distanz als Maß erfordert metrisches Skalenniveau bei den Rohdaten.

Backhaus und Kollegen stellen basierend auf einer Simulationsstudie von Milligan und Cooper (1985), die 30 stopping rules verglichen hatten, zwei Teststatistiken vor, die eine eindeutige Entscheidung für eine bestimmte optimale Clusteranzahl erleichtern. Diese seien in bis zu 90 % der Fälle in der Lage die wahre Gruppenstruktur zu finden (Backhaus et al. 2016b, S. 496–497).

Beschreibungen dieser Weiterentwicklungen der hierarchischen Clusteranalyse finden sich bei Xu und Wunsch (2009, S. 40–45).

Neben dem Kriterium der minimalen Streuungsquadratsumme innerhalb der Cluster wurden noch weitere Kriterien für den Abbruch der k-Means-Iteration vorgeschlagen. Sie alle versuchen entweder die interne Homogenität der Cluster oder die externe Heterogenität zu erfassen, beispielsweise über die maximale Distanz zwischen den Objekten eines Clusters, oder der Summe der Distanzen eines Objektes in einem Cluster zu allen Objekten außerhalb dieses Clusters. Diese und weitere Kriterien sind bei Xu und Wunsch (2009, S. 65–67) im Detail nachzulesen.

Die Kombination von hierarchischen und partitionierenden Clusterverfahren kann zudem dazu genutzt werden, um eine Clusterlösung wie folgt zu validieren: Die in einer Stichprobe per hierarchischer Variante gewonnen Clusterlösung kann darauf hin geprüft werden, wieweit sie sich in einer anderen relevanten Stichprobe oder Population reproduzieren lässt. Letzteres geschieht durch die partitionierende Variante, die eine Clusterlösung auf Basis der Informationen aus dem vorangehenden Analyseschritt optimiert. Im Zuge dessen kann die Übereinstimmung der Clusterprofile in der ersten und der zweiten Analyse festgestellt und das Clusterergebnis validiert werden (Berger 2000).

Ist ein Objekt gleich weit von mehreren Clusterzentren entfernt, liegt es im Überlappungsbereich dieser Cluster. Befindet es sich weit weg von einem Clusterzentrum wird es als Ausreißer bezeichnet (Bacher et al. 2010b, S. 323).

Die Distanzmessung erfolgt im Fall rein metrischer Variablen über die Euklidische Distanz, sind auch kategoriale Variablen vorhanden, geschieht dies über die Log-Likelihood-Distanz. Dabei wird bei metrischen Variablen Mittelwert und Standardabweichung gespeichert und angenommen, dass die Variablen einer Normalverteilung folgen. Bei kategorialen Variablen geht man von einer Multinominalverteilung aus und speichert die absoluten Häufigkeiten sämtlicher Merkmalsausprägungen. Basierend auf diesen Daten und Annahmen berechnet man den Wert der maximierten Likelihood-Funktion. Die Log-Likelihood-Distanz zwischen zwei potenziell zu fusionierenden Clustern A und B erhält man sodann – analog zur Logik beim Ward-Verfahren – aus dem Vergleich der Gesamtlikelihood der beiden Cluster (L_A und L_B) mit der Gesamtlikelihood des dann zusammengefassten Clusters (L_AB): LLDist = L_AB − L_A − L_B. Die Gesamtlikelihood eines Clusters ergibt sich dabei über die maximierte Likelihood für alle Variablen (Bacher et al. 2010a, S. 447).

Eng verwandt mit den dichtebasierten Verfahren ist die rasterbasierte Clusteranalyse, welche über die Dichte in a priori vorgegebenen Zellen eine Art Vorclusterung ähnlich dem BIRCH-Verfahren durchführt. Hierdurch können deutlich schnellere Rechenzeiten als bei reinen dichtebasierten Clusteranalysen erzielt werden (Xu und Wunsch 2009, S. 225–226; Fahad et al. 2014, S. 269).

Für kategoriale Variablen, bei denen keine Normalverteilung innerhalb der Cluster angenommen werden kann, sind die sogenannten latent class Analysen entwickelt worden (Allerdings ist es nicht ausgeschlossen, metrische und normalverteilte Merkmale zusätzlich hinzuzuziehen). Diese Verfahren gehen davon aus, dass eine Gesamtheit von Objekten in homogene Segmente oder Klassen auf der Basis ihrer nominalen oder ordinalen Klassifikationsmerkmale zerlegt werden kann – die Merkmale sind demnach unabhängig voneinander, ihr Zusammenfallen kann durch die latenten Klassen vollständig aufgeklärt werden (Bacher und Vermunt 2010, S. 555–556). Abweichungen von diesen Klassen lassen sich dann, auf der Basis der Kenntnis der Verteilungshäufigkeiten, als Wahrscheinlichkeiten der Zugehörigkeit auffassen. Die Analyse latenter Klassen ist dabei insofern modellbasiert, als sie bestimmte Verteilungsannahmen voraussetzt, um die Objekte auf latente Klassen zurückzuführen (Bacher und Vermunt 2010; Stahl und Sallis 2012, S. 347–349).

Konkret verglichen werden das Fuzzy-C-Means Clustering, der mehrstufige hierarchische BIRCH-Algorithmus, das dichtebasierte DENCLUE-Verfahren, der rasterbasierte OptiGrid-Ansatz sowie das modellbasierte Clustering mittels Erwartungs-Maximierungs-Algorithmus (Fahad et al. 2014, S. 271–273).

Dies sind Partitition Around Medoids (PAM), Clustering Large Applications (CLARA), Fuzzy Analysis (FANNY), Agglomerative Nesting (AGNES), Divisive Analysis (DIANA) und Monothetic Analysis (MONA).

Ahlquist, John S., und Christian Breunig. 2012. Model-based clustering and typologies in the social sciences. Political Analysis 20 (1): 92–112. doi:10.1093/pan/mpr039.CrossRef

Allik, Jüri, und Robert R. McCrae. 2004. Toward a geography of personality traits: Patterns of profiles across 36 cultures. Journal of Cross-Cultural Psychology 35 (1): 13–28. doi:10.1177/0022022103260382.CrossRef

Arts, W. I. L., und John Gelissen. 2002. Three worlds of welfare capitalism or more? A state-of-the-art report. Journal of European Social Policy 12 (2): 137–158. doi:10.1177/0952872002012002114.CrossRef

Bacher, Johann, und Jeroen K. Vermunt. 2010. Analyse latenter Klassen. In Handbuch der sozialwissenschaftlichen Datenanalyse, Hrsg. Christof Wolf und Henning Best, 553–574. Wiesbaden: VS Verlag.

Bacher, Johann, Knut Wenzig, und Melanie Vogler. 2004. SPSS TwoStep cluster – A first evaluation. Universität Erlangen-Nürnberg, Wirtschafts- und Sozialwissenschaftliche Fakultät, Sozialwissenschaftliches Institut Lehrstuhl für Soziologie. Nürnberg.

Bacher, Johann, Andreas Pöge, und Knut Wenzig. 2010a. Clusteranalyse: Anwendungsorientierte Einführung in Klassifikationsverfahren, 3., vollst. überarb. und neu gestaltete Aufl. München: Oldenbourg.

Bacher, Johann, Andreas Pöge, und Knut Wenzig. 2010b. Clusteranalyse: Anwendungsorientierte Einführung in Klassifikationsverfahren, 3., ergänze, vollständig überarbeitete und neu gestaltete Aufl. München: Oldenbourg.

Backhaus, Klaus, Bernd Erichson, Wulff Plinke, und Rolf Weiber. 2016a. Multivariate Analysemethoden: Eine anwendungsorientierte Einführung, 14., überarbeitete und aktualisierte Aufl. Berlin: Springer Gabler (Lehrbuch).

Backhaus, Klaus, Bernd Erichson, Rolf Weiber, und Wulff Plinke. 2016b. „Clusteranalyse“. In Multivariate Analysemethoden: Eine anwendungsorientierte Einführung, Hrsg. Klaus Backhaus, Bernd Erichson, Wulff Plinke, und Rolf Weiber, 453–516. Berlin: Springer.

Bailey, Kenneth D. 1975. Cluster analysis. Sociological Methodology 6:59–128. doi:10.2307/270894.CrossRef

Bailey, Kenneth D. 1983. Sociological classification and cluster analysis. Quality and quantity 17 (4): 251–268. doi:10.1007/BF00167539.

Bambra, Clare. 2007. Defamilisation and welfare state regimes: A cluster analysis. International Journal of Social Welfare 16 (4): 326–338. doi:10.1111/j.1468-2397.2007.00486.x.CrossRef

Berger, Martin. 2000. Einstellung zum Computer. Anwendung exploratorischer und restringierter Clusteranalysen. In Angewandte Klassifikationsanalyse in den Sozialwissenschaften, Hrsg. Jost Reinecke, 36–54. Münster: Waxmann.

Capecchi, Vittorio. 1968. On the definition of typology and classification in sociology. Quality & Quantity 2 (1): 9–30. doi:10.1007/BF00234205.

Castles, Francis Geoffrey, Hrsg. 1993. Families of nations. patterns of public policy in Western democracies. Aldershot: Dartmouth.

Ennser, Laurenz. 2012. The homogeneity of West European party families: The radical right in comparative perspective. Party Politics 18 (2): 151–171. doi:10.1177/1354068810382936.CrossRef

Esping-Andersen, Gosta. 1990. The three worlds of welfare capitalism. Cambridge: Polity Press.

Everitt, Brian S., Sabine Landau, Morven Leese, und Daniel Stahl. 2011. Cluster analysis. Wiley series in probability and statistics. Chichester: Wiley.

Fahad, Adil, Najlaa Alshatri, Zahir Tari, Abdullah Alamri, Ibrahim Khalil, Albert Y. Zomaya, Sebti Foufou, und Abdelaziz Bouras. 2014. A survey of clustering algorithms for big data: Taxonomy and empirical analysis. IEEE Transactions on Emerging Topics in Computing 2 (3): 267–279. doi:10.1109/TETC.2014.2330519.CrossRef

Grubesic, Tony H. 2006. On the application of fuzzy clustering for crime hot spot detection. Journal of Quantitative Criminology 22 (1): 77–105. doi:10.1007/s10940-005-9003-6.CrossRef

Hennig, Christian M., Marina Meilă, Fionn Murtagh, und Roberto Rocci, Hrsg. 2016. Handbook of cluster analysis. Chapman & Hall/CRC handbooks of modern statistical methods 9. Boca Raton: CRC Press, Taylor & Francis Group.

Höppner, Frank, Frank Klawonn, Rudolf Kruse, und T. Runkler. 1999. Fuzzy cluster analysis: Methods for cassification, data analysis, and image recognition. Chichester: Wiley.

Iezzi, Domenica Fioredistella, und Fiorenza Deriu. 2014. Women active citizenship and wellbeing: The Italian case. Quality & Quantity 48 (2): 845–862. doi:10.1007/s11135-012-9806-0.CrossRef

Jain, Anil K. 2010. Data clustering: 50 years beyond k-means. Pattern Recognition Letters 31 (8): 651–666. doi:10.1016/j.patrec.2009.09.011.CrossRef

Jain, Anil K., und Richard C. Dubes. 1988. Algorithms for clustering data. Prentice Hall advanced reference series. Englewood Cliffs: Prentice Hall.

Jayaram, Balasubramaniam, und Frank Klawonn. 2013. Can fuzzy clustering avoid local minima and undesired partitions? In Computational intelligence in intelligent data analysis, Hrsg. Christian Moewes und Andreas Nürnberger, 31–44. Berlin: Springer.

Kaufman, Leonard, und Peter J. Rousseeuw. 2005. Finding groups in data: An introduction to cluster analysis. Wiley series in probability and mathematical statistics. Hoboken: Wiley.

Klawonn, Frank. 2004. Fuzzy clustering: Insights and new approach. Mathware and Soft Computing 11 (2–3): 125–142.

Lazarsfeld, Paul F. 1962. Philosophy of science and empirical social research. In Logic, methodology and philosophy of science: Proceedings of the 1960 International Congress, Hrsg. Ernest Nagel, Patrick Suppes, und Alfred Tarski. Logic, methodology and philosophy of science. Stanford University Press.

Lechner, Birgit. 2001. Freizeitverhalten von BerufsschülerInnen im Rahmen der Lebensstilforschung und Subkulturtheorie. Nürnberg: Universität Erlangen-Nürnberg, Sozialwissenschaftliches Institut, Lehrstuhl für Soziologie.

Liu, Bing. 2013. Web data mining: Exploring hyperlinks, contents, and usage data. Berlin: Springer.

Milligan, Glenn W., und Martha C. Cooper. 1985. An examination of procedures for determining the number of clusters in a data set. Psychometrika 50 (2): 159–179. doi:10.1007/BF02294245.CrossRef

Montrone, Silvestro, und Paola Perchinunno. 2013. Socioeconomic zoning: Comparing two statistical methods. In Statistical methods for spatial planning and monitoring, Hrsg. Silvestro Montrone und Paola Perchinunno, 93–118. Milano: Springer.

Mun, Eun Young, Michael Windle, und Lisa M. Schainker. 2008. A model-based cluster analysis approach to adolescent problem behaviors and young adult outcomes. Development and Psychopathology 20 (1): 291–318. doi:10.1017/S095457940800014X.CrossRef

Neumann, Jörg, Wolfgang Frindte, Friedrich Funke, und Susanne Jacob. 1999. Sozialpsychologische Hintergründe von Fremdenfeindlichkeit und Rechtsextremismus. In Rechtsextremismus und Fremdenfeindlichkeit: Bestandsaufnahme und Interventionsstrategien. Schriften zum Strafvollzug, Jugendstrafrecht und zur Kriminologie, Hrsg. Frieder Dünkel und Bernd Geng, Bd. 6, 111–138. Mönchengladbach: Forum Verlag Godesberg.

Norris, Paul A. 2009. Families of nations, victimisation and attitudes towards criminal justice. International Review of Victimology 16 (3): 229–255. doi:10.1177/026975800901600301.CrossRef

Obinger, Herbert, und Uwe Wagschal. 2001. Families of nations and public policy. West European Politics 24 (1): 99–114. doi:10.1080/01402380108425419.CrossRef

Okazaki, Shintaro. 2006. What do we know about mobile Internet adopters? A cluster analysis. Information & Management 43 (2): 127–141. doi:10.1016/j.im.2005.05.001.CrossRef

Oliveira, J. Valente de, und Witold Pedrycz, Hrsg. 2007. Advances in fuzzy clustering and its applications. Chichester: Wiley.

Powell, Martin, und Armando Barrientos. 2004. Welfare regimes and the welfare mix. European Journal of Political Research 43 (1): 83–105. doi:10.1111/j.1475-6765.2004.00146.x.CrossRef

Reddy, Chandan K., und Bhanukiran Vinzamuri. 2014. A survey of partitional and hierarchical clustering algorithms. In Data clustering: Algorithms and applications. Chapman & Hall/CRC data mining and knowledge discovery series, Hrsg. Charu C. Aggarwal und Chandan K. Reddy, 87–110. Boca Raton: Chapman and Hall/CRC.

Rousseeuw, Peter J. 1987. Silhouettes: A graphical aid to the interpretation and validation of cluster analysis. Journal of Computational and Applied Mathematics 20:53–65.CrossRef

Saint-Arnaud, Sébastien, und Paul Bernard. 2003. Convergence or resilience? A hierarchical cluster analysis of the welfare regimes in advanced countries. Current Sociology 51 (5): 499–527. doi:10.1177/00113921030515004.CrossRef

Sander, Joerg. 2010. Density based clustering. In Encyclopedia of machine learning, Hrsg. Claude Sammut und Geoffrey I. Webb, 270–273. New York: Springer.

Sarstedt, Marko, und Erik Mooi. 2014. A concise guide to market research: The process, data, and methods using IBM SPSS statistics. New York: Springer.CrossRef

Schendera, Christian F. G. 2010. Clusteranalyse mit SPSS: Mit Faktorenanalyse. München: Oldenbourg.CrossRef

Schneider, Martin R., und Mihai Paunescu. 2012. Changing varieties of capitalism and revealed comparative advantages from 1990 to 2005: A test of the Hall and Soskice claims. Socio-Economic Review 10 (4): 731–753. doi:10.1093/ser/mwr038.CrossRef

Shi, Jieming, Nikos Mamoulis, Dingming Wu, und David W. Cheung. 2014. Density-based place clustering in geo-social networks. In SIGMOD ’14 Proceedings of the 2014 ACM SIGMOD International Conference on Management of Data: June 22–27, 2014, Snowbird, UT, USA, 99–110. New York.

Shirkhorshidi, Ali Seyed, Saeed Aghabozorgi, Teh Ying Wah, und Tutut Herawan. 2014. Big data clustering: A review. In Computational science and its applications – ICCSA 2014, Hrsg. Beniamino Murgante, Sanjay Misra, Ana Maria A. C. Rocha, Carmelo Torre, Jorge Gustavo Rocha, Maria Irene Falcão, David Taniar, Bernady O. Apduhan, und Osvaldo Gervasi, Bd. 8583, 707–720. Cham: Springer.

Sokal, Robert R., und Peter Sneath. 1963. Principles of numerical taxonomy. San Francisco: Freeman.

Stahl, Daniel, und Hannah Sallis. 2012. Model-based cluster analysis. Wiley Interdisciplinary Reviews: Computational Statistics 4 (4): 341–358. doi:10.1002/wics.1204.CrossRef

Sucoff, Clea A., und Dawn M. Upchurch. 1998. Neighborhood context and the risk of childbearing among metropolitan-area black adolescents. American Sociological Review 63 (4): 571–585. doi:10.2307/2657268.CrossRef

Tan, Pang-Ning, Michael Steinbach, und Vipin Kumar. 2006. Introduction to data mining, 1. Aufl. Boston: Pearson Addison Wesley.

Tyron, R. 1939. Cluster analysis. New York: Mc Graw Hill.

Van Tuyckom, Charlotte. 2013. Six sporting worlds. A cluster analysis of sports participation in the EU-25. Quality & Quantity 47 (1): 441–453. doi:10.1007/s11135-011-9528-8.

Wagschal, Uwe. 1999. Statistik für Politikwissenschaftler. Lehr- und Handbücher der Politikwissenschaft. Oldenbourg: Wien.

Wiedenbeck, Michael, und Cornelia Züll. 2010. Clusteranalyse. In Handbuch der sozialwissenschaftlichen Datenanalyse, Hrsg. Christof Wolf und Henning Best, 525–552. Wiesbaden: VS Verlag.

Wolfson, Murray, Zagros Madjd-Sadjadi, und Patrick James. 2004. Identifying national types: A cluster analysis of politics, economics, and conflict. Journal of Peace Research 41 (5): 607–623. doi:10.1177/0022343304045975.CrossRef

Xu, Rui, und Donald C. Wunsch. 2009. Clustering. IEEE Press series on computational intelligence. Hoboken: Wiley & IEEE Press.

Yang, C. C., und T. D. Ng. 2011. Analyzing and visualizing web opinion development and social interactions with density-based clustering. IEEE Transactions on Systems, Man, and Cybernetics – Part A: Systems and Humans 41 (6): 1144–1155. doi:10.1109/TSMCA.2011.2113334.

Zhang, Tian, Raghu Ramakrishnan, und Miron Livny. 1996. BIRCH: An efficient data clustering method for very large databases. ACM SIGMOD Record 25 (2): 103–114.CrossRef

Titel: Clusteranalyse
verfasst von: Pascal D. König
Sebastian Jäckle
Verlag: Springer Fachmedien Wiesbaden
Buch: Neue Trends in den Sozialwissenschaften
Print ISBN: 978-3-658-17188-9

Electronic ISBN: 978-3-658-17189-6

Copyright-Jahr: 2017
DOI: https://doi.org/10.1007/978-3-658-17189-6_3