Die Clusteranalyse ist ein Verfahren zur Gruppierung von Fällen (Untersuchungsobjekten) in einem Datensatz. Zu diesem Zweck muss im ersten Schritt die Ähnlichkeit bzw. Unähnlichkeit (Distanz) zwischen den Fällen über ein geeignetes Maß festgestellt werden. Im zweiten Schritt ist der Fusionierungsalgorithmus zu bestimmen, mit dessen Hilfe die einzelnen Fälle sukzessive zu Gruppen (Cluster) zusammengefasst werden. Ziel ist es dabei, solche Untersuchungsobjekte zu Gruppen (Cluster) zusammenzufassen, die im Hinblick auf die betrachteten Eigenschaften oder Merkmale der Untersuchungsobjekte als möglichst homogen zu bezeichnen sind. Gleichzeitig sollten die Gruppen untereinander eine möglichst große Heterogenität aufweisen, d. h. möglichst unähnlich sein. Die Verfahren der Clusteranalyse können dabei sowohl Variablen mit metrischem, nicht-metrischem als auch gemischtem Skalenniveau verarbeiten. Den Schwerpunkt des Kapitels bilden die hierarchisch-agglomerativen Clusterverfahren, wobei vor allem das Single Linkage-Verfahren und das Ward-Verfahren im Detail vorgestellt werden. Abschließend werden mit der K-Means-Clusteranalyse und der Two-Step-Clusteranalyse auch zwei partitionierende Clusterverfahren behandelt, die vor allem bei großen Datenmengen deutliche Vorteile gegenüber den hierarchischen Clusterverfahren bieten.
Anzeige
Bitte loggen Sie sich ein, um Zugang zu Ihrer Lizenz zu erhalten.
Die Abbildung lässt leicht erkennen, dass die beiden Merkmale „Einkommen“ und „Alter“ nicht unabhängig sind. Das bedeutet, dass die erzielte Zwei-Clusterlösung auch allein auf Basis nur eines der beiden Merkmale hätte erzielt werden können. Vgl. zum Unabhängigkeit von Clustervariablen die Ausführungen in Abschn. 8.2.1.
Vgl. zur Analyse von Ausreißern auch die Ausführungen zu den statistischen Grundlagen in Abschn. 1.5.1 sowie die Darstellungen zum Single Linkage-Verfahren in Abschn. 8.2.3.2, das in besonderer Weise zur Identifikation von Ausreißern in Clusteranalysen geeignet ist.
Die Auswahl der in Tab. 8.4 aufgezeigten Proximitätsmaße orientierte sich an den auch in der SPSS-Prozedur „Hierarchische Clusteranalyse“ bereitgestellten Maßen.
Auf der zu diesem Buch gehörigen Internetseite www.multivariate.de stellen wir ergänzendes Material zur Verfügung, um das Verstehen der Methode zu erleichtern und zu vertiefen.
Aufgrund ihrer für die Praxis eher geringen Bedeutung werden die divisiven Verfahren hier nicht weiter betrachtet. Allerdings stehen in SPSS mit dem Klassifizierungsbaum (Menüfolge: Analysieren/Klassifizieren/Baum) divisive Clusteralgorithmen zur Verfügung.
Der konkrete Ablauf eines Fusionierungsprozesses wird i. d. R. anhand einer Tabelle (sog. Zuordnungsübersicht) und auch grafisch mittels Dendrogramm oder Eiszapfendiagramm verdeutlicht. Beide Möglichkeiten werden für das Single Linkage-Verfahren in Abschn. 8.2.3.2.1 ausführlich erläutert.
Für das erweiterte Anwendungsbeispiel wurden die Dendrogramme mithilfe der Prozedur CLUSTER in SPSS erzeugt. Vgl. hierzu die Darstellungen in Abschn. 8.3.2.
Da in SPSS bisher keine Kriterien zur Bestimmung der optimalen Clusterzahl verfügbar sind, wird empfohlen ggf. auf alternative Programme wie S-Plus, R oder SAS und das hier verfügbare Cubic Clustering Criterion (CCC) zurückzugreifen.
Neben der KM-CA kann auch die Two-Step Clusteranalyse zur Optimierung einer gefundenen Clusterlösung herangezogen werden. Beide Verfahren zählen zu den partitionierenden Clustermethoden und werden in Abschn. 8.4.2 genauer dargestellt.
Auf der Internetseite www.multivariate.de wird ergänzendes Material (z. B. Excel-Dateien) zur Verfügung gestellt, mit dessen Hilfe der Leser sein Verständnis zur Clusteranalyse vertiefen kann.
Fehlende Werte sind ein häufiges und leider unvermeidbares Problem bei empirischen Erhebungen (z. B. weil Personen nicht antworten konnten oder wollten). Der Umgang mit fehlenden Werten in empirischen Studien wird in Abschn. 1.5.2 diskutiert.
Die Mittelwerte wurden auf der Grundlage des Datensatzes berechnet, der auch im Fallbeispiel der Diskriminanzanalyse (Kap. 4), der Logistischen Regression (Kap. 5) und der Faktorenanalyse (Kap. 7) verwendet wurde. Die Gemeinsamkeiten und Unterschiede zwischen den Methoden können durch das gemeinsame Fallbeispiel besser veranschaulicht werden.
Die multinomiale logistische Regression erfordert mindestens drei Gruppen. Im Falle der Zwei-Cluster-Lösung müsste hingegen eine binäre logistische Regression durchgeführt werden.