Skip to main content

2005 | Buch

Datenanalyse mit SAS

Statistische Verfahren und ihre grafischen Aspekte

verfasst von: Prof. Dr. Walter Krämer, Dr. Olaf Schoffer, Dr. Lars Tschiersch

Verlag: Springer Berlin Heidelberg

insite
SUCHEN

Über dieses Buch

Das Programmpaket SAS hat sich im Lauf der Jahre als ein Standardwerkzeug zur statistischen Datenanalyse durchgesetzt. Der souveräne Umgang mit statistischen Methoden und deren praktischer Umsetzung in SAS bietet somit einen unschätzbaren Vorteil für die tägliche Arbeit aller Anwender, die in Studium oder Beruf mit der Analyse von Daten zu tun haben.

Das vorliegende Buch erläutert alle gängigen statistischen Verfahren und deren Umsetzung als SAS-Programm. Es ist als Einführung in SAS geeignet, aber auch als Nachschlagewerk für Fortgeschrittene, mit deutlicher Betonung der grafischen Aspekte der statistischen Datenanalyse. Anleitungen zur Programmierung mit IML und Makros sowie hilfreiche Assistenten in SAS runden die Darstellung ab.

Inhaltsverzeichnis

Frontmatter

Einführung in die Benutzung von SAS

1. Grundlagen des Umgangs mit SAS
Zusammenfassung
Das SAS-System ist ein umfangreiches, eigenständiges, statistisches Programmpaket. Es arbeitet auf Großrechnern und PCs unter Betriebssystemen wie UNIX, LINUX, MAC OS oder Windows. Dieses Buch legt die Windows-Version zugrunde, aber der Großteil der hier vorgestellten Syntax ist auch unter anderen Betriebssystemen anwendbar.
Entwickelt wurde SAS als „Statistical Analysis System“ vor über 30 Jahren an der North Carolina State University in den USA unter dem geistigen Vater James H. Goodnight, der dort Professor für Statistik war. 1976 gründete Goodnight das SAS Institute Inc. in Cary, N.C. Mit über 7000 Mitarbeitern weltweit, davon 2500 in Europa und mehr als drei Millionen Nutzern gehört es zu den fünf größten unabhängigen Softwareherstellern der Welt.
Zunächst als reines Statistik-Paket in Assembler und PL/I für Großrechner konzipiert, hat sich SAS heute zu einem umfassenden „Data Warehousing“ und „Business Intelligence“ System ausgeweitet. Für Windows ist inzwischen die Version 9 verfügbar. Gebräuchlicher ist aber immer noch die Version 8.2, die auch diesem Buch zugrunde liegt. Notwendig zum Verständnis sind dabei Grundkenntnisse des Betriebssystems sowie die Grundlagen der Datenspeicherung und elementare Statistik-Kenntnisse.
2. Das Hilfesystem
Zusammenfassung
Hilfe zu SAS auf klassische Weise bietet das Benutzerhandbuch (engl.: User’s Guide). Benutzerhandbücher gibt es zu jedem SAS-Modul. Ein Nachschlagen innerhalb der umfangreichen Benutzerhandbücher ist aber oft sehr mühsam und nur mit genauem Wissen über das Gesuchte zielführend. Erheblich komfortabler ist eine Suche über die „SAS OnlineDoc“, eine elektronische Umsetzung dieser Bücher als HTML-Hilfe. Sie ist auf einer separaten CD erhältlich oder im Internet unter http://v8doc.sas.com zu finden.
Zusätzlich sind mehrere Hilfestellungen in SAS selbst vorhanden. Neben den implementierten Assistenten, auf die Kapitel 17 noch eingeht, ist dies die CHM-Hilfe „SAS System Help“. Sie ist direkt aus SAS aufrufbar und vergleichbar mit der Online-Hilfe in früheren Versionen oder anderen Windows-Anwendungen.
3. Der DATA-Step
Zusammenfassung
Dieses Kapitel bildet die Grundlage für alle Datenanalysen. Wie werden Daten in SAS erzeugt, eingelesen, vorgehalten und verändert? Das alles erfolgt innerhalb des DATA-Step. Dessen Verständnis ist also notwendig für ein sinnvolles Herangehen an statistische Auswertungen. So führen Auswertungen basierend auf inkorrektem Datenmaterial zu fehlerhaften Ergebnissen.
4. Der PROC-Step
Zusammenfassung
Nach dem DATA-Step ist der PROC-Step ein wesentlicher Bestandteil von SAS-Programmen. Er ermöglicht unter anderem die Analyse der zuvor vorbereiteten Daten, die Ausgabe der dabei gefundenen Ergebnisse auf dem Bildschirm oder in neue Datensätze sowie die Erzeugung von Grafiken.

Präsentation und Aufbereitung von Ergebnissen

5. Das Aufbereiten von Textausgaben
Zusammenfassung
Die Ergebnisse einer Datenanalyse erscheinen im Textausgabe-Fenster. Ausnahmen sind die Option NOPRINT, die eine Ausgabe unterdrückt, und die Prozedur PROC SUMMARY die keine Textausgabe erzeugt.
Textausgaben erscheinen im Textausgabe-Fenster im ASCII-Format. Die einzelnen Variablen eines Datensatzes (Spalten) sind auf der (Bildschirm-)Seite zentriert durch eine variable Anzahl an Leerzeichen voneinander getrennt. Es sind jedoch nie mehr als vier Leerzeichen zwischen zwei Variablen. Die Merkmalswerte (Zeilen) einer numerischen Variablen werden innerhalb der Spalte rechtsbündig gesetzt, alphanumerische Variablen linksbündig.
6. Grafiken in SAS
Zusammenfassung
Grafiken ermöglichen einen schnellen Einblick in Daten. Viele meinen, Grafiken seien nicht die Stärke von SAS. In der Tat sind die Standardeinstellungen oft nicht befriedigend. Diese lassen sich aber vom Anwender ändern und damit aussagekräftige, gut lesbare Grafiken erstellen.

Grundlagen der Statistik

7. Standardverfahren der beschreibenden Statistik
Zusammenfassung
Die beschreibende oder auch deskriptive Statistik fasst große Datenmengen durch geeignete Kennzahlen zusammen. Die Beschreibung durch diese bedeutet aber auch einen Informationsverlust. Die wichtigsten Kennzahlen sind Mittelwerte und Streuungsmaße.
Bevor die Methoden der beschreibenden Statistik vorgestellt werden, seien folgende Notationen eingeführt: Objekte an denen Messungen vorgenommen werden heißen Untersuchungseinheiten. Die Größen auf die sich die Messungen beziehen heißen Merkmalswerte. Diese können verschiedenes Meßniveau aufweisen. Ein Merkmalswert heißt nominal, wenn die Werte in keine Reihenfolge zu bringen sind. Berufe oder Farben sind nominal. Merkmalswerte sind ordinal skaliert, wenn die Werte in eine Reihenfolge zu bringen sind. Abstände zwischen den verschiedenen Merkmalswerten wie beispielsweise bei Schulnoten sind jedoch nicht zu interpretieren. Ein metrischer Merkmalswert lässt sich in eine Reihenfolge bringen und der Abstand zwischen den Merkmalswerten ist interpretierbar. Gewichte oder Größen sind metrische Merkmalswerte.
Merkmalswerte können zudem stetig oder diskret sein. Ein Merkmalswert heißt diskret, wenn er nur endlich oder abzählbar viele Werte annehmen kann. Andernfalls heißt er stetig.
8. Standardverfahren der schließenden Statistik
Zusammenfassung
Während die zuvor eingeführte beschreibende Statistik Auffälligkeiten in den Daten finden oder diese mit geeigneten Kenngrößen charakterisieren soll, leitet die schließende Statistik aus den beobachteten Werten Aussagen über den datenerzeugenden bzw. den Daten zugrunde liegenden Mechanismus ab. Ein solcher Mechanismus wird in der Statistik durch Zufallsvariablen dargestellt. Die Verfahren der schließenden Statistik schätzen beispielsweise charakterisierende Größen oder untersuchen Hypothesen über ausgesuchte Eigenschaften von Zufallsvariablen.
9. Regressionsanalyse
Zusammenfassung
Francis Galton untersuchte im Jahr 1885 den Zusammenhang zwischen den Körpergrößen von Vätern und Söhnen. Er stellte fest: Große Väter haben im Durchschnitt größere Söhne, wenn auch nicht ganz so groß wie sie selbst. Kleine Väter haben dagegen kleinere Söhne, wenn auch nicht ganz so klein wie sie selbst. Die Körpergröße der Söhne bewegt sich somit auf den allgemeinen Durchschnitt zu. Diesen Schritt zur Durchschnittsgröße nannte Galton „Regression“ (von lateinisch: regredi = Zurückgehen).
9.1|Abbildung 9.1 zeigt anhand der Daten Galtons den Zusammenhang zwischen den Körpergrößen. Diesen beschreibt die Regressionsgerade.

Spezialgebiete und Anwendungen

10. Varianzanalyse und Versuchsplanung
Zusammenfassung
Versuchsplanung wird oft auf eine Ergebnisanalyse reduziert, jedoch umfasst sie mehr als eine reine Auswertung. Mit Hilfe eines statistischen Versuchsplans werden Experimente zur Datengewinnung durchgeführt, die mittels Varianzanalyse ausgewertet werden.
Die Varianzanalyse (engl.: ANOVA = Analysis of Variance) untersucht den Einfluss von einem oder mehreren Faktoren auf eine Beobachtungsvariable. Faktoren sind kontrollierbare Einflussgrößen und können verschiedene Stufen annehmen. Als Faktor kann beispielsweise die Behandlung von Patienten mit verschiedenen Medikamenten angesehen werden. Die wesentliche Aufgabe der Varianzanalyse ist, zu untersuchen, ob die verschiedenen Stufen eines Faktors unterschiedliche Wirkungen aufweisen. Dieses erfolgt durch einen globalen Vergleich von Mittelwerten. Weiterhin ist zu überprüfen, zwischen welchen Stufen Unterschiede vorliegen. Dies erfolgt mittels paarweiser Vergleiche von Mittelwerten.
11. Nichtparametrische Verfahren
Zusammenfassung
Nichtparametrische statistische Verfahren benötigen nur wenige Annahmen über die Verteilung der Zufallsvariablen. Oft werden sie mit „verteilungsfreien“ Verfahren gleichgesetzt. Eine Unterscheidung ist aber möglich. Ein „verteilungsfreies“ Verfahren basiert auf einer Statistik, deren Verteilung unabhängig von der Verteilung der Grundgesamtheit ist. Schwache Annahmen, beispielsweise die Stetigkeit einer Verteilung, sind dennoch oft notwendig. Ein „nichtparametrisches“ Verfahren trifft keine Annahmen über die Parameter der Verteilung der Grundgesamtheit. Näheres siehe Büning, Trenkler (1994).
12. Multivariate Verfahren
Zusammenfassung
Multivariate Verfahren dienen unter anderem dazu, Strukturen in Datensätzen mit zwei oder mehr Variablen offenzulegen. Damit lässt sich eine Dimensionsreduktion bei geringem Informationsverlust durchführen.
Die multivariaten Verfahren lassen sich in strukturprüfende sowie strukturentdeckende Verfahren einteilen. Die hier behandelten strukturentdeckenden Verfahren, wie Faktoren- oder Clusteranalyse, decken ohne Vorkenntnisse die Zusammenhänge zwischen den Variablen auf.
13. Zeitreihenverfahren
Zusammenfassung
Zeitreihen sind Daten, die zeitlich angeordnet sind, beispielsweise die Tagesschlusskurse von BMW für das aktuelle Börsenjahr, das bundesdeutsche Sozialprodukt ab 1948 oder die monatliche Zahl der Verkehrstoten in Nordrhein-Westfalen des Jahres 2004. Die 13.1|Abbildung 13.1 zeigt beispielhaft die Zahl der Arbeitslosen in Deutschland über ein Jahrzehnt. Man erkennt deutlich Trends und zyklische Schwankungen.
14. Ökonometrie
Zusammenfassung
Ökonomische Daten und Modelle weisen oft Besonderheiten auf, die eine Schätzung mit der „gewöhnlichen“ KQ-Methode erschweren oder sogar ganz verhindern. So beeinflussen sich makroökonomische Phänomene mitunter gegenseitig, oder die Zusammenhänge zwischen Regressoren und Regressanden sind nicht linear. Diesen Besonderheiten tragen die nachfolgend vorgestellten Verfahren und Modelle Rechnung.

Besonderheiten von SAS

15. Interactive Matrix Language — IML
Zusammenfassung
Zur Datenanalyse gab es in den vorangegangenen Kapiteln jeweils passende Prozeduren. Die Prozedur REG beispielsweise führt eine Regression durch und ARIMA passt einen stochastischen Prozess an eine Zeitreihe an.
Steht für ein Problem keine implementierte Prozedur zur Verfügung, gibt es die Interaktive Matrixsprache oder kurz IML. Sie ist eine Programmiersprache mit eigenständiger Syntax innerhalb des SAS-Systems.
Anders als in anderen matrixorientierten Programmierumgebungen sind Vektoren in IML einspaltige Matrizen. Matrixoperationen sind hier auch auf Vektoren anwendbar.
16. Makroprogrammierung
Zusammenfassung
Die in SAS/BASE enthaltene Makrosprache erweitert das SAS-System und ermöglicht das Zusammenfassen von Programmen. So müssen häufig vorkommende Programmsegmente nicht immer wieder neu erstellt werden. Solche wiederholbaren Programmsegmente heißen Makros.
Mit Makros lassen sich ferner DATA- bzw. PROC-Steps mittels Schleifen mehrfach durchlaufen. Das ist mit normalem SAS-Code nicht möglich.
17. Assistenten
Zusammenfassung
In den vorangegangenen Kapiteln haben selbst geschriebene Programme die Analysen durchgeführt. Es gibt jedoch auch eingebaute Umgebungen, die für bestimmte Analysebereiche zur Verfügung stehen. Diese Umgebungen heißen Assistenten. Über das Menü Solutions → Analysis
sowie der Auswahl des konkreten Assistenten wird die entsprechende Umgebung gestartet. Zur Auswahl stehen: 3D Visual Analysis, Analyst, Design of Experiments, Enterprise Miner, Geographic Information System, Guided Data Analysis, Interactive Data Analysis, Investment Analysis, Market Research, Project Management, Quality Improvement, Queueing Simulation, Time Series Forecasting System und Time Series Viewer.
Aus der Vielzahl der Assistenten seien Interactive Data Analysis, Analyst und Enterprise Miner sowie ASSIST und Full Screen Processing kurz vorgestellt.
Backmatter
Metadaten
Titel
Datenanalyse mit SAS
verfasst von
Prof. Dr. Walter Krämer
Dr. Olaf Schoffer
Dr. Lars Tschiersch
Copyright-Jahr
2005
Verlag
Springer Berlin Heidelberg
Electronic ISBN
978-3-540-26776-8
Print ISBN
978-3-540-20787-0
DOI
https://doi.org/10.1007/b138049