Skip to main content

2016 | Buch

Big Data

Grundlagen, Systeme und Nutzungspotenziale

insite
SUCHEN

Über dieses Buch


Dieser Herausgeber-Band bietet eine umfassende Einführung in das Gebiet Big Data. Neben einer Markteinschätzung und grundlegenden Konzepten (semantische Modellbildung, Anfragesprachen, Konsistenzgewährung etc.) werden wichtige NoSQL-Systeme (Key/Value Store, Column Store, Document Store, Graph Database) vorgestellt und erfolgreiche Anwendungen aus unterschiedlichen Perspektiven erläutert. Eine Diskussion rechtlicher Aspekte und ein Vorschlag zum Berufsbild des Data Scientist runden das Buch ab. Damit erhält die Leserschaft Handlungsempfehlungen für die Nutzung von Big-Data-Technologien im Unternehmen.

Inhaltsverzeichnis

Frontmatter

Grundlagen

Frontmatter
1. Was versteht man unter Big Data und NoSQL?
Zusammenfassung
Verfolgt man die Diskussionen in der europäischen Wirtschaft, erkennt man, dass der Begriff Big Data in der Praxis nicht klar definiert ist. Er ist zwar in aller Munde, doch nur wenige haben eine Antwort auf die Frage, was Big Data ist und welche Unterschiede zu den bestehenden Datenbeständen im Unternehmen existieren. Dieses Kapitel gibt eine Begriffsklärung für Big Data und NoSQL. Anhand der drei Merkmale Volume, Velocity und Variety werden grundlegende Aspekte von Big Data erläutert. Um Big Data wertschöpfend in einer Firma oder Organisation einzusetzen, braucht es Technologien und Fähigkeiten, neben formatierten Daten auch semi-strukturierte und unstrukturierte Daten effizient verarbeiten zu können. Neben den Grundlagen zu SQL- und NoSQL-Datenbanken werden die Kernkompetenzen für ein Datenmanagement im Zeitalter von Big Data aufgezeigt. Weiterführende Literaturangaben runden das Kapitel ab.
Daniel Fasel, Andreas Meier
2. Datenmanagement mit SQL und NoSQL
Zusammenfassung
Viele webbasierte Anwendungen setzen für die unterschiedlichen Dienste adäquate Datenhaltungssysteme ein. Die Nutzung einer einzigen Datenbanktechnologie, z. B. der relationalen, genügt nicht mehr. In diesem Kapitel werden entsprechend die Grundlagen für relationale Datenbanken – SQL-Datenbanken – sowie für NoSQL-Datenbanken gegeben. Als Einstieg dient ein elektronischer Shop, welcher gleichzeitig SQL- und NoSQL-Datenbanken als Architekturkomponenten beansprucht. Danach werden Modellierungsansätze für den Einsatz von relationalen und graphorientierten Datenbanken einander gegenüber gestellt. Die Nutzung von Daten mittels Datenbankabfragesprachen wird exemplarisch mit SQL (Structured Query Language) für relationale und mit Cypher für graphorientierte Datenbanken illustriert. Zudem werden unterschiedliche Konsistenzvarianten besprochen.
Andreas Meier
3. Die Digitalisierung als Herausforderung für Unternehmen: Status Quo, Chancen und Herausforderungen im Umfeld BI & Big Data
Zusammenfassung
Information wird immer stärker zur strategischen Ressource, deren sinnvolle Erschließung und Nutzung wettbewerbskritisch ist. Aktuelle Forschungsergebnisse lassen vermuten, dass insbesondere der richtige Umgang mit Informationen zu einem zentralen Wettbewerbsfaktor geworden ist. Vor diesem Hintergrund hat das Institut für Business Intelligence (IBI) die Studie „Competing on Analytics – Herausforderungen – Potenziale und Wertbeiträge von Business Intelligence und Big Data“ aufgesetzt. Aufbauend auf diese Studie analysiert dieser Beitrag, ausgehend von ausgewählten Dimensionen der Digitalisierung, den Status Quo von Business Intelligence (BI) und Big Data im deutschsprachigen Raum. Im Fokus dabei stehen nicht einzelne Technologien, sondern Fragestellungen über den Entwicklungsstand und Anwendungspotenzialen. Anhand dieser Bestandsaufnahme werden die Herausforderungen für die Unternehmen im Bereich BI & Big Data Verständnisses abgeleitet und thesenartig zusammengefasst.
Andreas Seufert
4. Data Scientist als Beruf
Zusammenfassung
Data Scientists sind gefragt: Laut Mc Kinsey Global Institute wird es in den nächsten Jahren allein in den USA einen Nachfrageüberschuss an 190.000 Data Scientists geben. Dieser sehr starke Nachfragetrend zeigt sich auch in Europa und im Speziellen in der Schweiz. Doch was verbirgt sich hinter einem Data Scientist und wie kann man sich zum Data Scientist ausbilden lassen?
In diesem Kapitel definieren wir die Begriffe Data Science und das zugehörige Berufsbild des Data Scientists. Danach analysieren wir drei typische Use Cases und zeigen auf, wie Data Science zur praktischen Anwendung kommt. Im letzten Teil des Kapitels berichten wir über unsere Erfahrungen aus dem schweizweit ersten Diploma of Advanced Studies (DAS) in Data Science, das an der ZHAW im Herbst 2014 erstmals gestartet ist.
Kurt Stockinger, Thilo Stadelmann, Andreas Ruckstuhl
5. Der Wert von Daten aus juristischer Sicht am Beispiel des Profiling
Zusammenfassung
Im Zusammenhang mit Big Data wird häufig erwähnt, Daten seien das neue Öl unserer digitalisierten Wirtschaft. Kann Daten tatsächlich wie Öl ein Wert zugemessen werden? Wie verhält es sich dazu aus rechtlicher Sicht? Können Daten mithin gekauft und verkauft werden? Wäre dies von Unternehmen und Konsumentinnen und Konsumenten sogar gewünscht? Welche rechtlichen Probleme stellen sich im Zusammenhang mit der Datenbearbeitung beim Profiling? Am Beispiel des Profiling sollen diese Fragen nachfolgend erörtert werden.
Olivier Heuberger-Götsch

Systeme

Frontmatter
6. Übersicht über NoSQL-Technologien und -Datenbanken
Zusammenfassung
Dieses Kapitel bietet eine Übersicht über NoSQL-Technologien, Apache Hadoop und Real Time Streaming. Für jede Technologie werden ihre Einsatzgebiete erläutert. Des Weiteren wird bei jeder Technologie anhand eines kleinen praktischen Beispiels dargestellt, wie diese eingesetzt werden können.
Daniel Fasel
7. Erweiterung des Data Warehouse um Hadoop, NoSQL & Co
Zusammenfassung
Datenintegration und Data Warehouse sind Technologien, die Unternehmen seit vielen Jahren helfen, wertvolles Wissen aus ihren unterschiedlichen IT-Systemen zu bergen. In den Datenfluten liegt ein enormes Optimierungspotenzial für das Geschäft begraben, welches sich durch Business Intelligence-Werkzeuge (BI) nutzbar machen lässt. Die Realität, in der BI-Werkzeuge eingesetzt werden, hat sich aber in jüngster Vergangenheit stark geändert: Heute erzeugen viele Unternehmen überproportional mehr Daten und die Reaktionsgeschwindigkeit für die Auswertung dieser Informationen hat sich drastisch verkürzt. Gleichzeitig nimmt der Wissensdurst von Organisationen und Unternehmen zu. Der klassische Data Warehouse(DW)-Ansatz stößt in diesem Umfeld schnell an seine Grenzen. Big Data-Technologien versprechen, den neuen Anforderungen gerecht zu werden und bieten vielversprechende Ansätze, um das althergebrachte Data Warehouse-Konzept zu erweitern und zu modernisieren.
Stefan Müller
8. Impala: Eine moderne, quellen-offene SQL Engine für Hadoop
Zusammenfassung
Impala von Cloudera ist ein modernes, massiv paralleles Datenbanksystem, welches von Grund auf für die Bedürfnisse und Anforderungen einer Big Data Umgebung wie Hadoop entworfen wurde. Das Ziel von Impala ist es, klassische SQL-Abfragen mit geringer Latenz und Laufzeit auszuführen, so wie man es von typischen BI/DW Lösungen gewohnt ist. Gleichzeitig sollen dabei sehr große Quelldaten in Hadoop gelesen werden, ohne dass ein weiterer Extraktionsprozess in zusätzliche Systemlandschaften notwendig ist. Dieses Kapitel soll einen Überblick über Impala aus der Benutzerperspektive geben und detaillierter auf die Hauptkomponenten und deren Entwurfsentscheidungen eingehen. Zusätzlich werden wir einen Geschwindigkeitsvergleich mit anderen bekannten SQL-auf-Hadoop Lösungen vorstellen, der den besonderen Ansatz von Impala unterstreicht.
Marcel Kornacker, Alexander Behm, Victor Bittorf, Taras Bobrovytsky, Casey Ching, Alan Choi, Justin Erickson, Martin Grund, Daniel Hecht, Matthew Jacobs, Ishaan Joshi, Lenni Kuff, Dileep Kumar, Alex Leblang, Nong Li, Ippokratis Pandis, Henry Robinson, David Rorke, Silvius Rus, John Russel, Dimitris Tsirogiannis, Skye Wanderman-Milne, Michael Yoder
9. SLA-basierte Konfiguration eines modularen Datenbanksystems für die Cloud
Zusammenfassung
Die Popularität des Cloud Computing hat dazu geführt, dass viele Unternehmen ihre Anwendungen nicht mehr selbst mit eigenen Ressourcen betreiben. Diese Anwendungen laufen vielmehr komplett „in der Cloud“. Da die Datenverwaltung ein wesentlicher Teil dieser Anwendungen ist, werden Cloud-Anbieter mit vielen unterschiedlichen Anforderungen an die Speicherung von und den Zugriff auf Daten konfrontiert. Daher müssen Cloud-Anbieter auch entsprechend viele verschiedene Varianten für die Verwaltung von Daten bereitstellen. Diese Varianten unterscheiden sich dabei nicht nur in den technischen Eigenschaften (z. B. Datenkonsistenz, Verfügbarkeit oder Antwortzeit), sondern auch in den Kosten für die benötigte Infrastruktur, die dafür anfallen. Zukünftige Cloud-Lösungen sollten daher nicht nur Einzellösungen oder wenige vorgegebene Konfigurationen anbieten, sondern aus konfigurierbaren Modulen und Protokollen bestehen, die dynamisch, je nach Anforderungen der Nutzer, kombiniert werden können. Damit kann eine größtmögliche Flexibilität erreicht werden, um gleichzeitig möglichst viele heterogene Anforderungen von Cloud-Nutzern zu befriedigen. Während Module die Bausteine eines solchen Systems darstellen, beschreiben die Protokolle das gewünschte Verhalten dieser Bausteine. Eine große Herausforderung ist die Auswahl der geeigneten Module und Protokolle, deren Konfiguration und dynamische Anpassung an sich verändernde Anforderungen.
Filip-Martin Brinkmann, Ilir Fetai, Heiko Schuldt
10. In-Memory-Platform SAP HANA als Big Data-Anwendungsplattform
Zusammenfassung
Das vorliegende Kapitel befasst sich mit der In-Memory Plattform SAP HANA. Zu Beginn wird aufgezeigt, weshalb SAP HANA überhaupt eine Plattform darstellt. Dazu wird in einem ersten Schritt definiert, was in der (Wirtschafts-)Informatik unter einer Plattform verstanden wird und aus welchen Bestandteilen sich eine solche in diesem Kontext zusammensetzen kann. Anschließend wird kurz beleuchtet, welche Merkmale eine Plattform hinsichtlich der Schaffung eines Mehrwertes für die beteiligten Akteure aufweisen sollte. In der Folge wird dargelegt, inwiefern es sich bei SAP HANA um eine innovative Technologie handelt, worin die Unterschiede zu bestehenden Systemen liegen und welche Möglichkeiten sich bieten, die technische Leistungsfähigkeit der Plattform in neue Geschäftsmodelle und betriebswirtschaftliche Erfolge umzusetzen. Hierfür erfolgt zunächst eine genauere Betrachtung der technischen Merkmale und Besonderheiten von SAP HANA. Insbesondere werden die Vorteile der In-Memory Technologie gegenüber klassischen Disk-basierten Datenbanksystemen beleuchtet. Des Weiteren wird näher auf Spaltenorientierung, Parallelisierung und das Überwinden der herkömmlichen Trennung zwischen transaktionaler und analytischer Datenverarbeitung eingegangen. Das Kapitel schließt mit einer Betrachtung der Einsatzmöglichkeiten von SAP HANA. Einem Blick auf die verschiedenen Architekturgrundmuster der Plattform sowie der Deployment-Optionen folgt eine Darstellung möglicher Einsatzszenarien. Es wird erläutert, dass Unternehmen sich in der heutigen Geschäftswelt einer immer größeren Fülle an verfügbaren Daten ausgesetzt sehen, warum es für ihren zukünftigen Erfolg wichtig ist, sich die darin enthaltenen Informationen zu Nutze zu machen und welche konkreten Anwendungen dies in Kombination mit der SAP HANA Plattform ermöglichen.
Pascal Prassol

Nutzung

Frontmatter
11. Cloud-Servicemanagement und Analytics: Nutzung von Business Intelligence Technologien für das Service Management von Cloud Computing Diensten
Zusammenfassung
Der Bezug von Cloud-Services kann weitreichende Prozessveränderungen im IT-Servicemanagement (ITSM) zur Folge haben. Dabei ist aus Anwendersicht vor allem die zunehmende Bedeutung der Phasen Service Strategy und Service Design hervorzuheben. Demgegenüber ist zu erwarten, dass im Rahmen des Cloud Computing die Phasen Service Transition und Service Operation für die Leistungsabnehmer an Relevanz verlieren. Derweilen bleibt das Continual Service Improvement unverändert wichtig. Die weitreichenden Prozessveränderungen im Service Management können durch moderne Business Intelligence Analyseverfahren unterstützt werden. Anhand der ITSM-Prozesse Business Relationship Management, Information Security Management, Event Management, und Incident Management werden im Rahmen des Beitrags konkrete Potenziale von verschiedenen Daten-, Text-, Web- und Netzwerkanalysen dargestellt.
Thorsten Pröhl, Rüdiger Zarnekow
12. Big Data in der Mobilität – FCD Modellregion Salzburg
Zusammenfassung
Mobilität als System betrachtet ist vielschichtig, hoch dynamisch und komplex. Aufgrund von unterschiedlichen Einflussfaktoren ist das System einem ständigen Wandel unterzogen und nur schwer zu verstehen und zu kontrollieren. Der folgende Artikel beschreibt, wie Fragestellungen im Bereich der Mobilität mit Hilfe von Big Data untersucht und besser verstanden werden können. Hierbei geht es einerseits um den Zugang zu und die Nutzbarmachung von geeigneten Datenquellen, die das System „Mobilität“ beschreiben, andererseits aber auch darum, wie die Daten aufbereitet werden müssen, um als Entscheidungsgrundlagen für aktuelle und zukünftige Fragestellungen geeignet zu sein. Erstes wird zeigen, dass vor allem die Integration von unterschiedlichsten Datenquellen neue, bisher nicht betrachtete Blickwinkel auf das Mobilitätsgeschehen zulässt. Zweites geht der Frage nach, wie aus der Vielzahl von heute sowie zukünftig verfügbaren Datenquellen Mobilitätsinformationen extrahiert werden können, die in Folge von unterschiedlichen Stakeholdern unterschiedlich genutzt werden. Für Mobilitätsdienstleister, Mobilitätsentscheidungsträger und Mobilitätsforscher bedeutet Big Data vor allem ein Umdenken von modellbasierten zu (mehr) datengetriebenen Methoden zur Systembeschreibung. Für Mobilitätsteilnehmer bewegt sich Big Data zwischen der optimierten und einfacheren Erfüllung von Mobilitätsbedürfnissen und der totalen Überwachung. Der Beitrag zeigt anhand von konkreten Beispielen, dass Big Data in der Mobilität nicht das Ziel sondern die logische Konsequenz der fortschreitenden Digitalisierung ist. Aus heutiger Sicht scheinen Digitalisierung und Datenintegration allen Stakeholdern einen Vorteil zu verschaffen, wodurch sich ein Nutzen sowohl für den Einzelnen aber auch für die Gesellschaft ergibt.
Richard Brunauer, Karl Rehrl
13. Semantische Suchverfahren in der Welt von Big Data
Semantische Suchverfahren – Automatisierte Kategorisierung und Erhöhung der Relevanz bei der thematischen Suche in Big Data
Zusammenfassung
Um relevante Informationen aus der unüberschaubaren heutigen Datenwelt (Big Data) zu identifizieren, genügen heutige Suchmaschinen nicht mehr, wenn bloß nach eingegebenen Stichwörtern (Zeichenketten) in Textinhalten gesucht werden kann. Vielmehr müssen diese fähig sein nach Instanzen von Konzepten einer Ontologie zu suchen, also nach Repräsentationen der zugrunde liegenden Begriffe und derer Zusammenhänge. Durch die Verknüpfungen von Entitäten untereinander werden komplexere Abfragen möglich, da die Inhalte, in denen gesucht wird, thematisch kategorisiert werden können. Vor diesem Hintergrund haben sich viele Berufsbilder in den letzten Jahren sehr verändert und komplett neue sind hinzugekommen. In der Arbeitsforschung hat sich der neue Begriff des Information Workers bzw. Knowledge Workers herausgebildet. Für diese Infor mation Workers ist es wichtig mit thematischen Suchtechnologien, große Mengen von Dokumenten schnell zu finden und geschäftskritische Informationen aus ihnen zu extrahieren. Journalisten, Bibliothekare, Banker, Wirtschaftsprüfer, Ärzte, Wissenschaftler, Kundenbetreuer u.v.m. werden vermehrt auf Werkzeuge, die diese Technologien einsetzen, angewiesen sein. Mit dem Produkt Find-it der Canoo Engineering AG wird ein Anwendungsfall in einem Redaktionssystem gezeigt.
Urs Hengartner
14. Skalierbar Anomalien erkennen für Smart City Infrastrukturen
Zusammenfassung
In diesem Kapitel wird ein Informationssystem beschrieben, welches Anomalien in großen Netzwerken erkennen kann. Ein solches Netzwerk ist beispielsweise das Wasserversorgungsnetz einer Stadt. Anhand eines Prototyps wird aufgezeigt, wie potenzielle Anomalien dynamisch und in Echtzeit entdeckt werden können.
Djellel Eddine Difallah, Philippe Cudré-Mauroux, Sean A. McKenna, Daniel Fasel
15. Betriebswirtschaftliche Auswirkungen bei der Nutzung von Hadoop innerhalb des Migros-Genossenschafts-Bund
Zusammenfassung
Das Potenzial von Big Data aus Informationen erfolgskritisches Wissen zu generieren, scheint unendlich zu sein, die Entwicklung steht indes erst am Anfang. Der vorliegende Beitrag beschreibt für Nichttechniker, wie die Migros die sich neu ergebenden Möglichkeiten zukunftsorientiert und wertschöpfend nutzt. Um die steigenden Anforderungen des Fachbereichs zu bedienen, wurde mit Hilfe von innovativen Hadoop-Technologien eine skalierbare Architektur für eine Analyseplattform definiert und realisiert. Die Systemarchitektur, technologische Innovationen sowie die wichtigsten Softwareprodukte werden genannt. Beantwortet werden soll insbesondere die Frage, inwiefern die Technologie durch ihren generischen Ansatz in die bestehende Infrastruktur und die etablierten Prozesse integriert werden kann. Die Ansätze werden anhand eines ausgewählten Fallbeispiels diskutiert.
Die betriebswirtschaftlichen Effekte inklusive einer Kostenbetrachtung werden ebenso beleuchtet, wie die Angabe von System-Kennzahlen.
Christian Gügi, Wolfgang Zimmermann
16. Design und Umsetzung eines Big Data Service im Zuge der digitalen Transformation eines Versicherungsunternehmens
Zusammenfassung
Der folgende Beitrag verschafft einen Überblick über verschiedene Facetten, Dimensionen und Auswirkungen der digitalen Transformation in Unternehmen. Dabei werden im ersten Teil verschiedene Definitionen, Studien und Modelle diskutiert, mit welchen Unternehmen die Ziele sowie ihren digitalen Reifegrad messen, bewerten und verbessern können.
Der zweite Teil geht anhand einer Fallstudie im Versicherungsumfeld auf die Herausforderungen und Erfahrungen einer digitalen Transformation ein, die bei der Umsetzung eines Proof-of-Concepts gemacht wurden. Dabei wird auf die interdisziplinäre Zusammenarbeit zwischen Management, IT, Analytics und den Fachbereichen wie Marketing und Vertrieb eingegangen, die über die verschiedenen Phasen des Projektes hinweg miteinander interagierten.
Darius Zumstein, Dirk Kunischewski
17. Granular Computing – Fallbeispiel Knowledge Carrier Finder System
Zusammenfassung
Die automatisierte Strukturierung und Speicherung von komplexen, semistrukturierten Daten in einer graph-basierten Wissensdatenbank erfordert eine logische und auch hierarchische Verknüpfung, damit die Information für Anwender und Applikationen leichter zu erreichen und interpretieren sind. Der Aufbau ermöglicht Informationen granular zu clustern und in einer mehrschichtigen, hierarchischen Struktur abzubilden. Die Visualisierung so entstandenen Granules, erlaubt die Entdeckung von Wissen aus bestehenden Informationen. Im Fallbei-spiel werden webbasierte, semistrukturierte Daten einer Question and Answer Plattform in einer Graph Datenbank abgebildet, visualisiert und als Teil eines Knowledge Carrier Finder Systems beschrieben.
Alexander Denzler, Marcel Wehrle
Backmatter
Metadaten
Titel
Big Data
herausgegeben von
Daniel Fasel
Andreas Meier
Copyright-Jahr
2016
Electronic ISBN
978-3-658-11589-0
Print ISBN
978-3-658-11588-3
DOI
https://doi.org/10.1007/978-3-658-11589-0