Skip to main content

2017 | Buch

Data Science – Analytics and Applications

Proceedings of the 1st International Data Science Conference – iDSC2017

herausgegeben von: Peter Haber, Dr. Thomas Lampoltshammer, Dr. Manfred Mayr

Verlag: Springer Fachmedien Wiesbaden

insite
SUCHEN

Über dieses Buch

The iDSC Proceedings reports on state-of-the-art results in Data Science research, development and business. Topics and content of the IDSC2017 proceedings are

• Reasoning and Predictive Analytics

• Data Analytics in Community Networks

• Data Analytics through Sentiment Analysis

• User/Customer-centric Data Analytics

• Data Analytics in Industrial Application Scenarios

Advances in technology and changes in the business and social environment have led to an increasing flood of data, fueling both the need and the desire to generate value from these assets. The emerging field of Data Science is poised to deliver theoretical and practical solutions to the pressing issues of data-driven applications.

The 1st International Data Science Conference (iDSC2017 / http://www.idsc.at) organized by Salzburg University of Applied Sciences in cooperation with Information Professionals GmbH, established a new key Data Science event, by pro

viding a forum for the international exchange of Data Science technologies and applications.

Inhaltsverzeichnis

Frontmatter

Full Papers – Double Blind Reviewed and Reasoning and Predictive Analytics

Frontmatter
Circadian Cycles and Work Under Pressure: A Stochastic Process Model for E-learning Population Dynamics
Zusammenfassung
Internetanalysetechniken, konzipiert zur Quantifizierung von Internetnutzungsmustern, erlauben ein tieferes Verständnis menschlichen Verhaltens. Neueste Modelle menschlicher Verhaltensdynamiken haben gezeigt, dass im Gegensatz zu zufällig verteilten Ereignissen, Menschen Tätigkeiten ausüben, die schubweises Verhalten aufweisen. Besonders die Teilnahme an Internetkursen zeigt häufig Zeiträume von Inaktivität und Prokrastination gefolgt von häufigen Besuchen kurz vor den Prüfungen. Hier empfehlen wir ein stochastisches Prozessmodell, welches solche Muster kennzeichnet und Tagesrhythmen menschlicher Aktivitäten einbezieht. Wir bewerten unser Modell anhand von realen Daten, die während einer Zeitspanne von zwei Jahren auf einer Plattform für Universitätskurse gesammelt wurden. Anschließend schlagen wir ein dynamisches Modell vor, welches sowohl Prokrastinationszeiträume als auch Zeiträume des Arbeitens unter Zeitdruck berücksichtigt. Da Tagesrhythmen und Prokrastination-Druck-Kreisläufe wesentlich für menschliches Verhalten sind, kann unsere Methode auf andere Tätigkeiten ausgeweitet werden, wie zum Beispiel die Auswertung von Surfgewohnheiten und Kaufverhalten von Kunden.
Christian Backhage, César Ojeda, Rafet Sifa
Investigating and Forecasting User Activities in Newsblogs: A Study of Seasonality, Volatility and Attention Burst
Zusammenfassung
Das Studium allgemeiner Aufmerksamkeit ist ein Hauptthemengebiet im Bereich der Internetwissenschaft, da wir wissen wollen, wie die Beliebtheit eines bestimmten Nachrichtenthemas oder Memes im Laufe der Zeit zu- oder abnimmt. Neueste Forschungen konzentrierten sich auf die Entwicklung von Methoden zur Quantifizierung von Erfolg und Beliebtheit von Themen und untersuchten ihre Dynamiken im Laufe der Zeit. Allerdings wurde das gesamtheitliche Nutzerverhalten über Inhaltserstellungsplattformen größtenteils ignoriert, obwohl die Beliebtheit von Nachrichtenartikeln auch mit der Art verbunden ist, wie Nutzer Internetplattformen nutzen. In dieser Abhandlung zeigen wir ein neuartiges Framework, dass die Verlagerung der Aufmerksamkeit von Bevölkerungsgruppen in Hinblick auf Nachrichtenblogs untersucht. Wir konzentrieren uns auf das Kommentarverhalten von Nutzern bei Nachrichtenbeiträgen, was als Stellvertreter für die Aufmerksamkeit gegenüber Internetinhalten fungiert. Wir nutzen Methoden der Signalverarbeitung und Ökonometrie, um Verhaltensmuster von Nutzern aufzudecken, die es uns dann erlauben, das Verhalten einer Bevölkerungsgruppe zu simulieren und schlussendlich vorherzusagen, sobald eine Aufmerksamkeitsverlagerung auftritt. Nach der Untersuchung von Datenreihen von über 200 Blogs mit 14 Millionen Nachrichtenbeiträgen, haben wir zyklische Gesetzmäßigkeiten im Kommentarverhalten identifiziert: Aktivitätszyklen von 7 Tagen und 24 Tagen, die möglicherweise im Zusammenhang zu bekannten Dimensionen von Meme-Lebenszeiten stehen.
Christian Bauckhage, César Ojeda, Rafet Sifa
Knowledge-Based Short-Term Load-Forecasting for Maritime Container Terminals
An evaluation of two approaches based on operation plans
Zusammenfassung
Short-term load-forecasting for individual industrial customers has become an important issue, as interest in demand response and demand side management in modern energy systems has increased. Integrating knowledge of planned operations at industrial sites into the following day’s energy-consumption forecasting process provides advantages. In the case of a maritime container terminal, these operation plans are based on the list of ship arrivals and departures. In this paper two different approaches to integrating this knowledge are introduced: (i) case-based reasoning, similar to a lazy-learner that uses available knowledge during the forecasting process, and (ii) an Artificial Neural Network that has to be trained before the actual forecasting process occurs. The outcomes show that integrating more knowledge into the forecasting process enables better results in terms of forecast accuracy
Norman Ihle, Axel Hahn

Data Analytics in Community Networks

Frontmatter
Beyond Spectral Clustering: A Comparative Study of Community Detection for Document Clustering
Zusammenfassung
Dokumenten-Clustering ist ein allgegenwärtiges Problem bei der Datengewinnung, da Textdaten eine der gebräuchlichsten Kommunikationsformen sind. Die Reichhaltigkeit der Daten erfordert Methoden, die – je nach den Eigenschaften der Informationen, die gewonnen werden sollen – auf verschiedene Aufgaben zugeschnitten sind. In letzter Zeit wurden graphenbasierte Methoden entwickelt, die es hierarchischen, unscharfen und nicht-gaußförmigen Dichtemerkmalen erlauben, Strukturen in komplizierten Datenreihen zu identifizieren. In dieser Abhandlung zeigen wir eine neue Methodologie für das Dokumenten-Clustering, das auf einem Graphen basiert, der durch ein Vektorraummodell definiert ist. Wir nutzen einen überlappenden hierarchischen Algorithmus und zeigen die Gleichwertigkeit unserer Qualitätsfunktion mit der von Ncut. Wir vergleichen unsere Methode mit spektralem Clustering und anderen graphenbasierten Modellen und stellen fest, dass unsere Methode eine gute und flexible Alternative für das Nachrichten-Clustering darstellt, wenn eingehende Details zwischen den Themen benötigt werden.
Christian Backhage, Kostadin Cvejoski, César Ojeda, Rafet Sifa
Third Party Effect: Community Based Spreading in Complex Networks
Zusammenfassung
Ein wesentlicher Teil der Netzwerkforschung wurde dem Studium von Streuprozessen und Gemeinschaftserkennung gewidmet, ohne dabei die Rolle der Gemeinschaften bei den Merkmalen der Streuprozesse zu berücksichtigen. Hier verallgemeinern wir das SIR-Modell von Epidemien durch die Einführung einer Matrix von Gemeinschaftsansteckungsraten, um die heterogene Natur des Streuens zu erfassen, die durch die natürlichen Merkmale von Gemeinschaften definiert sind. Wir stellen fest, dass die Streufähigkeiten einer Gemeinschaft gegenüber einer anderen durch das interne Verhalten von Drittgemeinschaften beeinflusst wird. Unsere Ergebnisse bieten Einblicke in Systeme mit reichhaltigen Informationsstrukturen und in Populationen mit vielfältigen Immunreaktionen.
Christian Bauckhage, César Ojeda, Rafet Sifa, Shubham Agarwal
Cosine Approximate Nearest Neighbors
Zusammenfassung
Kosinus-Ähnlichkeitsgraphenerstellung, oder All-Pairs-Ähnlichkeitssuche, ist ein wichtiger Systemkern vieler Methoden der Datengewinnung und des maschinellen Lernens. Die Graphenerstellung ist eine schwierige Aufgabe. Bis zu n2 Objektpaare sollten intuitiv verglichen werden, um das Problem für eine Reihe von n Objekten zu lösen. Für große Objektreihen wurden Näherungslösungen für dieses Problem vorgeschlagen, welche die Komplexität der Aufgabe thematisieren, indem die meisten, aber nicht unbedingt alle, nächsten Nachbarn abgefragt werden. Wir schlagen eine neue Näherungsgraphen-Erstellungsmethode vor, welche Eigenschaften der Objektvektoren kombiniert, um effektiv weniger Vergleichskandidaten auszuwählen, welche wahrscheinlich Nachbarn sind. Außerdem kombiniert unsere Methode Filterstrategien, welche vor kurzem entwickelt wurden, um Vergleichskandidaten, die nicht vielversprechend sind, schnell auszuschließen, was zu weniger allgemeinen Ähnlichkeitsberechnungen und erhöhter Effizienz führt. Wir vergleichen unsere Methode mit mehreren gängigen Annäherungs- und exakten Grundwerten von sechs Datensätzen aus der Praxis. Unsere Ergebnisse zeigen, dass unser Ansatz einen guten Kompromiss zwischen Effizienz und Effektivität darstellt, mit einer 35,81-fachen Effizienzsteigerung gegenüber der besten Alternative bei 0,9 Recall.
David C. Anastasiu

Data Analytics through Sentiment Analysis

Frontmatter
Information Extraction Engine for Sentiment-Topic Matching in Product Intelligence Applications
Zusammenfassung
Produktbewertungen sind eine wertvolle Informationsquelle sowohl für Unternehmen als auch für Kunden. Während Unternehmen diese Informationen dazu nutzen, ihre Produkte zu verbessern, benötigen Kunden sie als Unterstützung für die Entscheidungsfindung. Mit Bewertungen, Kommentaren und zusätzlichen Informationen versuchen viele Onlineshops potenzielle Kunden dazu zu animieren, auf ihrer Seite einzukaufen. Allerdings mangelt es aktuellen Online-Bewertungen an einer Kurzzusammenfassung, inwieweit bestimmte Produktbestandteile den Kundenwünschen entsprechen, wodurch der Produktvergleich erschwert wird. Daher haben wir ein Produktinformationswerkzeug entwickelt, dass gängige Technologien in einer Engine maschineller Sprachverarbeitung vereint. Die Engine ist in der Lage produktbezogene Online-Daten zu sammeln und zu sichern, Metadaten auszulesen und Meinungen. Die Engine wird auf technische Online-Produktbewertungen zur Stimmungsanalyse auf Bestandteilsebene angewendet. Der vollautomatisierte Prozess durchsucht das Internet nach Expertenbewertungen, die sich auf Produktbestandteile beziehen, und aggregiert die Stimmungswerte der Bewertungen.
Cornelia Ferner, Werner Pomwenger, Stefan Wegenkittl, Martin Schnöll, Veronika Haaf, Arnold Keller
Towards German Word Embeddings: A Use Case with Predictive Sentiment Analysis
Zusammenfassung
Trotz des Forschungsbooms im Bereich Worteinbettungen und ihrer Textmininganwendungen der letzten Jahre, konzentriert sich der Großteil der Publikationen ausschließlich auf die englische Sprache. Außerdem ist die Hyperparameterabstimmung ein Prozess, der selten gut dokumentiert (speziell für nicht-englische Texte), jedoch sehr wichtig ist, um hochqualitative Wortwiedergaben zu erhalten. In dieser Arbeit zeigen wir, wie verschiedene Hyperparameterkombinationen Einfluss auf die resultierenden deutschen Wortvektoren haben und wie diese Wortwiedergaben Teil eines komplexeren Modells sein können. Im Einzelnen führen wir als erstes eine intrinsische Bewertung unserer deutschen Worteinbettungen durch, die später in einem vorausschauenden Stimmungsanalysemodell verwendet werden. Letzteres dient nicht nur einer intrinsischen Bewertung der deutschen Worteinbettungen, sondern zeigt außerdem, ob Kundenwünsche nur durch das Einbetten von Dokumenten vorhergesagt werden können.
Eduardo Brito, Rafet Sifa, Kostadin Cvejoski, César Ojeda, Christian Bauckhage

User/Customer-centric Data Analytics

Frontmatter
Feature Extraction and Large Activity-Set Recognition Using Mobile Phone Sensors
Zusammenfassung
Diese Arbeit beschäftigt sich mit dem Problem der Aktivitätserkennung unter Verwendung von Daten, die vom Mobiltelefon des Benutzers erhoben wurden. Wir beginnen mit der Betrachtung und Bewertung der Beschränkungen der gängigen Aktivitätserkennungsansätze für Mobiltelefone. Danach stellen wir unseren Ansatz zur Erkennung einer großen Anzahl von Aktivitäten vor, welche die meisten Nutzeraktivitäten abdeckt. Außerdem werden verschiedene Umgebungen unterstützt, wie zum Beispiel zu Hause, auf Arbeit und unterwegs. Unser Ansatz empfiehlt ein einstufiges Klassifikationsmodell, dass die Aktivitäten genau klassifiziert, eine große Anzahl von Aktivitäten umfangreich abdeckt und in realen Umgebungen umsetzbar anzuwenden ist. In der Literatur gibt es keinen einzigen Ansatz, der alle drei Eigenschaften in sich vereint. In der Regel optimieren vorhandene Ansätze ihre Modelle entweder für einen oder maximal zwei der folgenden Eigenschaften: Genauigkeit, Umfang und Anwendbarkeit. Unsere Ergebnisse zeigen, dass unser Ansatz ausreichende Leistung im Hinblick auf Genauigkeit bei einem realistischen Datensatz erbringt, trotz deutlich erhöhter Aktivitätszahl im Vergleich zu gängigen Modellen, die auf Aktivitätserkennen basieren.
Wassim El Hajj, Ghassen Ben Brahim, Cynthia El-Hayek, Hazem Hajj
The Choice of Metric for Clustering of Electrical Power Distribution Consumers
Zusammenfassung
Ein bedeutender Teil jedes Systemdatenmodells zur Energieverteilungsverwaltung ist ein Modell der Belastungsart. Eine Belastungsart stellt ein typisches Belastungsverhalten einer Gruppe gleicher Kunden dar, z. B. einer Gruppe von Haushalts-, Industrie- oder gewerblichen Kunden. Eine verbreitete Methode der Erstellung von Belastungsarten ist die Bündelung individueller Energieverbraucher auf der Basis ihres jährlichen Stromverbrauchs. Um ein zufriedenstellendes Maß an Belastungsartqualität zu erreichen, ist die Wahl des geeigneten Ähnlichkeitsmaßes zur Bündelung entscheidend. In dieser Abhandlung zeigen wir einen Vergleich verschiedener Metriken auf, die als Ähnlichkeitsmaß in unserem Prozess der Belastungsarterstellung eingesetzt werden. Zusätzlich zeigen wir eine neue Metrik, die auch im Vergleich enthalten ist. Die Metriken und die Qualität der damit erstellten Belastungsarten werden unter Verwendung von Realdatensätzen untersucht, die über intelligente Stromzähler des Verteilungsnetzes erhoben wurden.
Nikola Obrenović, Goran Vidaković, Ivan Luković
Evolution of the Bitcoin Address Graph
An Exploratory Longitudinal Study
Zusammenfassung
Bitcoin ist eine dezentrale virtuelle Währung, die dafür genutzt werden kann, weltweit pseudoanonymisierte Zahlungen innerhalt kurzer Zeit und mit vergleichsweise geringen Transaktionskosten auszuführen. In dieser Abhandlung zeigen wir die ersten Ergebnisse eine Langzeitstudie zur Bitcoinadressenkurve, die alle Adressen und Transaktionen seit dem Start von Bitcoin im Januar 2009 bis zum 31. August 2016 enthält. Unsere Untersuchung enthüllt eine stark verschobene Gradverteilung mit einer geringen Anzahl von Ausnahmen und zeigt, dass sich die gesamte Kurve stark ausdehnt. Außerdem zeigt sie die Macht der Adressbündelungsheuristik zur Identifikation von realen Akteuren, die es bevorzugen, Bitcoin für den Wertetransfer statt für die Wertespeicherung zu verwenden. Wir gehen davon aus, dass diese Abhandlung neue Einblicke in virtuelle Währungsökosysteme bietet und als Grundlage für das Design zukünftiger Untersuchungsmethoden und -infrastrukturen dienen kann.
Erwin Filtz, Axel Polleres, Roman Karl, Bernhard Haslhofer

Data Analytics in Industrial Application Scenarios

Frontmatter
A Reference Architecture for Quality Improvement in Steel Production
Zusammenfassung
Es gibt weltweit einen erhöhten Bedarf an Stahl, aber die Stahlherstellung ist ein enorm anspruchsvoller und kostenintensiver Prozess, bei dem gute Qualität schwer zu erreichen ist. Die Verbesserung der Qualität ist noch immer die größte Herausforderung, der sich die Stahlbranche gegenüber sieht. Das EUProjekt PRESED (Predictive Sensor Data Mining for Product Quality Improvement) [Vorrausschauende Sensordatengewinnung zur Verbesserung der Produktqualität] stellt sich dieser Herausforderung durch die Fokussierung auf weitverbreitete, wiederkehrende Probleme. Die Vielfalt und Richtigkeit der Daten sowie die Veränderung der Eigenschaften des untersuchten Materials erschwert die Interpretation der Daten. In dieser Abhandlung stellen wir die Referenzarchitektur von PRESED vor, die speziell angefertigt wurde, um die zentralen Anliegen der Verwaltung und Operationalisierung von Daten zu thematisieren. Die Architektur kombiniert große und intelligente Datenkonzepte mit Datengewinnungsalgorithmen. Datenvorverarbeitung und vorausschauende Analyseaufgaben werden durch ein plastisches Datenmodell unterstützt. Der Ansatz erlaubt es den Nutzern, Prozesse zu gestalten und mehrere Algorithmen zu bewerten, die sich gezielt mit dem vorliegenden Problem befassen. Das Konzept umfasst die Sicherung und Nutzung vollständiger Produktionsdaten, anstatt sich auf aggregierte Werte zu verlassen. Erste Ergebnisse der Datenmodellierung zeigen, dass die detailgenaue Vorverarbeitung von Zeitreihendaten durch Merkmalserkennung und Prognosen im Vergleich zu traditionell verwendeter Aggregationsstatistik überlegene Erkenntnisse bietet.
David Arnu, Edwin Yaqub, Claudio Mocci, Valentina Colla, Marcus Neuer, Gabriel Fricout, Xavier Renard, Christophe Mozzati, Patrick Gallinari
Anomaly Detection and Structural Analysis in Industrial Production Environments
Zusammenfassung
Das Erkennen von anormalem Verhalten kann im Kontext industrieller Anwendung von entscheidender Bedeutung sein. Während moderne Produktionsanlagen mit hochentwickelten Alarmsteuerungssytemen ausgestattet sind, reagieren diese hauptsächlich auf Einzelereignisse. Aufgrund der großen Anzahl und der verschiedenen Arten von Datenquellen ist ein einheitlicher Ansatz zur Anomalieerkennung nicht immer möglich. Eine weitverbreitete Datenart sind Logeinträge von Alarmmeldungen. Sie erlauben im Vergleich zu Sensorrohdaten einen höheren Abstraktionsgrad. In einem industriellen Produktionsszenario verwenden wir sequentielle Alarmdaten zur Anomalieerkennung und -auswertung, basierend auf erstrangigen Markov-Kettenmodellen. Wir umreißen hypothesegetriebene und beschreibungsorientierte Modellierungsoptionen. Außerdem stellen wir ein interaktives Dashboard zur Verfügung, um die Ergebnisse zu untersuchen und darzustellen.
Martin Atzmueller, David Arnu, Andreas Schmidt
Semantically Annotated Manufacturing Data to support Decision Making in Industry 4.0: A Use-Case Driven Approach
Bringing new Structure into existing Data to support Smart Manufacturing
Zusammenfassung
Intelligente Fertigung oder Industrie 4.0 ist ein Schlüsselkonzept, um die Produktivität und Qualität in industriellen Fertigungsunternehmen durch Automatisierung und datengetriebene Methoden zu erhöhen. Intelligente Fertigung nutzt Theorien cyber-physischer Systeme, dem Internet der Dinge sowie des Cloud-Computing. In dieser Abhandlung konzentrieren sich die Autoren auf Ontologie und (räumliche) Semantik, die als Technologie dienen, um semantische Kompatibilität der Fertigungsdaten sicherzustellen. Zusätzlich empfiehlt die Abhandlung, fertigungsrelevante Daten über die Einführung von Geografie und Semantik als Sortierformate zu strukturieren. Der in dieser Abhandlung verfolgte Ansatz sichert Fertigungsdaten verschiedener IT-Systeme in einer Graphdatenbank. Während des Datenintegrationsprozesses kommentiert das System systematisch die Daten – basierend auf einer Ontologie, die für diesen Zweck entwickelt wurde – und hängt räumliche Informationen an. Der in dieser Abhandlung vorgestellte Ansatz nutzt eine Analyse von Fertigungsdaten in Bezug auf Semantik und räumliche Abmessung. Die Methodologie wird auf zwei Anwendungsfälle für ein Halbleiterfertigungsunternehmen angewendet. Der erste Anwendungsfall behandelt die Datenanalyse zur Ereignisanalyse unter Verwendung von semantischen ˜hnlichkeiten. Der zweite Anwendungsfall unterstützt die Entscheidungsfindung in der Fertigungsumgebung durch die Identifizierung potentieller Engpässe bei der Halbleiterfertigungslinie.
Stefan Schabus, Johannes Scholz

Short Papers and Student Contributions

Frontmatter
Improving Maintenance Processes with Data Science
How Machine Learning Opens Up New Possibilities
Zusammenfassung
In this presentation we briefly describe potential benefits of using data analysis methods to improve maintenance processes. After a short introduction to an automated, multi-step maintenance process and a survey of the state of data in industry, we explain, how selected data analysis methods can be used to improve maintenance demand detection
Dorian Prill, Simon Kranzer, Robert Merz
ouRframe
A Graphical Workflow Tool for R
Zusammenfassung
ouRframe is a graphical workflow tool, which is based on the statistical programming language R, and which allows its users to create individual, mathematical data analysis models by assembling function blocks in a drawing area. It can be used for all data analyses that can be performed in R and it can be extended with customized blocks. For now, ouRframe is implemented as a prototype, but in the future, it could be further developed into a fully functional Open Source product.
Marco Gruber, Elisabeth Birnbacher, Tobias Fellner
Sentiment Analysis
A Students Point of View
Zusammenfassung
Sentiment Analysis (SA) is a new, fast growing scientific field, which makes it quite difficult for people, e.g.: marketing executives, sociologists, etc. to stay up to date to the vast possibilities, this field offers. But also for students, who are interested in learning a subject, apart from university, this task can be quite demanding. Due to technological advancements, it is easy to gain knowledge about aspects of SA, but it still takes time to experiment and analyze various techniques. Therefore, in this presentation, there will be an overview of the different approaches of SA, and how some of them can be applied. This includes the coding language Python, libraries/toolkits, and the involvement of social media. The primary goal is to give an overview of existing possibilities of SA implementations.
Hofer Dominik
Metadaten
Titel
Data Science – Analytics and Applications
herausgegeben von
Peter Haber
Dr. Thomas Lampoltshammer
Dr. Manfred Mayr
Copyright-Jahr
2017
Electronic ISBN
978-3-658-19287-7
Print ISBN
978-3-658-19286-0
DOI
https://doi.org/10.1007/978-3-658-19287-7