Skip to main content

2020 | OriginalPaper | Buchkapitel

Framework to Optimize Data Processing Pipelines Using Performance Metrics

verfasst von : Syed Muhammad Fawad Ali, Robert Wrembel

Erschienen in: Big Data Analytics and Knowledge Discovery

Verlag: Springer International Publishing

Aktivieren Sie unsere intelligente Suche, um passende Fachinhalte oder Patente zu finden.

search-config
loading …

Abstract

Optimizing Data Processing Pipelines (DPPs) is challenging in the context of both, data warehouse architectures and data science architectures. Few approaches to this problem have been proposed so far. The most challenging issue is to build a cost model of the whole DPP, especially if user defined functions (UDFs) are used. In this paper we addressed the problem of the optimization of UDFs in data-intensive workflows and presented our approach to construct a cost model to determine the degree of parallelism for parallelizable UDFs .

Sie haben noch keine Lizenz? Dann Informieren Sie sich jetzt über unsere Produkte:

Springer Professional "Wirtschaft+Technik"

Online-Abonnement

Mit Springer Professional "Wirtschaft+Technik" erhalten Sie Zugriff auf:

  • über 102.000 Bücher
  • über 537 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Maschinenbau + Werkstoffe
  • Versicherung + Risiko

Jetzt Wissensvorsprung sichern!

Springer Professional "Technik"

Online-Abonnement

Mit Springer Professional "Technik" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 390 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Maschinenbau + Werkstoffe




 

Jetzt Wissensvorsprung sichern!

Springer Professional "Wirtschaft"

Online-Abonnement

Mit Springer Professional "Wirtschaft" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 340 Zeitschriften

aus folgenden Fachgebieten:

  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Versicherung + Risiko




Jetzt Wissensvorsprung sichern!

Literatur
1.
Zurück zum Zitat Data Engineering, Preparation, and Labeling for AI 2019. Technical report, Cognilytica Research (2019) Data Engineering, Preparation, and Labeling for AI 2019. Technical report, Cognilytica Research (2019)
2.
Zurück zum Zitat Ali, S.M.F.: Next-generation ETL framework to address the challenges posed by big data. In: DOLAP (2018) Ali, S.M.F.: Next-generation ETL framework to address the challenges posed by big data. In: DOLAP (2018)
3.
Zurück zum Zitat Ali, S.M.F., Mey, J., Thiele, M.: Parallelizing user-defined functions in the ETL workflow using orchestration style sheets. AMCS J. 29, 69–79 (2019)MATH Ali, S.M.F., Mey, J., Thiele, M.: Parallelizing user-defined functions in the ETL workflow using orchestration style sheets. AMCS J. 29, 69–79 (2019)MATH
5.
Zurück zum Zitat Ali, S.M.F., Wrembel, R.: Towards a cost model to optimize user-defined functions in an ETL workflow based on user-defined performance metrics. In: Welzer, T., Eder, J., Podgorelec, V., Kamišalić Latifić, A. (eds.) ADBIS 2019. LNCS, vol. 11695, pp. 441–456. Springer, Cham (2019). https://doi.org/10.1007/978-3-030-28730-6_27CrossRef Ali, S.M.F., Wrembel, R.: Towards a cost model to optimize user-defined functions in an ETL workflow based on user-defined performance metrics. In: Welzer, T., Eder, J., Podgorelec, V., Kamišalić Latifić, A. (eds.) ADBIS 2019. LNCS, vol. 11695, pp. 441–456. Springer, Cham (2019). https://​doi.​org/​10.​1007/​978-3-030-28730-6_​27CrossRef
6.
Zurück zum Zitat Friedman, E., Pawlowski, P., Cieslewicz, J.: SQL/MapReduce: A practical approach to self-describing, polymorphic, and parallelizable user-defined functions. VLDB Endown. 2(2), 1402–1413 (2009)CrossRef Friedman, E., Pawlowski, P., Cieslewicz, J.: SQL/MapReduce: A practical approach to self-describing, polymorphic, and parallelizable user-defined functions. VLDB Endown. 2(2), 1402–1413 (2009)CrossRef
7.
Zurück zum Zitat Große, P., May, N., Lehner, W.: A study of partitioning and parallel UDF execution with the SAP HANA database. In: SSDBM, p. 36 (2014) Große, P., May, N., Lehner, W.: A study of partitioning and parallel UDF execution with the SAP HANA database. In: SSDBM, p. 36 (2014)
8.
Zurück zum Zitat Halasipuram, R., Deshpande, P.M., Padmanabhan S.: Determining essential statistics for cost based optimization of an ETL workflow. In: EDBT, pp. 307–318 (2014) Halasipuram, R., Deshpande, P.M., Padmanabhan S.: Determining essential statistics for cost based optimization of an ETL workflow. In: EDBT, pp. 307–318 (2014)
9.
Zurück zum Zitat Hueske, F., Peters, M., Krettek, A., Ringwald, M., Tzoumas, K., Markl, V., Freytag, J.-C.: Peeking into the optimization of data flow programs with MapReduce-style UDFs. In: ICDE, pp. 1292–1295 (2013) Hueske, F., Peters, M., Krettek, A., Ringwald, M., Tzoumas, K., Markl, V., Freytag, J.-C.: Peeking into the optimization of data flow programs with MapReduce-style UDFs. In: ICDE, pp. 1292–1295 (2013)
10.
Zurück zum Zitat Hueske, F., Peters, M., Sax, M.J., Rheinländer, A., Bergmann, R., Krettek, A., Tzoumas, K.: Opening the black boxes in data flow optimization. VLDB Endown. 5(11), 1256–1267 (2012)CrossRef Hueske, F., Peters, M., Sax, M.J., Rheinländer, A., Bergmann, R., Krettek, A., Tzoumas, K.: Opening the black boxes in data flow optimization. VLDB Endown. 5(11), 1256–1267 (2012)CrossRef
11.
Zurück zum Zitat IBM. IBM InfoSphere DataStage Balanced Optimization. Whitepaper IBM. IBM InfoSphere DataStage Balanced Optimization. Whitepaper
12.
Zurück zum Zitat Informatica. How to Achieve Flexible, Cost-effective Scalability and Performance through Pushdown Processing. Whitepaper Informatica. How to Achieve Flexible, Cost-effective Scalability and Performance through Pushdown Processing. Whitepaper
13.
Zurück zum Zitat Ismail, H., Harous, S., Belkhouche, B.: A comparative analysis of machine learning classifiers for twitter sentiment analysis. Res. Comput. Sci. 110, 71–83 (2016)CrossRef Ismail, H., Harous, S., Belkhouche, B.: A comparative analysis of machine learning classifiers for twitter sentiment analysis. Res. Comput. Sci. 110, 71–83 (2016)CrossRef
14.
Zurück zum Zitat Jovanovic, P., Romero, O., Simitsis, A., Abelló, A.: Incremental consolidation of data-intensive multi-flows. IEEE TKDE 28(5), 1203–1216 (2016) Jovanovic, P., Romero, O., Simitsis, A., Abelló, A.: Incremental consolidation of data-intensive multi-flows. IEEE TKDE 28(5), 1203–1216 (2016)
15.
Zurück zum Zitat Karagiannis, A., Vassiliadis, P., Simitsis, A.: Scheduling strategies for efficient etl execution. Inf. Syst. 38(6), 927–945 (2013)CrossRef Karagiannis, A., Vassiliadis, P., Simitsis, A.: Scheduling strategies for efficient etl execution. Inf. Syst. 38(6), 927–945 (2013)CrossRef
17.
Zurück zum Zitat Liu , X., Iftikhar, N.: An ETL optimization framework using partitioning and parallelization. In: ACM SAC, pp. 1015–1022 (2015) Liu , X., Iftikhar, N.: An ETL optimization framework using partitioning and parallelization. In: ACM SAC, pp. 1015–1022 (2015)
18.
Zurück zum Zitat Quemy, A.: Binary classification in unstructured space with hypergraph case-based reasoning. Inf. Syst. 85, 92–113 (2019)CrossRef Quemy, A.: Binary classification in unstructured space with hypergraph case-based reasoning. Inf. Syst. 85, 92–113 (2019)CrossRef
19.
Zurück zum Zitat Rheinländer, A., Heise, A., Hueske, F., Leser, U., Naumann, F.: Sofa: An extensible logical optimizer for udf-heavy data flows. Inf. Syst. 52, 96–125 (2015)CrossRef Rheinländer, A., Heise, A., Hueske, F., Leser, U., Naumann, F.: Sofa: An extensible logical optimizer for udf-heavy data flows. Inf. Syst. 52, 96–125 (2015)CrossRef
20.
Zurück zum Zitat Simitsis, A., Vassiliadis, P., Sellis, T.K.: State-space optimization of ETL workflows. IEEE TKDE 17(10), 1404–1419 (2005) Simitsis, A., Vassiliadis, P., Sellis, T.K.: State-space optimization of ETL workflows. IEEE TKDE 17(10), 1404–1419 (2005)
21.
Zurück zum Zitat Vernica, R., Carey, M.J., Li, C.: Efficient parallel set-similarity joins using mapreduce. In: SIGMOD (2010) Vernica, R., Carey, M.J., Li, C.: Efficient parallel set-similarity joins using mapreduce. In: SIGMOD (2010)
Metadaten
Titel
Framework to Optimize Data Processing Pipelines Using Performance Metrics
verfasst von
Syed Muhammad Fawad Ali
Robert Wrembel
Copyright-Jahr
2020
DOI
https://doi.org/10.1007/978-3-030-59065-9_11