Skip to main content

2015 | OriginalPaper | Buchkapitel

A Scalable Framework for Universal Data Generation in Parallel

verfasst von : Ling Gu, Minqi Zhou, Qiangqiang Kang, Aoying Zhou

Erschienen in: Performance Characterization and Benchmarking. Traditional to Big Data

Verlag: Springer International Publishing

Aktivieren Sie unsere intelligente Suche um passende Fachinhalte oder Patente zu finden.

search-config
loading …

Abstract

Nowadays, more and more companies, such as Amazon, Twitter and etc., are facing the big data problem, which requires higher performance to manage tremendous large data sets. Data management systems with a new architecture taking full advantages of computer hardware are emerging, on the purpose of maximizing the system performance and fulfilling customs’ current or even future requirements. How to test performance and confirm the suitability of the new data management system becomes a primary task of these companies. Hence, how to generate a scaled data set with desired volumes and in desired velocity effectively becomes a problem imperative to be solved, together with the goal to keep the characters of their real data set as many as possible (realistic). In this paper, we proposed PSUG to generate a realistic database in terms of required volume and velocity in a scalable parallel manner. Our extensive experimental studies confirm the efficiency and effectiveness of our proposed method.

Sie haben noch keine Lizenz? Dann Informieren Sie sich jetzt über unsere Produkte:

Springer Professional "Wirtschaft+Technik"

Online-Abonnement

Mit Springer Professional "Wirtschaft+Technik" erhalten Sie Zugriff auf:

  • über 102.000 Bücher
  • über 537 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Maschinenbau + Werkstoffe
  • Versicherung + Risiko

Jetzt Wissensvorsprung sichern!

Springer Professional "Technik"

Online-Abonnement

Mit Springer Professional "Technik" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 390 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Maschinenbau + Werkstoffe




 

Jetzt Wissensvorsprung sichern!

Springer Professional "Wirtschaft"

Online-Abonnement

Mit Springer Professional "Wirtschaft" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 340 Zeitschriften

aus folgenden Fachgebieten:

  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Versicherung + Risiko




Jetzt Wissensvorsprung sichern!

Literatur
1.
Zurück zum Zitat Arasu, A., Kaushik, R., Li, J.: Data generation using declarative constraints. In: SIGMOD Conference, pp. 685–696 (2011) Arasu, A., Kaushik, R., Li, J.: Data generation using declarative constraints. In: SIGMOD Conference, pp. 685–696 (2011)
2.
Zurück zum Zitat Binnig, C., Kossmann, D., Lo, E., Özsu, M.T.: Qagen: generating query-aware test databases. In: SIGMOD Conference, pp. 341–352 (2007) Binnig, C., Kossmann, D., Lo, E., Özsu, M.T.: Qagen: generating query-aware test databases. In: SIGMOD Conference, pp. 341–352 (2007)
3.
Zurück zum Zitat Bruno, N., Chaudhuri, S.: Flexible database generators. In: VLDB, pp. 1097–1107 (2005) Bruno, N., Chaudhuri, S.: Flexible database generators. In: VLDB, pp. 1097–1107 (2005)
4.
Zurück zum Zitat Endres, D.M., Schindelin, J.E.: Divergence measures based on the shannon entropy. IEEE Trans. Inf. Theory 37(1), 0018–9448 (1991)CrossRef Endres, D.M., Schindelin, J.E.: Divergence measures based on the shannon entropy. IEEE Trans. Inf. Theory 37(1), 0018–9448 (1991)CrossRef
5.
Zurück zum Zitat Frank, M., Poess, M., Rabl, T.: Efficient update data generation for dbms benchmarks. In: ICPE, pp. 169–180 (2012) Frank, M., Poess, M., Rabl, T.: Efficient update data generation for dbms benchmarks. In: ICPE, pp. 169–180 (2012)
6.
Zurück zum Zitat Gray, J., Sundaresan, P., Englert, S., Baclawski, K., Weinberger, P.J.: Quickly generating billion-record synthetic databases. In: SIGMOD Conference, pp. 243–252 (1994) Gray, J., Sundaresan, P., Englert, S., Baclawski, K., Weinberger, P.J.: Quickly generating billion-record synthetic databases. In: SIGMOD Conference, pp. 243–252 (1994)
7.
Zurück zum Zitat Hardy, G.H., Wright, E.M.: An Introduction to the Theory of Numbers. Oxford University Press, Oxford (2008)MATH Hardy, G.H., Wright, E.M.: An Introduction to the Theory of Numbers. Oxford University Press, Oxford (2008)MATH
8.
Zurück zum Zitat Hoag, J.E., Thompson, C.W.: A parallel general-purpose synthetic data generator. SIGMOD Rec. 36(1), 19–24 (2007)CrossRef Hoag, J.E., Thompson, C.W.: A parallel general-purpose synthetic data generator. SIGMOD Rec. 36(1), 19–24 (2007)CrossRef
9.
Zurück zum Zitat Houkjær, K., Torp, K., Wind, R.: Simple and realistic data generation. In: VLDB, pp. 1243–1246 (2006) Houkjær, K., Torp, K., Wind, R.: Simple and realistic data generation. In: VLDB, pp. 1243–1246 (2006)
10.
Zurück zum Zitat Ilyas, I.F., Markl, V., Haas, P.J., Brown, P., Aboulnaga, A.: Cords: automatic discovery of correlations and soft functional dependencies. In: SIGMOD Conference, pp. 647–658 (2004) Ilyas, I.F., Markl, V., Haas, P.J., Brown, P., Aboulnaga, A.: Cords: automatic discovery of correlations and soft functional dependencies. In: SIGMOD Conference, pp. 647–658 (2004)
11.
Zurück zum Zitat Lo, E., Cheng, N., Hon, W.K.: Generating databases for query workloads. PVLDB 3(1), 848–859 (2010) Lo, E., Cheng, N., Hon, W.K.: Generating databases for query workloads. PVLDB 3(1), 848–859 (2010)
12.
Zurück zum Zitat Tay, Y.C.: Data generation for application-specific benchmarking. PVLDB 4(12), 1470–1473 (2011) Tay, Y.C.: Data generation for application-specific benchmarking. PVLDB 4(12), 1470–1473 (2011)
Metadaten
Titel
A Scalable Framework for Universal Data Generation in Parallel
verfasst von
Ling Gu
Minqi Zhou
Qiangqiang Kang
Aoying Zhou
Copyright-Jahr
2015
DOI
https://doi.org/10.1007/978-3-319-15350-6_5

Neuer Inhalt