nach oben

Erschienen in:

2015 | OriginalPaper | Buchkapitel

An Efficient Text Compression Algorithm - Data Mining Perspective

verfasst von : C. Oswald, Anirban I. Ghosh, B. Sivaselvan

Erschienen in: Mining Intelligence and Knowledge Exploration

Verlag: Springer International Publishing

Einloggen

Aktivieren Sie unsere intelligente Suche, um passende Fachinhalte oder Patente zu finden.

search-config

KI-gestützte Suche

Aus

Abstract

The paper explores a novel compression perspective of Data Mining. Frequent Pattern Mining, an important phase of Association Rule Mining is employed in the process of Huffman Encoding for Lossless Text Compression. Conventional Apriori algorithm has been refined to employ efficient pruning strategies to optimize the number of pattern(s) employed in encoding. Detailed simulations of the proposed algorithms in relation to Conventional Huffman Encoding has been done over benchmark datasets and results indicate significant gains in compression ratio.

Sie haben noch keine Lizenz? Dann Informieren Sie sich jetzt über unsere Produkte:

Springer Professional "Wirtschaft+Technik"

Online-Abonnement

Mit Springer Professional "Wirtschaft+Technik" erhalten Sie Zugriff auf:

über 102.000 Bücher
über 537 Zeitschriften

aus folgenden Fachgebieten:

Automobil + Motoren
Bauwesen + Immobilien
Business IT + Informatik
Elektrotechnik + Elektronik
Energie + Nachhaltigkeit
Finance + Banking
Management + Führung
Marketing + Vertrieb
Maschinenbau + Werkstoffe
Versicherung + Risiko

Jetzt Wissensvorsprung sichern!

Jetzt informieren

Springer Professional "Technik"

Online-Abonnement

Mit Springer Professional "Technik" erhalten Sie Zugriff auf:

über 67.000 Bücher
über 390 Zeitschriften

aus folgenden Fachgebieten:

Automobil + Motoren
Bauwesen + Immobilien
Business IT + Informatik
Elektrotechnik + Elektronik
Energie + Nachhaltigkeit
Maschinenbau + Werkstoffe

Jetzt Wissensvorsprung sichern!

Jetzt informieren

Springer Professional "Wirtschaft"

Online-Abonnement

Mit Springer Professional "Wirtschaft" erhalten Sie Zugriff auf:

über 67.000 Bücher
über 340 Zeitschriften

aus folgenden Fachgebieten:

Bauwesen + Immobilien
Business IT + Informatik
Finance + Banking
Management + Führung
Marketing + Vertrieb
Versicherung + Risiko

Jetzt Wissensvorsprung sichern!

Jetzt informieren

Vorheriges Kapitel Tri-Axial Vibration Analysis Using Data Mining for Multi Class Fault Diagnosis in Induction Motor

Nächstes Kapitel Identifying Semantic Events in Unstructured Text

David, S.: Data Compression: The Complete Reference, 2nd edn. Springer, New York (2004)

Huffman, D.A.: A method for the construction of minimum redundancy codes. Proc. IRE 40(9), 1098–1101 (1952)CrossRef

Gilbert, E.N., Moore, E.F.: Variable-length binary encodings. Bell Syst. Tech. J. 38(4), 933–967 (1959)MathSciNetCrossRef

Han, J., Kamber, M.: Data Mining: Concepts and Techniques. Morgan Kaufmann, San Francisco (2000)

Ramakrishnan, N., Grama, A.: Data mining: from serendipity to science - guest editors’ introduction. IEEE Comput. 32(8), 34–37 (1999)CrossRef

Agarwal, R., Srikant, R.: Fast algorithms for mining association rules in large databases. In: Bocca, J.B., Jarke, M., Zaniolo, C. (eds.) VLDB 1994, Proceedings of 20th International Conference on Very Large Data Bases, pp. 487–499. Santiago de Chile, Chile, Morgan Kaufmann (1994)

Shannon, C.E.: A mathematical theory of communication. ACM SIGMOBILE Mob. Comput. Commun. Rev. 5(1), 3–55 (2001)CrossRef

Pountain, D.: Run-length encoding. Byte 12(6), 317–319 (1987)

Witten, I.H., Neal, R.M., Cleary, J.G.: Arithmetic coding for data compression. Commun. ACM 30(6), 520–540 (1987)CrossRef

10.

Vitter, J.S.: Design and analysis of dynamic huffman codes. J. ACM (JACM) 34(4), 825–845 (1987)MathSciNetCrossRefMATH

11.

Moffat, A.: Implementing the PPM data compression scheme. IEEE Trans. Commun. 38(11), 1917–1921 (1990)CrossRef

12.

Ziv, J., Lempel, A.: A universal algorithm for sequential data compression. IEEE Trans. Inf. Theor. 23(3), 337–343 (1977)MathSciNetCrossRefMATH

13.

Deorowicz, S.: Universal lossless data compression algorithms. Philosophy Dissertation Thesis, Gliwice (2003)

14.

Ziv, J., Lempel, A.: Compression of individual sequences via variable-rate coding. IEEE Trans. Inf. Theor. 24(5), 530–536 (1978)MathSciNetCrossRefMATH

15.

Han, J., Pei, J., Yin, Y., Mao, R.: Mining frequent patterns without candidate generation: a frequent-pattern tree approach. Data Min. Knowl. Discov. 8(1), 53–87 (2004)MathSciNetCrossRef

16.

Goethals, B.: Survey on frequent pattern mining. manuscript (2003)

17.

Brin, S., Motwani, R., Ullman, J.D., Tsur, S.: Dynamic itemset counting and implication rules for market basket data. In: ACM SIGMOD Record, vol. 26, pp. 255–264. ACM (1997)

18.

Park, J.S., Chen, M.S., Yu, P.S.: An effective hash-based algorithm for mining association rules. ACM SIGMOD Rec. 24, 175–186 (1995)CrossRef

19.

Zaki, M.J., Gouda, K.: Fast vertical mining using diffsets. In: Proceedings of the Ninth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pp. 326–335. ACM (2003)

20.

Bastide, Y., Taouil, R., Pasquier, N., Stumme, G., Lakhal, L.: Mining frequent patterns with counting inference. ACM SIGKDD Explor. Newsl. 2(2), 66–75 (2000)CrossRef

21.

Han, J., Cheng, H., Xin, D., Yan, X.: Frequent pattern mining: current status and future directions. Data Min. Knowl. Discov. 15(1), 55–86 (2007)MathSciNetCrossRef

22.

Borgelt, C.: Keeping things simple: finding frequent item sets by recursive elimination. In: Proceedings of the 1st International Workshop on Open Source Data Mining: Frequent Pattern Mining Implementations, pp. 66–70. ACM (2005)

23.

Savasere, A., Omicinski, E.R., Navathe, S.B.: An efficient algorithm for mining association rules in large databases. In: VLDB (1995)

24.

Borgelt, C.: Frequent item set mining. Wiley Interdisc. Rev.: Data Min. Knowl. Discov. 2(6), 437–456 (2012)

25.

Calgary compression corpus datasets. corpus.canterbury.ac.nz/descriptions/ Accessed: 23 July 2015

26.

Silesia dataset. http://sun.aei.polsl.pl/sdeor/index.php?page=silesia Accessed: 23 July 2015

Titel: An Efficient Text Compression Algorithm - Data Mining Perspective
verfasst von: C. Oswald
Anirban I. Ghosh
B. Sivaselvan
Verlag: Springer International Publishing
Buch: Mining Intelligence and Knowledge Exploration
Print ISBN: 978-3-319-26831-6

Electronic ISBN: 978-3-319-26832-3

Copyright-Jahr: 2015
DOI: https://doi.org/10.1007/978-3-319-26832-3_53

Springer Professional

Abstract

Bitte loggen Sie sich ein, um Zugang zu Ihrer Lizenz zu erhalten.

Sie haben noch keine Lizenz? Dann Informieren Sie sich jetzt über unsere Produkte:

Springer Professional "Wirtschaft+Technik"

Springer Professional "Technik"

Springer Professional "Wirtschaft"