Skip to main content

2015 | OriginalPaper | Buchkapitel

An Efficient Text Compression Algorithm - Data Mining Perspective

verfasst von : C. Oswald, Anirban I. Ghosh, B. Sivaselvan

Erschienen in: Mining Intelligence and Knowledge Exploration

Verlag: Springer International Publishing

Aktivieren Sie unsere intelligente Suche, um passende Fachinhalte oder Patente zu finden.

search-config
loading …

Abstract

The paper explores a novel compression perspective of Data Mining. Frequent Pattern Mining, an important phase of Association Rule Mining is employed in the process of Huffman Encoding for Lossless Text Compression. Conventional Apriori algorithm has been refined to employ efficient pruning strategies to optimize the number of pattern(s) employed in encoding. Detailed simulations of the proposed algorithms in relation to Conventional Huffman Encoding has been done over benchmark datasets and results indicate significant gains in compression ratio.

Sie haben noch keine Lizenz? Dann Informieren Sie sich jetzt über unsere Produkte:

Springer Professional "Wirtschaft+Technik"

Online-Abonnement

Mit Springer Professional "Wirtschaft+Technik" erhalten Sie Zugriff auf:

  • über 102.000 Bücher
  • über 537 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Maschinenbau + Werkstoffe
  • Versicherung + Risiko

Jetzt Wissensvorsprung sichern!

Springer Professional "Technik"

Online-Abonnement

Mit Springer Professional "Technik" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 390 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Maschinenbau + Werkstoffe




 

Jetzt Wissensvorsprung sichern!

Springer Professional "Wirtschaft"

Online-Abonnement

Mit Springer Professional "Wirtschaft" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 340 Zeitschriften

aus folgenden Fachgebieten:

  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Versicherung + Risiko




Jetzt Wissensvorsprung sichern!

Literatur
1.
Zurück zum Zitat David, S.: Data Compression: The Complete Reference, 2nd edn. Springer, New York (2004) David, S.: Data Compression: The Complete Reference, 2nd edn. Springer, New York (2004)
2.
Zurück zum Zitat Huffman, D.A.: A method for the construction of minimum redundancy codes. Proc. IRE 40(9), 1098–1101 (1952)CrossRef Huffman, D.A.: A method for the construction of minimum redundancy codes. Proc. IRE 40(9), 1098–1101 (1952)CrossRef
3.
4.
Zurück zum Zitat Han, J., Kamber, M.: Data Mining: Concepts and Techniques. Morgan Kaufmann, San Francisco (2000) Han, J., Kamber, M.: Data Mining: Concepts and Techniques. Morgan Kaufmann, San Francisco (2000)
5.
Zurück zum Zitat Ramakrishnan, N., Grama, A.: Data mining: from serendipity to science - guest editors’ introduction. IEEE Comput. 32(8), 34–37 (1999)CrossRef Ramakrishnan, N., Grama, A.: Data mining: from serendipity to science - guest editors’ introduction. IEEE Comput. 32(8), 34–37 (1999)CrossRef
6.
Zurück zum Zitat Agarwal, R., Srikant, R.: Fast algorithms for mining association rules in large databases. In: Bocca, J.B., Jarke, M., Zaniolo, C. (eds.) VLDB 1994, Proceedings of 20th International Conference on Very Large Data Bases, pp. 487–499. Santiago de Chile, Chile, Morgan Kaufmann (1994) Agarwal, R., Srikant, R.: Fast algorithms for mining association rules in large databases. In: Bocca, J.B., Jarke, M., Zaniolo, C. (eds.) VLDB 1994, Proceedings of 20th International Conference on Very Large Data Bases, pp. 487–499. Santiago de Chile, Chile, Morgan Kaufmann (1994)
7.
Zurück zum Zitat Shannon, C.E.: A mathematical theory of communication. ACM SIGMOBILE Mob. Comput. Commun. Rev. 5(1), 3–55 (2001)CrossRef Shannon, C.E.: A mathematical theory of communication. ACM SIGMOBILE Mob. Comput. Commun. Rev. 5(1), 3–55 (2001)CrossRef
8.
Zurück zum Zitat Pountain, D.: Run-length encoding. Byte 12(6), 317–319 (1987) Pountain, D.: Run-length encoding. Byte 12(6), 317–319 (1987)
9.
Zurück zum Zitat Witten, I.H., Neal, R.M., Cleary, J.G.: Arithmetic coding for data compression. Commun. ACM 30(6), 520–540 (1987)CrossRef Witten, I.H., Neal, R.M., Cleary, J.G.: Arithmetic coding for data compression. Commun. ACM 30(6), 520–540 (1987)CrossRef
11.
Zurück zum Zitat Moffat, A.: Implementing the PPM data compression scheme. IEEE Trans. Commun. 38(11), 1917–1921 (1990)CrossRef Moffat, A.: Implementing the PPM data compression scheme. IEEE Trans. Commun. 38(11), 1917–1921 (1990)CrossRef
12.
13.
Zurück zum Zitat Deorowicz, S.: Universal lossless data compression algorithms. Philosophy Dissertation Thesis, Gliwice (2003) Deorowicz, S.: Universal lossless data compression algorithms. Philosophy Dissertation Thesis, Gliwice (2003)
14.
Zurück zum Zitat Ziv, J., Lempel, A.: Compression of individual sequences via variable-rate coding. IEEE Trans. Inf. Theor. 24(5), 530–536 (1978)MathSciNetCrossRefMATH Ziv, J., Lempel, A.: Compression of individual sequences via variable-rate coding. IEEE Trans. Inf. Theor. 24(5), 530–536 (1978)MathSciNetCrossRefMATH
15.
Zurück zum Zitat Han, J., Pei, J., Yin, Y., Mao, R.: Mining frequent patterns without candidate generation: a frequent-pattern tree approach. Data Min. Knowl. Discov. 8(1), 53–87 (2004)MathSciNetCrossRef Han, J., Pei, J., Yin, Y., Mao, R.: Mining frequent patterns without candidate generation: a frequent-pattern tree approach. Data Min. Knowl. Discov. 8(1), 53–87 (2004)MathSciNetCrossRef
16.
Zurück zum Zitat Goethals, B.: Survey on frequent pattern mining. manuscript (2003) Goethals, B.: Survey on frequent pattern mining. manuscript (2003)
17.
Zurück zum Zitat Brin, S., Motwani, R., Ullman, J.D., Tsur, S.: Dynamic itemset counting and implication rules for market basket data. In: ACM SIGMOD Record, vol. 26, pp. 255–264. ACM (1997) Brin, S., Motwani, R., Ullman, J.D., Tsur, S.: Dynamic itemset counting and implication rules for market basket data. In: ACM SIGMOD Record, vol. 26, pp. 255–264. ACM (1997)
18.
Zurück zum Zitat Park, J.S., Chen, M.S., Yu, P.S.: An effective hash-based algorithm for mining association rules. ACM SIGMOD Rec. 24, 175–186 (1995)CrossRef Park, J.S., Chen, M.S., Yu, P.S.: An effective hash-based algorithm for mining association rules. ACM SIGMOD Rec. 24, 175–186 (1995)CrossRef
19.
Zurück zum Zitat Zaki, M.J., Gouda, K.: Fast vertical mining using diffsets. In: Proceedings of the Ninth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pp. 326–335. ACM (2003) Zaki, M.J., Gouda, K.: Fast vertical mining using diffsets. In: Proceedings of the Ninth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pp. 326–335. ACM (2003)
20.
Zurück zum Zitat Bastide, Y., Taouil, R., Pasquier, N., Stumme, G., Lakhal, L.: Mining frequent patterns with counting inference. ACM SIGKDD Explor. Newsl. 2(2), 66–75 (2000)CrossRef Bastide, Y., Taouil, R., Pasquier, N., Stumme, G., Lakhal, L.: Mining frequent patterns with counting inference. ACM SIGKDD Explor. Newsl. 2(2), 66–75 (2000)CrossRef
21.
Zurück zum Zitat Han, J., Cheng, H., Xin, D., Yan, X.: Frequent pattern mining: current status and future directions. Data Min. Knowl. Discov. 15(1), 55–86 (2007)MathSciNetCrossRef Han, J., Cheng, H., Xin, D., Yan, X.: Frequent pattern mining: current status and future directions. Data Min. Knowl. Discov. 15(1), 55–86 (2007)MathSciNetCrossRef
22.
Zurück zum Zitat Borgelt, C.: Keeping things simple: finding frequent item sets by recursive elimination. In: Proceedings of the 1st International Workshop on Open Source Data Mining: Frequent Pattern Mining Implementations, pp. 66–70. ACM (2005) Borgelt, C.: Keeping things simple: finding frequent item sets by recursive elimination. In: Proceedings of the 1st International Workshop on Open Source Data Mining: Frequent Pattern Mining Implementations, pp. 66–70. ACM (2005)
23.
Zurück zum Zitat Savasere, A., Omicinski, E.R., Navathe, S.B.: An efficient algorithm for mining association rules in large databases. In: VLDB (1995) Savasere, A., Omicinski, E.R., Navathe, S.B.: An efficient algorithm for mining association rules in large databases. In: VLDB (1995)
24.
Zurück zum Zitat Borgelt, C.: Frequent item set mining. Wiley Interdisc. Rev.: Data Min. Knowl. Discov. 2(6), 437–456 (2012) Borgelt, C.: Frequent item set mining. Wiley Interdisc. Rev.: Data Min. Knowl. Discov. 2(6), 437–456 (2012)
25.
Zurück zum Zitat Calgary compression corpus datasets. corpus.canterbury.ac.nz/descriptions/ Accessed: 23 July 2015 Calgary compression corpus datasets. corpus.canterbury.ac.nz/descriptions/ Accessed: 23 July 2015
Metadaten
Titel
An Efficient Text Compression Algorithm - Data Mining Perspective
verfasst von
C. Oswald
Anirban I. Ghosh
B. Sivaselvan
Copyright-Jahr
2015
DOI
https://doi.org/10.1007/978-3-319-26832-3_53