Skip to main content
Erschienen in:
Buchtitelbild

2017 | OriginalPaper | Buchkapitel

Greedy Shortest Common Superstring Approximation in Compact Space

verfasst von : Jarno Alanko, Tuukka Norri

Erschienen in: String Processing and Information Retrieval

Verlag: Springer International Publishing

Aktivieren Sie unsere intelligente Suche, um passende Fachinhalte oder Patente zu finden.

search-config
loading …

Abstract

Given a set of strings, the shortest common superstring problem is to find the shortest possible string that contains all the input strings. The problem is NP-hard, but a lot of work has gone into designing approximation algorithms for solving the problem. We present the first time and space efficient implementation of the classic greedy heuristic which merges strings in decreasing order of overlap length. Our implementation works in \(O(n \log \sigma )\) time and bits of space, where n is the total length of the input strings in characters, and \(\sigma \) is the size of the alphabet. After index construction, a practical implementation of our algorithm uses roughly \(5 n \log \sigma \) bits of space and reasonable time for a real dataset that consists of DNA fragments.

Sie haben noch keine Lizenz? Dann Informieren Sie sich jetzt über unsere Produkte:

Springer Professional "Wirtschaft+Technik"

Online-Abonnement

Mit Springer Professional "Wirtschaft+Technik" erhalten Sie Zugriff auf:

  • über 102.000 Bücher
  • über 537 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Maschinenbau + Werkstoffe
  • Versicherung + Risiko

Jetzt Wissensvorsprung sichern!

Springer Professional "Technik"

Online-Abonnement

Mit Springer Professional "Technik" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 390 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Maschinenbau + Werkstoffe




 

Jetzt Wissensvorsprung sichern!

Springer Professional "Wirtschaft"

Online-Abonnement

Mit Springer Professional "Wirtschaft" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 340 Zeitschriften

aus folgenden Fachgebieten:

  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Versicherung + Risiko




Jetzt Wissensvorsprung sichern!

Literatur
1.
Zurück zum Zitat Belazzougui, D.: Linear time construction of compressed text indices in compact space. In: Proceedings of the 46th Annual ACM Symposium on Theory of Computing, pp. 148–193. ACM (2014) Belazzougui, D.: Linear time construction of compressed text indices in compact space. In: Proceedings of the 46th Annual ACM Symposium on Theory of Computing, pp. 148–193. ACM (2014)
2.
Zurück zum Zitat Cormen, T.H., Leiserson, C.E., Rivest, R.L., Stein, C.: Introduction to Algorithms, vol. 6. MIT Press, Cambridge (2001)MATH Cormen, T.H., Leiserson, C.E., Rivest, R.L., Stein, C.: Introduction to Algorithms, vol. 6. MIT Press, Cambridge (2001)MATH
3.
Zurück zum Zitat Gabow, H.N., Tarjan, R.E.: A linear-time algorithm for a special case of disjoint set union. J. Comput. Syst. Sci. 30(2), 209–221 (1985)MathSciNetCrossRefMATH Gabow, H.N., Tarjan, R.E.: A linear-time algorithm for a special case of disjoint set union. J. Comput. Syst. Sci. 30(2), 209–221 (1985)MathSciNetCrossRefMATH
4.
5.
Zurück zum Zitat Gog, S., Beller, T., Moffat, A., Petri, M.: From theory to practice: plug and play with succinct data structures. In: Gudmundsson, J., Katajainen, J. (eds.) SEA 2014. LNCS, vol. 8504, pp. 326–337. Springer, Cham (2014). doi:10.1007/978-3-319-07959-2_28 Gog, S., Beller, T., Moffat, A., Petri, M.: From theory to practice: plug and play with succinct data structures. In: Gudmundsson, J., Katajainen, J. (eds.) SEA 2014. LNCS, vol. 8504, pp. 326–337. Springer, Cham (2014). doi:10.​1007/​978-3-319-07959-2_​28
7.
Zurück zum Zitat Liu, X., Sỳkora, O.: Sequential and parallel algorithms for the shortest common superstring problem. In: Proceedings of the International Workshop on Parallel Numerics, pp. 97–107 (2005) Liu, X., Sỳkora, O.: Sequential and parallel algorithms for the shortest common superstring problem. In: Proceedings of the International Workshop on Parallel Numerics, pp. 97–107 (2005)
8.
Zurück zum Zitat Mäkinen, V., Belazzougui, D., Cunial, F., Tomescu, A.I.: Genome-Scale Algorithm Design. Cambridge University Press, New York (2015)CrossRef Mäkinen, V., Belazzougui, D., Cunial, F., Tomescu, A.I.: Genome-Scale Algorithm Design. Cambridge University Press, New York (2015)CrossRef
9.
Zurück zum Zitat Mucha, M.: Lyndon words and short superstrings. In: Proceedings of the Twenty-Fourth Annual ACM-SIAM Symposium on Discrete Algorithms, pp. 958–972. Society for Industrial and Applied Mathematics (2013) Mucha, M.: Lyndon words and short superstrings. In: Proceedings of the Twenty-Fourth Annual ACM-SIAM Symposium on Discrete Algorithms, pp. 958–972. Society for Industrial and Applied Mathematics (2013)
11.
Zurück zum Zitat Paluch, K.: Better approximation algorithms for maximum asymmetric traveling salesman and shortest superstring. arXiv preprint (2014). arXiv:1401.3670 Paluch, K.: Better approximation algorithms for maximum asymmetric traveling salesman and shortest superstring. arXiv preprint (2014). arXiv:​1401.​3670
12.
Zurück zum Zitat Qin, J., Li, R., Raes, J., Arumugam, M., Burgdorf, K.S., Manichanh, C., Nielsen, T., Pons, N., Levenez, F., Yamada, T., et al.: A human gut microbial gene catalogue established by metagenomic sequencing. Nature 464(7285), 59–65 (2010)CrossRef Qin, J., Li, R., Raes, J., Arumugam, M., Burgdorf, K.S., Manichanh, C., Nielsen, T., Pons, N., Levenez, F., Yamada, T., et al.: A human gut microbial gene catalogue established by metagenomic sequencing. Nature 464(7285), 59–65 (2010)CrossRef
13.
Zurück zum Zitat Simpson, J.T., Durbin, R.: Efficient construction of an assembly string graph using the fm-index. Bioinformatics 26(12), i367–i373 (2010)CrossRef Simpson, J.T., Durbin, R.: Efficient construction of an assembly string graph using the fm-index. Bioinformatics 26(12), i367–i373 (2010)CrossRef
14.
Zurück zum Zitat Tarhio, J., Ukkonen, E.: A greedy approximation algorithm for constructing shortest common superstrings. Theoret. Comput. Sci. 57(1), 131–145 (1988)MathSciNetCrossRefMATH Tarhio, J., Ukkonen, E.: A greedy approximation algorithm for constructing shortest common superstrings. Theoret. Comput. Sci. 57(1), 131–145 (1988)MathSciNetCrossRefMATH
15.
16.
Zurück zum Zitat Ukkonen, E.: A linear-time algorithm for finding approximate shortest common superstrings. Algorithmica 5(1–4), 313–323 (1990)MathSciNetCrossRefMATH Ukkonen, E.: A linear-time algorithm for finding approximate shortest common superstrings. Algorithmica 5(1–4), 313–323 (1990)MathSciNetCrossRefMATH
17.
Zurück zum Zitat Zaritsky, A., Sipper, M.: The preservation of favored building blocks in the struggle for fitness: the puzzle algorithm. IEEE Trans. Evol. Comput. 8(5), 443–455 (2004)CrossRef Zaritsky, A., Sipper, M.: The preservation of favored building blocks in the struggle for fitness: the puzzle algorithm. IEEE Trans. Evol. Comput. 8(5), 443–455 (2004)CrossRef
Metadaten
Titel
Greedy Shortest Common Superstring Approximation in Compact Space
verfasst von
Jarno Alanko
Tuukka Norri
Copyright-Jahr
2017
DOI
https://doi.org/10.1007/978-3-319-67428-5_1

Neuer Inhalt