Skip to main content

2017 | OriginalPaper | Buchkapitel

Lightweight BWT and LCP Merging via the Gap Algorithm

verfasst von : Lavinia Egidi, Giovanni Manzini

Erschienen in: String Processing and Information Retrieval

Verlag: Springer International Publishing

Aktivieren Sie unsere intelligente Suche, um passende Fachinhalte oder Patente zu finden.

search-config
loading …

Abstract

Recently, Holt and McMillan [Bioinformatics 2014, ACM-BCB 2014] have proposed a simple and elegant algorithm to merge the Burrows-Wheeler transforms of a collection of strings. In this paper we show that their algorithm can be improved so that, in addition to the BWTs, it also merges the Longest Common Prefix (LCP) arrays. Because of its small memory footprint this new algorithm can be used for the final merge of BWT and LCP arrays computed by a faster but memory intensive construction algorithm.

Sie haben noch keine Lizenz? Dann Informieren Sie sich jetzt über unsere Produkte:

Springer Professional "Wirtschaft+Technik"

Online-Abonnement

Mit Springer Professional "Wirtschaft+Technik" erhalten Sie Zugriff auf:

  • über 102.000 Bücher
  • über 537 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Maschinenbau + Werkstoffe
  • Versicherung + Risiko

Jetzt Wissensvorsprung sichern!

Springer Professional "Technik"

Online-Abonnement

Mit Springer Professional "Technik" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 390 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Maschinenbau + Werkstoffe




 

Jetzt Wissensvorsprung sichern!

Springer Professional "Wirtschaft"

Online-Abonnement

Mit Springer Professional "Wirtschaft" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 340 Zeitschriften

aus folgenden Fachgebieten:

  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Versicherung + Risiko




Jetzt Wissensvorsprung sichern!

Anhänge
Nur mit Berechtigung zugänglich
Literatur
1.
Zurück zum Zitat Belazzougui, D.: Linear time construction of compressed text indices in compact space. In: STOC, pp. 148–193. ACM (2014) Belazzougui, D.: Linear time construction of compressed text indices in compact space. In: STOC, pp. 148–193. ACM (2014)
2.
Zurück zum Zitat Bonizzoni, P., Vedova, G.D., Nicosia, S., Previtali, M., Rizzi, R.: A new lightweight algorithm to compute the BWT and the LCP array of a set of strings. CoRR abs/1607.08342 (2016) Bonizzoni, P., Vedova, G.D., Nicosia, S., Previtali, M., Rizzi, R.: A new lightweight algorithm to compute the BWT and the LCP array of a set of strings. CoRR abs/1607.08342 (2016)
3.
Zurück zum Zitat Bonizzoni, P., Vedova, G.D., Pirola, Y., Previtali, M., Rizzi, R.: Computing the BWT and LCP array of a set of strings in external memory. CoRR abs/1705.07756 (2017) Bonizzoni, P., Vedova, G.D., Pirola, Y., Previtali, M., Rizzi, R.: Computing the BWT and LCP array of a set of strings in external memory. CoRR abs/1705.07756 (2017)
4.
Zurück zum Zitat Burkhardt, S., Kärkkäinen, J.: Fast lightweight suffix array construction and checking. In: Baeza-Yates, R., Chávez, E., Crochemore, M. (eds.) CPM 2003. LNCS, vol. 2676, pp. 55–69. Springer, Heidelberg (2003). doi:10.1007/3-540-44888-8_5 CrossRef Burkhardt, S., Kärkkäinen, J.: Fast lightweight suffix array construction and checking. In: Baeza-Yates, R., Chávez, E., Crochemore, M. (eds.) CPM 2003. LNCS, vol. 2676, pp. 55–69. Springer, Heidelberg (2003). doi:10.​1007/​3-540-44888-8_​5 CrossRef
5.
Zurück zum Zitat Cox, A.J., Garofalo, F., Rosone, G., Sciortino, M.: Lightweight LCP construction for very large collections of strings. J. Discrete Algorithms 37, 17–33 (2016)MathSciNetCrossRefMATH Cox, A.J., Garofalo, F., Rosone, G., Sciortino, M.: Lightweight LCP construction for very large collections of strings. J. Discrete Algorithms 37, 17–33 (2016)MathSciNetCrossRefMATH
6.
Zurück zum Zitat Ferragina, P., Gagie, T., Manzini, G.: Lightweight data indexing and compression in external memory. In: López-Ortiz, A. (ed.) LATIN 2010. LNCS, vol. 6034, pp. 697–710. Springer, Heidelberg (2010). doi:10.1007/978-3-642-12200-2_60 CrossRef Ferragina, P., Gagie, T., Manzini, G.: Lightweight data indexing and compression in external memory. In: López-Ortiz, A. (ed.) LATIN 2010. LNCS, vol. 6034, pp. 697–710. Springer, Heidelberg (2010). doi:10.​1007/​978-3-642-12200-2_​60 CrossRef
7.
Zurück zum Zitat Ferragina, P., Gagie, T., Manzini, G.: Lightweight data indexing and compression in external memory. Algorithmica (2011) Ferragina, P., Gagie, T., Manzini, G.: Lightweight data indexing and compression in external memory. Algorithmica (2011)
10.
Zurück zum Zitat Holt, J., McMillan, L.: Constructing Burrows-Wheeler transforms of large string collections via merging. In: BCB, pp. 464–471. ACM (2014) Holt, J., McMillan, L.: Constructing Burrows-Wheeler transforms of large string collections via merging. In: BCB, pp. 464–471. ACM (2014)
11.
Zurück zum Zitat Holt, J., McMillan, L.: Merging of multi-string BWTs with applications. Bioinformatics 30(24), 3524–3531 (2014)CrossRef Holt, J., McMillan, L.: Merging of multi-string BWTs with applications. Bioinformatics 30(24), 3524–3531 (2014)CrossRef
12.
13.
Zurück zum Zitat Kärkkäinen, J., Kempa, D.: LCP array construction in external memory. ACM J. Exp. Algorithmics 21(1), 1.7:1–1.7:22 (2016) Kärkkäinen, J., Kempa, D.: LCP array construction in external memory. ACM J. Exp. Algorithmics 21(1), 1.7:1–1.7:22 (2016)
15.
Zurück zum Zitat Louza, F.A., Gog, S., Telles, G.P.: Induced suffix sorting for string collections. In: DCC, pp. 43–52. IEEE (2016) Louza, F.A., Gog, S., Telles, G.P.: Induced suffix sorting for string collections. In: DCC, pp. 43–52. IEEE (2016)
16.
Zurück zum Zitat Louza, F.A., Gog, S., Telles, G.P.: Inducing enhanced suffix arrays for string collections. Theor. Comput. Sci. 678, 22–39 (2017)MathSciNetCrossRefMATH Louza, F.A., Gog, S., Telles, G.P.: Inducing enhanced suffix arrays for string collections. Theor. Comput. Sci. 678, 22–39 (2017)MathSciNetCrossRefMATH
17.
Zurück zum Zitat Louza, F.A., Telles, G.P., Ciferri, C.D.A.: External memory generalized suffix and LCP arrays construction. In: Fischer, J., Sanders, P. (eds.) CPM 2013. LNCS, vol. 7922, pp. 201–210. Springer, Heidelberg (2013). doi:10.1007/978-3-642-38905-4_20 CrossRef Louza, F.A., Telles, G.P., Ciferri, C.D.A.: External memory generalized suffix and LCP arrays construction. In: Fischer, J., Sanders, P. (eds.) CPM 2013. LNCS, vol. 7922, pp. 201–210. Springer, Heidelberg (2013). doi:10.​1007/​978-3-642-38905-4_​20 CrossRef
18.
Zurück zum Zitat Mantaci, S., Restivo, A., Rosone, G., Sciortino, M.: An extension of the Burrows-Wheeler transform. Theor. Comput. Sci. 387(3), 298–312 (2007)MathSciNetCrossRefMATH Mantaci, S., Restivo, A., Rosone, G., Sciortino, M.: An extension of the Burrows-Wheeler transform. Theor. Comput. Sci. 387(3), 298–312 (2007)MathSciNetCrossRefMATH
19.
Zurück zum Zitat Manzini, G.: Two space saving tricks for linear time LCP computation. In: Proceedings of 9th Scandinavian Workshop on Algorithm Theory (SWAT 2004), pp. 372–383. Springer-Verlag, LNCS n. 3111 (2004) Manzini, G.: Two space saving tricks for linear time LCP computation. In: Proceedings of 9th Scandinavian Workshop on Algorithm Theory (SWAT 2004), pp. 372–383. Springer-Verlag, LNCS n. 3111 (2004)
20.
Zurück zum Zitat Manzini, G., Ferragina, P.: Engineering a lightweight suffix array construction algorithm. In: Möhring, R., Raman, R. (eds.) ESA 2002. LNCS, vol. 2461, pp. 698–710. Springer, Heidelberg (2002). doi:10.1007/3-540-45749-6_61 CrossRef Manzini, G., Ferragina, P.: Engineering a lightweight suffix array construction algorithm. In: Möhring, R., Raman, R. (eds.) ESA 2002. LNCS, vol. 2461, pp. 698–710. Springer, Heidelberg (2002). doi:10.​1007/​3-540-45749-6_​61 CrossRef
22.
24.
Zurück zum Zitat Sirén, J.: Burrows-wheeler transform for Terabases. In: IEEE Data Compression Conference (DCC), pp. 211–220 (2016) Sirén, J.: Burrows-wheeler transform for Terabases. In: IEEE Data Compression Conference (DCC), pp. 211–220 (2016)
Metadaten
Titel
Lightweight BWT and LCP Merging via the Gap Algorithm
verfasst von
Lavinia Egidi
Giovanni Manzini
Copyright-Jahr
2017
DOI
https://doi.org/10.1007/978-3-319-67428-5_15

Neuer Inhalt