Skip to main content

2017 | OriginalPaper | Buchkapitel

FM-index for Dummies

Aktivieren Sie unsere intelligente Suche, um passende Fachinhalte oder Patente zu finden.

search-config
loading …

Abstract

Full-text search refers to techniques for searching a document, or a document collection, in a full-text database. To speed up such searches, the given text should be indexed. The FM-index is a celebrated compressed data structure for full-text pattern searching. After the first wave of interest in its theoretical developments, we can observe a surge of interest in practical FM-index variants in the last few years. These enhancements are often related to a bit-vector representation, augmented with an efficient rank-handling data structure. In this work, we propose a new, cache-friendly, implementation of the rank primitive and advocate for a very simple architecture of the FM-index, which trades compression ratio for speed. Experimental results show that our variants are 2–3 times faster than the fastest known ones, for the price of using typically 1.5–5 times more space.

Sie haben noch keine Lizenz? Dann Informieren Sie sich jetzt über unsere Produkte:

Springer Professional "Wirtschaft+Technik"

Online-Abonnement

Mit Springer Professional "Wirtschaft+Technik" erhalten Sie Zugriff auf:

  • über 102.000 Bücher
  • über 537 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Maschinenbau + Werkstoffe
  • Versicherung + Risiko

Jetzt Wissensvorsprung sichern!

Springer Professional "Technik"

Online-Abonnement

Mit Springer Professional "Technik" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 390 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Maschinenbau + Werkstoffe




 

Jetzt Wissensvorsprung sichern!

Springer Professional "Wirtschaft"

Online-Abonnement

Mit Springer Professional "Wirtschaft" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 340 Zeitschriften

aus folgenden Fachgebieten:

  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Versicherung + Risiko




Jetzt Wissensvorsprung sichern!

Literatur
1.
Zurück zum Zitat Belazzougui, D., Cunial, F., Kärkkäinen, J., Mäkinen, V.: Versatile succinct representations of the bidirectional burrows-wheeler transform. In: Bodlaender, H.L., Italiano, G.F. (eds.) ESA 2013. LNCS, vol. 8125, pp. 133–144. Springer, Heidelberg (2013). doi:10.1007/978-3-642-40450-4_12 CrossRef Belazzougui, D., Cunial, F., Kärkkäinen, J., Mäkinen, V.: Versatile succinct representations of the bidirectional burrows-wheeler transform. In: Bodlaender, H.L., Italiano, G.F. (eds.) ESA 2013. LNCS, vol. 8125, pp. 133–144. Springer, Heidelberg (2013). doi:10.​1007/​978-3-642-40450-4_​12 CrossRef
2.
Zurück zum Zitat Belazzougui, D., Navarro, G.: Alphabet-independent compressed text indexing. ACM Trans. Algorithms 10(4), 23 (2014). Article 23MathSciNetMATHCrossRef Belazzougui, D., Navarro, G.: Alphabet-independent compressed text indexing. ACM Trans. Algorithms 10(4), 23 (2014). Article 23MathSciNetMATHCrossRef
3.
Zurück zum Zitat Chacón, A., Moure, J.C., Espinosa, A., Hernández, P.: \(n\)-step FM-index for faster pattern matching. Proc. Comput. Sci. 18, 70–79 (2013)CrossRef Chacón, A., Moure, J.C., Espinosa, A., Hernández, P.: \(n\)-step FM-index for faster pattern matching. Proc. Comput. Sci. 18, 70–79 (2013)CrossRef
4.
Zurück zum Zitat Deorowicz, S., Grabowski, S.: Data compression for sequencing data. Algorithms Mol. Biol. 8(1), 25 (2013)CrossRef Deorowicz, S., Grabowski, S.: Data compression for sequencing data. Algorithms Mol. Biol. 8(1), 25 (2013)CrossRef
5.
Zurück zum Zitat Fariña, A., Navarro, G., Paramá, J.: Boosting text compression with word-based statistical encoding. Comput. J. 55(1), 111–131 (2012)CrossRef Fariña, A., Navarro, G., Paramá, J.: Boosting text compression with word-based statistical encoding. Comput. J. 55(1), 111–131 (2012)CrossRef
6.
Zurück zum Zitat Ferragina, P., Manzini, G.: Opportunistic data structures with applications. In: Proceedings of FOCS, pp. 390–398. IEEE (2000) Ferragina, P., Manzini, G.: Opportunistic data structures with applications. In: Proceedings of FOCS, pp. 390–398. IEEE (2000)
7.
Zurück zum Zitat Gog, S., Kärkkäinen, J., Kempa, D., Petri, M., Puglisi, S.J.: Faster, minuter. In: Proceedings of DCC, pp. 53–62. IEEE (2016) Gog, S., Kärkkäinen, J., Kempa, D., Petri, M., Puglisi, S.J.: Faster, minuter. In: Proceedings of DCC, pp. 53–62. IEEE (2016)
8.
Zurück zum Zitat Gog, S., Petri, M.: Optimized succinct data structures for massive data. Softw.: Pract. Exp. 44(11), 1287–1314 (2014) Gog, S., Petri, M.: Optimized succinct data structures for massive data. Softw.: Pract. Exp. 44(11), 1287–1314 (2014)
9.
Zurück zum Zitat Grabowski, S.: Making dense codes even denser. AGH Automatyka 12(3), 769–779 (2008) Grabowski, S.: Making dense codes even denser. AGH Automatyka 12(3), 769–779 (2008)
10.
Zurück zum Zitat Grabowski, S., Raniszewski, M.: Two simple full-text indexes based on the suffix array. In: Proceedings of PSC, pp. 179–191 (2014) Grabowski, S., Raniszewski, M.: Two simple full-text indexes based on the suffix array. In: Proceedings of PSC, pp. 179–191 (2014)
11.
12.
Zurück zum Zitat Huo, H., Chen, L., Zhao, H., Vitter, J.S., Nekrich, Y., Yu, Q.: A data-aware FM-index. In: Proceedings of ALENEX, pp. 10–23. SIAM (2015) Huo, H., Chen, L., Zhao, H., Vitter, J.S., Nekrich, Y., Yu, Q.: A data-aware FM-index. In: Proceedings of ALENEX, pp. 10–23. SIAM (2015)
13.
Zurück zum Zitat Jacobson, G.: Succinct static data structures. Ph.D. thesis, Carnegie Mellon University (1989) Jacobson, G.: Succinct static data structures. Ph.D. thesis, Carnegie Mellon University (1989)
14.
Zurück zum Zitat Kärkkäinen, J., Kempa, D., Puglisi, S.J.: Hybrid compression of bitvectors for the FM-index. In: Proceedings of DCC, pp. 302–311. IEEE (2014) Kärkkäinen, J., Kempa, D., Puglisi, S.J.: Hybrid compression of bitvectors for the FM-index. In: Proceedings of DCC, pp. 302–311. IEEE (2014)
15.
Zurück zum Zitat Kärkkäinen, J., Puglisi, S.J.: Fixed block compression boosting in FM-indexes. In: Grossi, R., Sebastiani, F., Silvestri, F. (eds.) SPIRE 2011. LNCS, vol. 7024, pp. 174–184. Springer, Heidelberg (2011). doi:10.1007/978-3-642-24583-1_18 CrossRef Kärkkäinen, J., Puglisi, S.J.: Fixed block compression boosting in FM-indexes. In: Grossi, R., Sebastiani, F., Silvestri, F. (eds.) SPIRE 2011. LNCS, vol. 7024, pp. 174–184. Springer, Heidelberg (2011). doi:10.​1007/​978-3-642-24583-1_​18 CrossRef
16.
Zurück zum Zitat Külekci, M.O., Vitter, J.S., Xu, B.: Fast pattern-matching via \(k\)-bit filtering based text decomposition. Comput. J. 55(1), 62–68 (2010)MATHCrossRef Külekci, M.O., Vitter, J.S., Xu, B.: Fast pattern-matching via \(k\)-bit filtering based text decomposition. Comput. J. 55(1), 62–68 (2010)MATHCrossRef
17.
Zurück zum Zitat Lam, T.W., Li, R., Tam, A., Wong, S., Wu, E., Yiu, S.M.: High throughput short read alignment via bi-directional BWT. In: Proceedings of BIBM, pp. 31–36. IEEE (2009) Lam, T.W., Li, R., Tam, A., Wong, S., Wu, E., Yiu, S.M.: High throughput short read alignment via bi-directional BWT. In: Proceedings of BIBM, pp. 31–36. IEEE (2009)
18.
Zurück zum Zitat Mäkinen, V., Navarro, G.: New search algorithms and time/space tradeoffs for succinct suffix arrays. Technical report C-2004-20, University of Helsinki, Finland (2004) Mäkinen, V., Navarro, G.: New search algorithms and time/space tradeoffs for succinct suffix arrays. Technical report C-2004-20, University of Helsinki, Finland (2004)
19.
Zurück zum Zitat Moffat, A., Gog, S.: String search experimentation using massive data. Philos. Trans. Roy. Soc. Lond. A: Math. Phys. Eng. Sci. 372(2016), 20130135 (2014)MathSciNetMATHCrossRef Moffat, A., Gog, S.: String search experimentation using massive data. Philos. Trans. Roy. Soc. Lond. A: Math. Phys. Eng. Sci. 372(2016), 20130135 (2014)MathSciNetMATHCrossRef
20.
Zurück zum Zitat Munro, J.I., Navarro, G., Nekrich, Y.: Space-efficient construction of compressed indexes in deterministic linear time. In: Proceeding of SODA (2017, to appear) Munro, J.I., Navarro, G., Nekrich, Y.: Space-efficient construction of compressed indexes in deterministic linear time. In: Proceeding of SODA (2017, to appear)
22.
Zurück zum Zitat Navarro, G., Mäkinen, V.: Compressed full-text indexes. ACM Comput. Surv. 39(1), 2 (2007)MATHCrossRef Navarro, G., Mäkinen, V.: Compressed full-text indexes. ACM Comput. Surv. 39(1), 2 (2007)MATHCrossRef
24.
Zurück zum Zitat Simpson, J.T., Wong, K., Jackman, S.D., Schein, J.E., Jones, S.J., Birol, I.: ABySS: a parallel assembler for short read sequence data. Genome Res. 19(6), 1117–1123 (2009)CrossRef Simpson, J.T., Wong, K., Jackman, S.D., Schein, J.E., Jones, S.J., Birol, I.: ABySS: a parallel assembler for short read sequence data. Genome Res. 19(6), 1117–1123 (2009)CrossRef
26.
Zurück zum Zitat Vyverman, M., De Baets, B., Fack, V., Dawyndt, P.: Prospects and limitations of full-text index structures in genome analysis. Nucleic Acids Res. 40(15), 6993–7015 (2012)CrossRef Vyverman, M., De Baets, B., Fack, V., Dawyndt, P.: Prospects and limitations of full-text index structures in genome analysis. Nucleic Acids Res. 40(15), 6993–7015 (2012)CrossRef
Metadaten
Titel
FM-index for Dummies
verfasst von
Szymon Grabowski
Marcin Raniszewski
Sebastian Deorowicz
Copyright-Jahr
2017
DOI
https://doi.org/10.1007/978-3-319-58274-0_16