Skip to main content

2022 | OriginalPaper | Buchkapitel

Fast and Optimal Sequence-to-Graph Alignment Guided by Seeds

verfasst von : Pesho Ivanov, Benjamin Bichsel, Martin Vechev

Erschienen in: Research in Computational Molecular Biology

Verlag: Springer International Publishing

Aktivieren Sie unsere intelligente Suche, um passende Fachinhalte oder Patente zu finden.

search-config
loading …

Abstract

We present a novel A\(^\star \) seed heuristic that enables fast and optimal sequence-to-graph alignment, guaranteed to minimize the edit distance of the alignment assuming non-negative edit costs.
We phrase optimal alignment as a shortest path problem and solve it by instantiating the A\(^\star \)  algorithm with our seed heuristic. The seed heuristic first extracts non-overlapping substrings (seeds) from the read, finds exact seed matches in the reference, marks preceding reference positions by crumbs, and uses the crumbs to direct the A\(^\star \) search. The key idea is to punish paths for the absence of foreseeable seed matches. We prove admissibility of the seed heuristic, thus guaranteeing alignment optimality.
Our implementation extends the free and open source aligner and demonstrates that the seed heuristic outperforms all state-of-the-art optimal aligners including GraphAligner, Vargas, PaSGAL, and the prefix heuristic previously employed by AStarix. Specifically, we achieve a consistent speedup of >60\(\times \) on both short Illumina reads and long HiFi reads (up to 25 kbp), on both the E. coli linear reference genome (1 Mbp) and the MHC variant graph (5 Mbp). Our speedup is enabled by the seed heuristic consistently skipping >99.99% of the table cells that optimal aligners based on dynamic programming compute.
AStarix Aligner and Evaluations: https://​github.​com/​eth-sri/​astarix.

Sie haben noch keine Lizenz? Dann Informieren Sie sich jetzt über unsere Produkte:

Springer Professional "Wirtschaft+Technik"

Online-Abonnement

Mit Springer Professional "Wirtschaft+Technik" erhalten Sie Zugriff auf:

  • über 102.000 Bücher
  • über 537 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Maschinenbau + Werkstoffe
  • Versicherung + Risiko

Jetzt Wissensvorsprung sichern!

Springer Professional "Technik"

Online-Abonnement

Mit Springer Professional "Technik" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 390 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Maschinenbau + Werkstoffe




 

Jetzt Wissensvorsprung sichern!

Springer Professional "Wirtschaft"

Online-Abonnement

Mit Springer Professional "Wirtschaft" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 340 Zeitschriften

aus folgenden Fachgebieten:

  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Versicherung + Risiko




Jetzt Wissensvorsprung sichern!

Anhänge
Nur mit Berechtigung zugänglich
Literatur
1.
Zurück zum Zitat Garrison, E., et al.: Variation graph toolkit improves read mapping by representing genetic variation in the reference. Nat. Biotechnol. 36(9), 875–879 (2018)CrossRef Garrison, E., et al.: Variation graph toolkit improves read mapping by representing genetic variation in the reference. Nat. Biotechnol. 36(9), 875–879 (2018)CrossRef
2.
Zurück zum Zitat Kucherov, G.: Evolution of biosequence search algorithms: a brief survey. Bioinformatics 35(19), 3547–3552 (2019)CrossRef Kucherov, G.: Evolution of biosequence search algorithms: a brief survey. Bioinformatics 35(19), 3547–3552 (2019)CrossRef
3.
Zurück zum Zitat Altschul, S.F., Gish, W., Miller, W., Myers, E.W., Lipman, D.J.: Basic local alignment search tool. J. Mol. Biol. 215(3), 403–410 (1990)CrossRef Altschul, S.F., Gish, W., Miller, W., Myers, E.W., Lipman, D.J.: Basic local alignment search tool. J. Mol. Biol. 215(3), 403–410 (1990)CrossRef
4.
Zurück zum Zitat Langmead, B., Salzberg, S.L.: Fast gapped-read alignment with Bowtie 2. Nature Methods (2012) Langmead, B., Salzberg, S.L.: Fast gapped-read alignment with Bowtie 2. Nature Methods (2012)
5.
Zurück zum Zitat Li, H., Durbin, R.: Fast and accurate short read alignment with Burrows-Wheeler transform. Bioinformatics 25(14), 1754–1760 (2009)CrossRef Li, H., Durbin, R.: Fast and accurate short read alignment with Burrows-Wheeler transform. Bioinformatics 25(14), 1754–1760 (2009)CrossRef
6.
Zurück zum Zitat Equi, M., Grossi, R., Mäkinen, V., Tomescu, A., et al.: On the complexity of string matching for graphs. In: 46th International Colloquium on Automata, Languages, and Programming (ICALP 2019), Schloss Dagstuhl-Leibniz-Zentrum für Informatik (2019) Equi, M., Grossi, R., Mäkinen, V., Tomescu, A., et al.: On the complexity of string matching for graphs. In: 46th International Colloquium on Automata, Languages, and Programming (ICALP 2019), Schloss Dagstuhl-Leibniz-Zentrum für Informatik (2019)
7.
Zurück zum Zitat Darby, C.A., Gaddipati, R., Schatz, M.C., Langmead, B.: Vargas: heuristic-free alignment for assessing linear and graph read aligners. Bioinformatics 36(12), 3712–3718 (2020)CrossRef Darby, C.A., Gaddipati, R., Schatz, M.C., Langmead, B.: Vargas: heuristic-free alignment for assessing linear and graph read aligners. Bioinformatics 36(12), 3712–3718 (2020)CrossRef
8.
Zurück zum Zitat Jain, C., Misra, S., Zhang, H., Dilthey, A., Aluru, S.: Accelerating sequence alignment to graphs. In: International Parallel and Distributed Processing Symposium (IPDPS) (2019). ISSN 1530-2075 Jain, C., Misra, S., Zhang, H., Dilthey, A., Aluru, S.: Accelerating sequence alignment to graphs. In: International Parallel and Distributed Processing Symposium (IPDPS) (2019). ISSN 1530-2075
9.
Zurück zum Zitat Rautiainen, M., Mäkinen, V., Marschall, T.: Bit-parallel sequence-to-graph alignment. Bioinformatics 35(19), 3599–3607 (2019)CrossRef Rautiainen, M., Mäkinen, V., Marschall, T.: Bit-parallel sequence-to-graph alignment. Bioinformatics 35(19), 3599–3607 (2019)CrossRef
10.
Zurück zum Zitat Feng, Z., Luo, Q.: Accelerating sequence-to-graph alignment on heterogeneous processors. In: 50th International Conference on Parallel Processing, pp. 1–10 (2021) Feng, Z., Luo, Q.: Accelerating sequence-to-graph alignment on heterogeneous processors. In: 50th International Conference on Parallel Processing, pp. 1–10 (2021)
12.
Zurück zum Zitat Rautiainen, M., Marschall, T.: Aligning sequences to general graphs in O(V+mE) time. Bioinformatics (2017, preprint) Rautiainen, M., Marschall, T.: Aligning sequences to general graphs in O(V+mE) time. Bioinformatics (2017, preprint)
13.
Zurück zum Zitat Dox, G., Fostier, J.: Efficient algorithms for pairwise sequence alignment on graphs. Master’s thesis, Ghent University (2018) Dox, G., Fostier, J.: Efficient algorithms for pairwise sequence alignment on graphs. Master’s thesis, Ghent University (2018)
14.
Zurück zum Zitat Howe, K.L., et al.: Ensembl Genomes 2020-enabling non-vertebrate genomic research. Nucleic Acids Res. 48, D689–D695 (2020)CrossRef Howe, K.L., et al.: Ensembl Genomes 2020-enabling non-vertebrate genomic research. Nucleic Acids Res. 48, D689–D695 (2020)CrossRef
15.
Zurück zum Zitat Huang, W., Li, L., Myers, J.R., Marth, G.T.: ART: a next-generation sequencing read simulator. Bioinformatics 28(4), 593–594 (2011)CrossRef Huang, W., Li, L., Myers, J.R., Marth, G.T.: ART: a next-generation sequencing read simulator. Bioinformatics 28(4), 593–594 (2011)CrossRef
Metadaten
Titel
Fast and Optimal Sequence-to-Graph Alignment Guided by Seeds
verfasst von
Pesho Ivanov
Benjamin Bichsel
Martin Vechev
Copyright-Jahr
2022
DOI
https://doi.org/10.1007/978-3-031-04749-7_22