Skip to main content

2005 | OriginalPaper | Buchkapitel

Succinct Suffix Arrays Based on Run-Length Encoding

verfasst von : Veli Mäkinen, Gonzalo Navarro

Erschienen in: Combinatorial Pattern Matching

Verlag: Springer Berlin Heidelberg

Aktivieren Sie unsere intelligente Suche, um passende Fachinhalte oder Patente zu finden.

search-config
loading …

A succinct full-text self-index is a data structure built on a text

T

=

t

1

t

2

...

t

n

, which takes little space (ideally close to that of the compressed text), permits efficient search for the occurrences of a pattern

P

=

p

1

p

2

...

p

m

in

T

, and is able to reproduce any text substring, so the self-index replaces the text. Several remarkable self-indexes have been developed in recent years. They usually take

O

(

nH

0

) or

O

(

nH

k

) bits, being

H

k

the

k

th order empirical entropy of

T

. The time to count how many times does

P

occur in

T

ranges from

O

(

m

) to

O

(

m

log

n

).

We present a new self-index, called run-length FM-index (RLFM index), that counts the occurrences of

P

in

T

in

O

(

m

) time when the alphabet size is

$\sigma=O(\textrm{polylog}(n))$

. The index requires

nH

k

log

2

σ

 + 

O

(

n

) bits of space for small

k

. We then show how to implement the RLFM index in practice, and obtain in passing another implementation with different space-time tradeoffs. We empirically compare ours against the best existing implementations of other indexes and show that ours are fastest among indexes taking less space than the text.

Sie haben noch keine Lizenz? Dann Informieren Sie sich jetzt über unsere Produkte:

Springer Professional "Wirtschaft+Technik"

Online-Abonnement

Mit Springer Professional "Wirtschaft+Technik" erhalten Sie Zugriff auf:

  • über 102.000 Bücher
  • über 537 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Maschinenbau + Werkstoffe
  • Versicherung + Risiko

Jetzt Wissensvorsprung sichern!

Springer Professional "Technik"

Online-Abonnement

Mit Springer Professional "Technik" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 390 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Maschinenbau + Werkstoffe




 

Jetzt Wissensvorsprung sichern!

Springer Professional "Wirtschaft"

Online-Abonnement

Mit Springer Professional "Wirtschaft" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 340 Zeitschriften

aus folgenden Fachgebieten:

  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Versicherung + Risiko




Jetzt Wissensvorsprung sichern!

Metadaten
Titel
Succinct Suffix Arrays Based on Run-Length Encoding
verfasst von
Veli Mäkinen
Gonzalo Navarro
Copyright-Jahr
2005
Verlag
Springer Berlin Heidelberg
DOI
https://doi.org/10.1007/11496656_5

Premium Partner