nach oben

Erschienen in:

2007 | OriginalPaper | Buchkapitel

A Lempel-Ziv Text Index on Secondary Storage

verfasst von : Diego Arroyuelo, Gonzalo Navarro

Erschienen in: Combinatorial Pattern Matching

Verlag: Springer Berlin Heidelberg

Einloggen

Aktivieren Sie unsere intelligente Suche, um passende Fachinhalte oder Patente zu finden.

search-config

KI-gestützte Suche

Aus

Full-text

searching consists in locating the occurrences of a given pattern

[1..

] in a text

[1..

], both sequences over an alphabet of size

. In this paper we define a new index for full-text searching on

secondary storage

, based on the Lempel-Ziv compression algorithm and requiring 8

(

log

) bits of space, where

denotes the

-th order empirical entropy of

, for any

(log

). Our experimental results show that our index is significantly smaller than any other practical secondary-memory data structure: 1.4–2.3 times the text size

including the text

, which means 39%–65% the size of traditional indexes like

String B-trees

[Ferragina and Grossi,

JACM

1999]. In exchange, our index requires more disk access to locate the pattern occurrences. Our index is able to report up to 600 occurrences per disk access, for a disk page of 32 kilobytes. If we only need to

count

pattern occurrences, the space can be reduced to about 1.04–1.68 times the text size, requiring about 20–60 disk accesses, depending on the pattern length.

Sie haben noch keine Lizenz? Dann Informieren Sie sich jetzt über unsere Produkte:

Springer Professional "Wirtschaft+Technik"

Online-Abonnement

Mit Springer Professional "Wirtschaft+Technik" erhalten Sie Zugriff auf:

über 102.000 Bücher
über 537 Zeitschriften

aus folgenden Fachgebieten:

Automobil + Motoren
Bauwesen + Immobilien
Business IT + Informatik
Elektrotechnik + Elektronik
Energie + Nachhaltigkeit
Finance + Banking
Management + Führung
Marketing + Vertrieb
Maschinenbau + Werkstoffe
Versicherung + Risiko

Jetzt Wissensvorsprung sichern!

Jetzt informieren

Springer Professional "Technik"

Online-Abonnement

Mit Springer Professional "Technik" erhalten Sie Zugriff auf:

über 67.000 Bücher
über 390 Zeitschriften

aus folgenden Fachgebieten:

Automobil + Motoren
Bauwesen + Immobilien
Business IT + Informatik
Elektrotechnik + Elektronik
Energie + Nachhaltigkeit
Maschinenbau + Werkstoffe

Jetzt Wissensvorsprung sichern!

Jetzt informieren

Springer Professional "Wirtschaft"

Online-Abonnement

Mit Springer Professional "Wirtschaft" erhalten Sie Zugriff auf:

über 67.000 Bücher
über 340 Zeitschriften

aus folgenden Fachgebieten:

Bauwesen + Immobilien
Business IT + Informatik
Finance + Banking
Management + Führung
Marketing + Vertrieb
Versicherung + Risiko

Jetzt Wissensvorsprung sichern!

Jetzt informieren

Vorheriges Kapitel Move-to-Front, Distance Coding, and Inversion Frequencies Revisited

Nächstes Kapitel Dynamic Rank-Select Structures with Applications to Run-Length Encoded Texts

Titel: A Lempel-Ziv Text Index on Secondary Storage
verfasst von: Diego Arroyuelo
Gonzalo Navarro
Verlag: Springer Berlin Heidelberg
Buch: Combinatorial Pattern Matching
Print ISBN: 978-3-540-73436-9

Electronic ISBN: 978-3-540-73437-6

Copyright-Jahr: 2007
DOI: https://doi.org/10.1007/978-3-540-73437-6_11

Springer Professional

Bitte loggen Sie sich ein, um Zugang zu Ihrer Lizenz zu erhalten.

Sie haben noch keine Lizenz? Dann Informieren Sie sich jetzt über unsere Produkte:

Springer Professional "Wirtschaft+Technik"

Springer Professional "Technik"

Springer Professional "Wirtschaft"

Premium Partner