Skip to main content
Top

2007 | OriginalPaper | Chapter

Space-Efficient Algorithms for Document Retrieval

Authors : Niko Välimäki, Veli Mäkinen

Published in: Combinatorial Pattern Matching

Publisher: Springer Berlin Heidelberg

Activate our intelligent search to find suitable subject content or patents.

search-config
loading …

We study the

Document Listing

problem, where a collection

D

of documents

d

1

,...,

d

k

of total length ∑ 

i

d

i

 = 

n

is to be preprocessed, so that one can later efficiently list all the

$\textrm{ndoc}$

documents containing a given query pattern

P

of length

m

as a substring. Muthukrishnan (SODA 2002) gave an optimal solution to the problem; with

O

(

n

) time preprocessing, one can answer the queries in

$O(m+\textrm{ndoc})$

time. In this paper, we improve the space-requirement of the Muthukrishnan’s solution from

O

(

n

log

n

) bits to |

CSA

| + 2

n

 + 

n

log

k

(1 + 

o

(1)) bits, where |

CSA

| ≤ 

n

log|

Σ

|(1 + 

o

(1)) is the size of any suitable

compressed suffix array

(

CSA

), and

Σ

is the underlying alphabet of documents. The time requirement depends on the

CSA

used, but we can obtain e.g. the optimal

$O(m+\textrm{ndoc})$

time when

. For general |

Σ

|,

k

the time requirement becomes

$O(m \log |\Sigma|+\textrm{ndoc} \log k)$

. Sadakane (ISAAC 2002) has developed a similar space-efficient variant of the Muthukrishnan’s solution; we obtain a better time requirement in most cases, but a slightly worse space requirement.

Dont have a licence yet? Then find out more about our products and how to get one now:

Springer Professional "Wirtschaft+Technik"

Online-Abonnement

Mit Springer Professional "Wirtschaft+Technik" erhalten Sie Zugriff auf:

  • über 102.000 Bücher
  • über 537 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Maschinenbau + Werkstoffe
  • Versicherung + Risiko

Jetzt Wissensvorsprung sichern!

Springer Professional "Technik"

Online-Abonnement

Mit Springer Professional "Technik" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 390 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Maschinenbau + Werkstoffe




 

Jetzt Wissensvorsprung sichern!

Springer Professional "Wirtschaft"

Online-Abonnement

Mit Springer Professional "Wirtschaft" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 340 Zeitschriften

aus folgenden Fachgebieten:

  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Versicherung + Risiko




Jetzt Wissensvorsprung sichern!

Metadata
Title
Space-Efficient Algorithms for Document Retrieval
Authors
Niko Välimäki
Veli Mäkinen
Copyright Year
2007
Publisher
Springer Berlin Heidelberg
DOI
https://doi.org/10.1007/978-3-540-73437-6_22

Premium Partner