Skip to main content

2010 | OriginalPaper | Buchkapitel

Compressed Self-indices Supporting Conjunctive Queries on Document Collections

verfasst von : Diego Arroyuelo, Senén González, Mauricio Oyarzún

Erschienen in: String Processing and Information Retrieval

Verlag: Springer Berlin Heidelberg

Aktivieren Sie unsere intelligente Suche, um passende Fachinhalte oder Patente zu finden.

search-config
loading …

We prove that a document collection, represented as a unique sequence

T

of

n

terms over a vocabulary Σ, can be represented in

nH

0

(

T

) + 

o

(

n

)(

H

0

(

T

) + 1) bits of space, such that a conjunctive query

t

1

 ∧ ⋯ ∧ 

t

k

can be answered in

O

(

loglog|Σ|) adaptive time, where

δ

is the instance difficulty of the query, as defined by Barbay and Kenyon in their SODA’02 paper, and

H

0

(

T

) is the empirical entropy of order 0 of

T

. As a comparison, using an inverted index plus the adaptive intersection algorithm by Barbay and Kenyon takes

$O(k\delta\log{\frac{n_M}{\delta}})$

, where

n

M

is the length of the shortest and longest occurrence lists, respectively, among those of the query terms. Thus, we can replace an inverted index by a more space-efficient in-memory encoding, outperforming the query performance of inverted indices when the ratio

$\frac{n_M}{\delta}$

is

ω

(log|Σ|).

Sie haben noch keine Lizenz? Dann Informieren Sie sich jetzt über unsere Produkte:

Springer Professional "Wirtschaft+Technik"

Online-Abonnement

Mit Springer Professional "Wirtschaft+Technik" erhalten Sie Zugriff auf:

  • über 102.000 Bücher
  • über 537 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Maschinenbau + Werkstoffe
  • Versicherung + Risiko

Jetzt Wissensvorsprung sichern!

Springer Professional "Technik"

Online-Abonnement

Mit Springer Professional "Technik" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 390 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Maschinenbau + Werkstoffe




 

Jetzt Wissensvorsprung sichern!

Springer Professional "Wirtschaft"

Online-Abonnement

Mit Springer Professional "Wirtschaft" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 340 Zeitschriften

aus folgenden Fachgebieten:

  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Versicherung + Risiko




Jetzt Wissensvorsprung sichern!

Metadaten
Titel
Compressed Self-indices Supporting Conjunctive Queries on Document Collections
verfasst von
Diego Arroyuelo
Senén González
Mauricio Oyarzún
Copyright-Jahr
2010
Verlag
Springer Berlin Heidelberg
DOI
https://doi.org/10.1007/978-3-642-16321-0_5

Neuer Inhalt