Skip to main content

2015 | OriginalPaper | Buchkapitel

Spoken Document Retrieval: Sub-sequence DTW Framework and Variants

verfasst von : Akshay Khatwani, Komala Pawar, Sushma Hegde, Sudha Rao, Adithya Seshasayee, V. Ramasubramanian

Erschienen in: Mining Intelligence and Knowledge Exploration

Verlag: Springer International Publishing

Aktivieren Sie unsere intelligente Suche, um passende Fachinhalte oder Patente zu finden.

search-config
loading …

Abstract

We address the problem of spoken document retrieval (alternately termed content-based audio-search and retrieval), which involves searching a large spoken document or database for a specific spoken query. We formulate the search within the sub-sequence DTW (SS-DTW) framework proposed earlier in literature, adapted here to work on acoustic feature representation of the database and spoken query term. Further, we propose several variants within this framework, such as (i) path-length based score normalization, (ii) clustered quantization of acoustic feature vectors for fast search and retrieval with invariant performances and, (iii) phonetic representation of the database and spoken query term, derived from ground-truth annotation as well as HMM based continuous phoneme recognition. We characterize the performance of the proposed framework, algorithms and variants in terms of ROC curves, EER and time-complexity and present results using the TIMIT database with annotated spoken sentences from 400 speakers.

Sie haben noch keine Lizenz? Dann Informieren Sie sich jetzt über unsere Produkte:

Springer Professional "Wirtschaft+Technik"

Online-Abonnement

Mit Springer Professional "Wirtschaft+Technik" erhalten Sie Zugriff auf:

  • über 102.000 Bücher
  • über 537 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Maschinenbau + Werkstoffe
  • Versicherung + Risiko

Jetzt Wissensvorsprung sichern!

Springer Professional "Technik"

Online-Abonnement

Mit Springer Professional "Technik" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 390 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Maschinenbau + Werkstoffe




 

Jetzt Wissensvorsprung sichern!

Springer Professional "Wirtschaft"

Online-Abonnement

Mit Springer Professional "Wirtschaft" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 340 Zeitschriften

aus folgenden Fachgebieten:

  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Versicherung + Risiko




Jetzt Wissensvorsprung sichern!

Literatur
1.
Zurück zum Zitat Divakaran, A.: Multimedia Content Analysis: Theory and Applications. Springer, New York (2009) Divakaran, A.: Multimedia Content Analysis: Theory and Applications. Springer, New York (2009)
2.
Zurück zum Zitat Muller, M.: Dynamic time warping. In: Muller, M. (ed.) Information Retrieval for Music and Motion, Chap. 4, pp. 69–84. Springer, Heidelberg (2007) Muller, M.: Dynamic time warping. In: Muller, M. (ed.) Information Retrieval for Music and Motion, Chap. 4, pp. 69–84. Springer, Heidelberg (2007)
3.
Zurück zum Zitat Fisher, W.M., Doddington, G.R., George, R., Goudie-Marshall, K.M.: The DARPA speech recognition research database: specifications and status. In: Proceedings of DARPA Workshop on Speech Recognition, pp. 93–99 (1986). https://catalog.ldc.upenn.edu/LDC93S1 Fisher, W.M., Doddington, G.R., George, R., Goudie-Marshall, K.M.: The DARPA speech recognition research database: specifications and status. In: Proceedings of DARPA Workshop on Speech Recognition, pp. 93–99 (1986). https://​catalog.​ldc.​upenn.​edu/​LDC93S1
4.
Zurück zum Zitat Rabiner, L.R., Juang, B.H.: Fundamentals of Speech Recognition. Prentice Hall, Upper Saddle River (1993) Rabiner, L.R., Juang, B.H.: Fundamentals of Speech Recognition. Prentice Hall, Upper Saddle River (1993)
5.
Zurück zum Zitat Rosenberg, A.E., Bimbot, F., Parthasarathy, S.: Overview of speaker recognition. In: Benesty, J., Sondhi, M.M., Huang, Y. (eds.) Handbook of Speech Processing, Chap. 36, pp. 725–741. Springer, Berlin (2008) Rosenberg, A.E., Bimbot, F., Parthasarathy, S.: Overview of speaker recognition. In: Benesty, J., Sondhi, M.M., Huang, Y. (eds.) Handbook of Speech Processing, Chap. 36, pp. 725–741. Springer, Berlin (2008)
Metadaten
Titel
Spoken Document Retrieval: Sub-sequence DTW Framework and Variants
verfasst von
Akshay Khatwani
Komala Pawar
Sushma Hegde
Sudha Rao
Adithya Seshasayee
V. Ramasubramanian
Copyright-Jahr
2015
DOI
https://doi.org/10.1007/978-3-319-26832-3_29