Skip to main content

2018 | OriginalPaper | Buchkapitel

Multimodal Dual Attention Memory for Video Story Question Answering

verfasst von : Kyung-Min Kim, Seong-Ho Choi, Jin-Hwa Kim, Byoung-Tak Zhang

Erschienen in: Computer Vision – ECCV 2018

Verlag: Springer International Publishing

Aktivieren Sie unsere intelligente Suche, um passende Fachinhalte oder Patente zu finden.

search-config
loading …

Abstract

We propose a video story question-answering (QA) architecture, Multimodal Dual Attention Memory (MDAM). The key idea is to use a dual attention mechanism with late fusion. MDAM uses self-attention to learn the latent concepts in scene frames and captions. Given a question, MDAM uses the second attention over these latent concepts. Multimodal fusion is performed after the dual attention processes (late fusion). Using this processing pipeline, MDAM learns to infer a high-level vision-language joint representation from an abstraction of the full video content. We evaluate MDAM on PororoQA and MovieQA datasets which have large-scale QA annotations on cartoon videos and movies, respectively. For both datasets, MDAM achieves new state-of-the-art results with significant margins compared to the runner-up models. We confirm the best performance of the dual attention mechanism combined with late fusion by ablation studies. We also perform qualitative analysis by visualizing the inference mechanisms of MDAM.

Sie haben noch keine Lizenz? Dann Informieren Sie sich jetzt über unsere Produkte:

Springer Professional "Wirtschaft+Technik"

Online-Abonnement

Mit Springer Professional "Wirtschaft+Technik" erhalten Sie Zugriff auf:

  • über 102.000 Bücher
  • über 537 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Maschinenbau + Werkstoffe
  • Versicherung + Risiko

Jetzt Wissensvorsprung sichern!

Springer Professional "Technik"

Online-Abonnement

Mit Springer Professional "Technik" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 390 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Maschinenbau + Werkstoffe




 

Jetzt Wissensvorsprung sichern!

Springer Professional "Wirtschaft"

Online-Abonnement

Mit Springer Professional "Wirtschaft" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 340 Zeitschriften

aus folgenden Fachgebieten:

  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Versicherung + Risiko




Jetzt Wissensvorsprung sichern!

Literatur
1.
Zurück zum Zitat Agrawal, A., Lu, J., Antol, S., Mitchell, M., Zitnick, C.L., Batra, D., Parikh, D.: Vqa: Visual question answering. In: ICCV (2015) Agrawal, A., Lu, J., Antol, S., Mitchell, M., Zitnick, C.L., Batra, D., Parikh, D.: Vqa: Visual question answering. In: ICCV (2015)
2.
Zurück zum Zitat Baddeley, A.: The episodic buffer: a new component of working memory? Trends Cogn. Sci. 4(11), 417–423 (2000)CrossRef Baddeley, A.: The episodic buffer: a new component of working memory? Trends Cogn. Sci. 4(11), 417–423 (2000)CrossRef
3.
Zurück zum Zitat Fukui, A., Park, D.H., Yang, D., Rohrbach, A., Darrell, T., Rohrbach, M.: Multimodal compact bilinear pooling for visual question answering and visual grounding. In: EMNLP (2016) Fukui, A., Park, D.H., Yang, D., Rohrbach, A., Darrell, T., Rohrbach, M.: Multimodal compact bilinear pooling for visual question answering and visual grounding. In: EMNLP (2016)
4.
Zurück zum Zitat Gehring, J., Auli, M., Grangier, D., Yarats, D., Dauphin, Y.N.: Convolutional sequence to sequence learning. Arxiv eprint arXiv:1705.03122 (2017) Gehring, J., Auli, M., Grangier, D., Yarats, D., Dauphin, Y.N.: Convolutional sequence to sequence learning. Arxiv eprint arXiv:​1705.​03122 (2017)
5.
Zurück zum Zitat Glorot, X., Bengio, Y.: Understanding the difficulty of training deep feedforward neural networks. In: AISTATS (2010) Glorot, X., Bengio, Y.: Understanding the difficulty of training deep feedforward neural networks. In: AISTATS (2010)
6.
Zurück zum Zitat He, K., Zhang, X., Ren, S., Sun, J.: Deep residual learning for image recognition. In: CVPR (2016) He, K., Zhang, X., Ren, S., Sun, J.: Deep residual learning for image recognition. In: CVPR (2016)
7.
Zurück zum Zitat Hinton, G.E., Srivastava, N., Krizhevsky, A., Sutskever, I., Salakhutdinov, R.R.: Improving neural networks by preventing co-adaptation of feature detectors. ArXiv eprint arXiv:1207.0580 (2012) Hinton, G.E., Srivastava, N., Krizhevsky, A., Sutskever, I., Salakhutdinov, R.R.: Improving neural networks by preventing co-adaptation of feature detectors. ArXiv eprint arXiv:​1207.​0580 (2012)
8.
Zurück zum Zitat Jabri, A., Joulin, A., van der Maaten, L.: Revisiting visual question answering baselines. In: ECCV (2016) Jabri, A., Joulin, A., van der Maaten, L.: Revisiting visual question answering baselines. In: ECCV (2016)
9.
Zurück zum Zitat Jang, Y.S., Song, Y., Yu, Y.J., Kim, Y.J., Kim, G.H.: Tgif-qa: Toward spatio-temporal reasoning in visual question answering. In: CVPR (2017) Jang, Y.S., Song, Y., Yu, Y.J., Kim, Y.J., Kim, G.H.: Tgif-qa: Toward spatio-temporal reasoning in visual question answering. In: CVPR (2017)
10.
Zurück zum Zitat Kim, J.H., Lee, S.W., Kwak, D.H., Heo, M.O., Kim, J.H., Ha, J.W., Zhang, B.T.: Multimodal residual learning for visual qa. In: NIPS (2016) Kim, J.H., Lee, S.W., Kwak, D.H., Heo, M.O., Kim, J.H., Ha, J.W., Zhang, B.T.: Multimodal residual learning for visual qa. In: NIPS (2016)
11.
Zurück zum Zitat Kim, J.H., On, K.W., Lim, W.S., Kim, J.H., Ha, J.W., Zhang, B.T.: Hadamard product for low-rank bilinear pooling. In: ICLR (2017) Kim, J.H., On, K.W., Lim, W.S., Kim, J.H., Ha, J.W., Zhang, B.T.: Hadamard product for low-rank bilinear pooling. In: ICLR (2017)
12.
Zurück zum Zitat Kim, K.M., Heo, M.O., Choi, S.H., Zhang, B.T.: Deep story video story qa by deep embedded memory networks. In: IJCAI (2017) Kim, K.M., Heo, M.O., Choi, S.H., Zhang, B.T.: Deep story video story qa by deep embedded memory networks. In: IJCAI (2017)
13.
Zurück zum Zitat Kim, Y.: Convolutional neural networks for sentence classification. In: EMNLP (2014) Kim, Y.: Convolutional neural networks for sentence classification. In: EMNLP (2014)
14.
Zurück zum Zitat Kingma, D.P., Ba, J.: Adam: a method for stochastic optimization. In: ICLR (2015) Kingma, D.P., Ba, J.: Adam: a method for stochastic optimization. In: ICLR (2015)
15.
Zurück zum Zitat Lu, J., Yang, J., Batra, D., Parikh, D.: Hierarchical question-image co-attention for visual question answering. In: NIPS (2016) Lu, J., Yang, J., Batra, D., Parikh, D.: Hierarchical question-image co-attention for visual question answering. In: NIPS (2016)
16.
Zurück zum Zitat Na, S.I., Lee, S.H., Kim, J.S., Kim, G.H.: A read-write memory network for movie story understanding. In: ICCV (2017) Na, S.I., Lee, S.H., Kim, J.S., Kim, G.H.: A read-write memory network for movie story understanding. In: ICCV (2017)
17.
Zurück zum Zitat Nair, V., Hinton, G.E.: Rectified linear units improve restricted boltzmann machines. In: ICML (2010) Nair, V., Hinton, G.E.: Rectified linear units improve restricted boltzmann machines. In: ICML (2010)
18.
Zurück zum Zitat Pennington, J., Socher, R., Manning, C.D.: Glove: global vectors for word representation. In: EMNLP (2014) Pennington, J., Socher, R., Manning, C.D.: Glove: global vectors for word representation. In: EMNLP (2014)
19.
Zurück zum Zitat Reimers, N., Gurevych, I.: Optimal hyperparameters for deep lstm-networks for sequence labeling tasks. In: EMNLP (2017) Reimers, N., Gurevych, I.: Optimal hyperparameters for deep lstm-networks for sequence labeling tasks. In: EMNLP (2017)
20.
Zurück zum Zitat Tapaswi, M., Zhu, Y., Stiefelhagen, R., Torralba, A., Urtasun, R., Fidler, S.: Movieqa: Understanding stories in movies through question-answering. In: CVPR (2016) Tapaswi, M., Zhu, Y., Stiefelhagen, R., Torralba, A., Urtasun, R., Fidler, S.: Movieqa: Understanding stories in movies through question-answering. In: CVPR (2016)
21.
Zurück zum Zitat Tran, D., Bourdev, L.D., Fergus, R., Torresani, L., Paluri, M.: Learning spatiotemporal features with 3d convolutional networks. In: ICCV (2015) Tran, D., Bourdev, L.D., Fergus, R., Torresani, L., Paluri, M.: Learning spatiotemporal features with 3d convolutional networks. In: ICCV (2015)
22.
Zurück zum Zitat Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A.N., Kaiser, L., Polosukhin, I.: Attention is all you need. In: NIPS (2017) Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A.N., Kaiser, L., Polosukhin, I.: Attention is all you need. In: NIPS (2017)
23.
Zurück zum Zitat Xu, H., Saenko, K.: Ask, attend and answer: exploring question guided spatial attention for visual question answering. In: ECCV (2016) Xu, H., Saenko, K.: Ask, attend and answer: exploring question guided spatial attention for visual question answering. In: ECCV (2016)
24.
Zurück zum Zitat Zeng, K.H., Chen, T.H., Chuang, C.Y., Liao, Y.H., Niebles, J.C., Sun, M.: Leveraging video descriptions to learn video question answering. In: AAAI (2017) Zeng, K.H., Chen, T.H., Chuang, C.Y., Liao, Y.H., Niebles, J.C., Sun, M.: Leveraging video descriptions to learn video question answering. In: AAAI (2017)
Metadaten
Titel
Multimodal Dual Attention Memory for Video Story Question Answering
verfasst von
Kyung-Min Kim
Seong-Ho Choi
Jin-Hwa Kim
Byoung-Tak Zhang
Copyright-Jahr
2018
DOI
https://doi.org/10.1007/978-3-030-01267-0_41