Zum Inhalt

MultiMedia Modeling

27th International Conference, MMM 2021, Prague, Czech Republic, June 22–24, 2021, Proceedings, Part II

  • 2021
  • Buch

Über dieses Buch

Die zweibändige Reihe LNCS 12572 und 1273 stellt den gründlich referierten Tagungsband der 27. Internationalen Konferenz für Multimedia-Modellierung, MMM 2021, dar, die im Juni 2021 in Prag, Tschechische Republik, stattfand. Von den 211 eingereichten regulären Vorträgen wurden 40 für eine mündliche Präsentation und 33 für eine Posterpräsentation ausgewählt; 16 Sondervorträge wurden angenommen sowie 2 Vorträge für eine Demopräsentation und 17 Vorträge für die Teilnahme am Video Browser Showdown 2021. Die Beiträge behandeln Themen wie Multimedia-Indexierung, Multimedia-Mining, multimediale Abstraktion und Zusammenfassung, multimediale Anmerkungen, Tagging und Empfehlungen, multimodale Analyse für Retrieval-Anwendungen, semantische Analyse multimedialer und kontextbezogener Daten, multimediale Fusionsmethoden, multimediale Hyperlinks, Browsing und Retrieval-Tools für Medieninhalte, Medienrepräsentation und -algorithmen, Audio-, Bild-, Videoverarbeitung, Codierung und Komprimierung, multimediale Sensoren und Interaktionsmodi, multimediale Datenschutz-, Sicherheits- und Inhaltsschutz, multimediale Standards und verwandte Themen, Fortschritte bei Multimedia-Vernetzung und -Streaming, multimediale Datenbanken, Bereitstellung und Transport von Inhalten, drahtlose und mobile Multimedia-Netzwerke,

Inhaltsverzeichnis

  • 1
  • 2
  • current Page 3
Vorherige
  1. NoShot Video Browser at VBS2021

    Christof Karisch, Andreas Leibetseder, Klaus Schoeffmann
    Der NoShot Video Browser, der für den Video Browser Showdown 2021 entwickelt wurde, bietet eine optimierte webbasierte Benutzeroberfläche für die Suche nach großen Videosammlungen. Es verwendet YOLO 9000 für die Rahmenklassifizierung und Apache Solr für schnelle Suchanfragen. Zu den wichtigsten Merkmalen gehören ein Zeitcache, der die besten Keyframes für bestimmte Zeiträume anzeigt, und ein neuartiger Helligkeitsfilter, der es Benutzern ermöglicht, Suchergebnisse basierend auf der Helligkeit von Keyframes zu verfeinern. Diese Innovationen, kombiniert mit einem benutzerfreundlichen Design, machen NoShot besonders effektiv für Anfänger bei der Suche nach Videos im Wettbewerb.
  2. Exquisitor at the Video Browser Showdown 2021: Relationships Between Semantic Classifiers

    Omar Shahbaz Khan, Björn Þór Jónsson, Mathias Larsen, Liam Poulsen, Dennis C. Koelma, Stevan Rudinac, Marcel Worring, Jan Zahálka
    In diesem Kapitel wird die Entwicklung des Video Browser Showdown (VBS) als Plattform zur Weiterentwicklung multimedialer Suchtechniken diskutiert. Es konzentriert sich auf das Exquisitor-System, das interaktives Lernen nutzt, um semantische Klassifikatoren für Videosuchaufgaben zu erstellen. Die erweiterte Version von Exquisitor führt die Möglichkeit ein, Klassifikatoren zu kombinieren, was eine effektivere Handhabung von Aufgaben ermöglicht, die mehrere semantische Konzepte und zeitliche Beziehungen beinhalten. Die Autoren stellen eine detaillierte Methode zur Kombination von Klassifikatoren vor und demonstrieren ihre Wirksamkeit durch Experimente an VBS-Aufgaben. Das Kapitel hebt hervor, wie dieser neue Ansatz die Leistung von Videosuchsystemen erheblich verbessern kann und sie zu einer wertvollen Ressource für Forscher und Praktiker im Bereich der multimedialen Suche macht.
  3. VideoGraph – Towards Using Knowledge Graphs for Interactive Video Retrieval

    Luca Rossetto, Matthias Baumgartner, Narges Ashena, Florian Ruosch, Romana Pernisch, Lucien Heitz, Abraham Bernstein
    In diesem Kapitel wird VideoGraph vorgestellt, ein Knowledge Graph-basierter Video-Retrieval-Prototyp, der die Organisation und den Abruf von Multimedia-Dokumenten verbessern soll. Durch die Integration von Informationen aus einem Videodatensatz mit allgemeinen Wissensdatenbanken ermöglicht VideoGraph die Abfrage reichhaltigerer Konzepte und Situationen. Bei der Erstellung des Graphen werden semantische Metadaten, textuelle semantische Informationen aus Videos, visuelle semantische Informationen und technische Video-Metadaten genutzt. Die Erforschung des Graphen wird durch Abfrageformulierung und Methoden der Graphendurchquerung erleichtert, wobei die Benutzerinteraktion durch eine modifizierte Version von vitrivr-ng unterstützt wird. Das Kapitel schließt mit der Hervorhebung des Potenzials von VideoGraph als Proof-of-Concept für zukünftige Entwicklungen in komplexen Wissensdarstellungen zum Abruf von Videos.
  4. IVIST: Interactive Video Search Tool in VBS 2021

    Yoonho Lee, Heeju Choi, Sungjune Park, Yong Man Ro
    In diesem Kapitel wird die erweiterte Version von IVIST vorgestellt, einem Videoabrufsystem, das für den Video Browser Showdown (VBS) entwickelt wurde. Das neue IVIST bietet eine verbesserte Benutzeroberfläche mit größeren Thumbnails und benutzerfreundlichem Design, was eine schnellere und effizientere Videosuche ermöglicht. Es integriert auch erweiterte Suchfunktionen wie Aktionserkennung, Ortserkennung und Beschreibungssuche, was es den Benutzern ermöglicht, spezifischere und genauere Videosuchen durchzuführen. Die auf ReactJS, Flask und MongoDB basierende Systemarchitektur gewährleistet eine nahtlose Interaktion zwischen Frontend, Backend und Datenbank. Das Kapitel bietet einen umfassenden Überblick über die wichtigsten Suchfunktionen, darunter Objekterkennung, Szene-Text-Erkennung, Dominant-Color-Suche und die neu hinzugekommenen Funktionen. Das erweiterte IVIST-System zeigt deutliche Verbesserungen bei der Videosuche, was es zu einem wertvollen Werkzeug für Fachleute im Bereich der Videoanalyse und -abfrage macht.
  5. Video Search with Collage Queries

    Jakub Lokoč, Jana Bátoryová, Dominik Smrž, Marek Dobranský
    Das Kapitel stellt einen neuartigen Ansatz für die Videosuche mittels Collage-Abfragen vor, bei dem Benutzer bildbasierte Suchanfragen interaktiv erstellen und bearbeiten können. Diese Methode nutzt tiefe Darstellungen von Merkmalen und kosinale Ähnlichkeiten, um Collagenbilder mit Unterregionen von Videobildern abzugleichen, was eine intuitivere und flexiblere Suchinitialisierung ermöglicht. Der in die SOMHunter-Plattform integrierte System-Prototyp unterstützt sowohl statische als auch zeitliche Collage-Abfragen und lässt sich leicht an unterschiedliche Plattformen anpassen. In dem Aufsatz werden die Vorteile dieses Ansatzes hervorgehoben, wie die Fähigkeit, Beschränkungen von vorausgebildeten Objektdetektoren zu umgehen und das Potenzial für eine verbesserte Aussagekraft der Suche, während gleichzeitig Herausforderungen wie die Abhängigkeit von externen Suchmaschinen und Netzwerkkonnektivität anerkannt werden.
  6. Towards Explainable Interactive Multi-modal Video Retrieval with Vitrivr

    Silvan Heller, Ralph Gasser, Cristina Illi, Maurizio Pasquinelli, Loris Sauter, Florian Spiess, Heiko Schuldt
    Das Kapitel präsentiert die neuesten Fortschritte des vitrivr-Systems für den Video Browser Showdown 2021, wobei der Schwerpunkt auf Verbesserungen bei der zeitlichen Abfrage, neuen Indexstrukturen für eine effiziente Ähnlichkeitssuche und innovativen Methoden zur Erklärung der Suchergebnisse liegt. Diese Verbesserungen zielen darauf ab, architektonische Beschränkungen zu beheben, die Leistung zu optimieren und den Anwendern bessere Einblicke in den Abrufprozess zu bieten. Das Kapitel beleuchtet auch die Vielseitigkeit des Systems in verschiedenen Anwendungen, wie etwa der Suche nach Lifeline und der Erforschung von VR-Anwendungen, und seine Rolle als Open-Source-Plattform für multimediale Forschung.
  7. Competitive Interactive Video Retrieval in Virtual Reality with vitrivr-VR

    Florian Spiess, Ralph Gasser, Silvan Heller, Luca Rossetto, Loris Sauter, Heiko Schuldt
    Dieses Kapitel stellt vitrivr-VR vor, eine virtuelle Reality-Schnittstelle zum interaktiven Abrufen von Videos, die auf dem Open-Source-Multimedia-Abrufstack vitrivr aufbaut. Er diskutiert das Potenzial von VR bei der Videosuche und hebt die Verwendung von Sprache-Text-Eingaben für erste Abfragen und die räumliche Organisation der Ergebnisse hervor. Das Kapitel bietet auch einen Überblick über die Systemarchitektur, Abfragemechanismen und den interaktiven Abrufprozess in VR. Darüber hinaus kontextualisiert es vitrivr-VR innerhalb bestehender Forschungs- und Wettbewerbsereignisse wie dem Video Browser Showdown (VBS) und bietet wertvolle Einblicke in die Effektivität von VR-basierten Systemen bei der interaktiven Videoabfrage.
  8. An Interactive Video Search Tool: A Case Study Using the V3C1 Dataset

    Abdullah Alfarrarjeh, Jungwon Yoon, Seon Ho Kim, Amani Abu Jabal, Akarsh Nagaraj, Chinmayee Siddaramaiah
    Dieses Kapitel stellt ein innovatives Videosuchwerkzeug vor, das entwickelt wurde, um die Herausforderungen der Suche durch riesige Mengen an Videodaten zu bewältigen. Das Tool namens Interactive Video Search Tool (IVS) unterstützt sowohl textliche als auch visuelle Abfragen und nutzt eine Vielzahl von Metadatentypen wie erkannte Objekte, Gesichter, visuelle Merkmale und dominante Farben. IVS setzt modernste Algorithmen zur Objekterkennung, Spracherkennung und Zeichenerkennung ein, um relevante Metadaten zu extrahieren. Es speichert und indiziert diese Daten mithilfe zweier Datenbankmaschinen, Whoosh und PostgreSQL, um eine effiziente Suchleistung zu gewährleisten. Das Tool enthält auch Feedback-Mechanismen der Benutzer, die es den Benutzern ermöglichen, Abfragen anzupassen und Relevanz-Feedback zu geben, um die Suchergebnisse zu verfeinern. Die Fallstudie anhand des V3C1-Datensatzes zeigt die Effektivität des Tools beim Abrufen relevanter Keyframes aus einer großen Videosammlung. Dieses Kapitel bietet einen detaillierten Überblick über die Architektur, die Abfrageverarbeitung und die Suchansätze des Tools und hebt sein Potenzial hervor, die Art und Weise, wie Videodaten gesucht und verwaltet werden, zu revolutionieren.
  9. Less is More - diveXplore 5.0 at VBS 2021

    Andreas Leibetseder, Klaus Schoeffmann
    Das Kapitel stellt diveXplore 5.0 vor, ein überarbeitetes System für den Video Browser Showdown und die Lifelog Search Challenge, das Einfachheit und Raffinesse betont. Es beschreibt die Architektur des Systems, die Offline-Vorverarbeitungsschritte und webbasierte Technologien umfasst. Schlüsselfunktionen wie textuelle Konzeptsuche, Ähnlichkeitssuche und neue explorative Ansichten wie konzeptbasierte Merkmale und ein videobasierter Ähnlichkeitsfilter werden hervorgehoben. Diese Features ermöglichen eine flexible und effiziente Videoabfrage und machen diveXplore 5.0 zu einem wettbewerbsfähigen System für schnelle interaktive Suchaufgaben.
  10. SOMHunter V2 at Video Browser Showdown 2021

    Patrik Veselý, František Mejzlík, Jakub Lokoč
    Das Kapitel behandelt die Entwicklung des SOMHunter-Tools, das beim Video Browser Showdown 2020 den ersten Platz belegte. Es konzentriert sich auf die Verbesserung der Möglichkeiten zur Textabfrage durch die Einführung positionierter Textabfragen und eines SOM-basierten Panels für die Verlagerung von Abfragevektoren. Diese Innovationen adressieren die Beschränkungen traditioneller Texteinbettungsmodelle und bieten eine präzisere und intuitivere Möglichkeit, innerhalb von Videos nach bestimmten Frames zu suchen. Das aktualisierte Tool enthält auch eine benutzerfreundliche Benutzeroberfläche, die es Benutzern ermöglicht, mehrere Abfragen mit Bereichsspezifikation zu erstellen, was es zu einer leistungsstarken Ressource für Fachleute macht, die mit interaktivem Videoabruf befasst sind.
  11. W2VV++ BERT Model at VBS 2021

    Ladislav Peška, Gregor Kovalčík, Tomáš Souček, Vít Škrhák, Jakub Lokoč
    Das Kapitel befasst sich mit der Anwendung des BERT-Modells W2VV + + bei VBS 2021 und konzentriert sich auf die Verbesserung von Videosuchsystemen. Es stellt einen Prototyp vor, der Freiform-Textanfragen und kontextbewusstes Ranking nutzt, um die Suchgenauigkeit und Nutzererfahrung zu verbessern. Das System ermöglicht es dem Benutzer, detaillierte Textbeschreibungen von Szenen zu liefern, die dann mittels des BERT-Modells W2VV + + auf Videobilder gemappt werden. Der kontextsensitive Ranker lockert zeitliche Ordnungsbeschränkungen, vereinfacht die Benutzerinteraktion und reduziert die Rechenkomplexität. Das Kapitel untersucht auch verschiedene Aggregationsstrategien, um Unterabfragen effektiv zu bearbeiten und sicherzustellen, dass Kandidaten für so viele Abfragen wie möglich vernünftige Ergebnisse liefern. Die aktualisierte Version des interaktiven Video-Retrieval-Tools VIRET bietet eine vereinfachte Benutzeroberfläche und eine Suchhistorie, was es zu einer wertvollen Ressource für Fachleute im Bereich der Videosuche und -analyse macht.
  12. VISIONE at Video Browser Showdown 2021

    Giuseppe Amato, Paolo Bolettieri, Fabrizio Falchi, Claudio Gennaro, Nicola Messina, Lucia Vadicamo, Claudio Vairo
    In diesem Kapitel wird VISIONE vorgestellt, ein hoch entwickeltes Video-Abrufsystem, das KI-Techniken einsetzt, um Videotastenbilder zu analysieren und visuelle Inhalte textuell zu kodieren. Das System nahm am Video Browser Showdown 2021 teil und zeigte deutliche Verbesserungen gegenüber seinem Vorgänger. Insbesondere unterstützt es jetzt Abfragen in natürlicher Sprache für textuelle Known-Item-Suche und zeitliche Abfragen, wodurch Benutzer aufeinanderfolgende Keyframes beschreiben können. Diese Verbesserungen werden durch die Integration eines Transformer Encoder Reasoning Network und fortschrittlicher Objekterkennungsmodelle erreicht. Das Kapitel beschreibt auch Verbesserungen in der Benutzeroberfläche und der Implementierung der Suche, wobei der Einsatz ausgereifter Volltextsuchtechnologien für die skalierbare Videoindizierung hervorgehoben wird. Zukünftige Arbeiten zielen darauf ab, das System durch erweiterte Farbanalyse, Sprachkommentare und kollaborative Suchfunktionen weiter zu verbessern.
  13. IVOS - The ITEC Interactive Video Object Search System at VBS2021

    Anja Ressmann, Klaus Schoeffmann
    IVOS, das auf der VBS2021 vorgestellt wurde, vereinfacht die Suche nach Videoinhalten, indem es sich auf 80 Objektklassen konzentriert, die mit dem YOLOv4-Modell erkannt wurden. Im Gegensatz zu früheren komplexen Systemen bietet IVOS eine intuitive Benutzeroberfläche mit kleinen, kategorisierten Symbolen zur Objektauswahl. Es ermöglicht dem Benutzer, die Ergebnisse nach Objekteigenschaften wie Standort, Farbe und Größe zu filtern, und plant, die zeitlichen Suchfunktionen zu erweitern. IVOS zeichnet sich dadurch aus, dass es auch unter Zeitdruck ein leicht verständliches und überschaubares Sucherlebnis bietet, was es zu einer bemerkenswerten Weiterentwicklung multimedialer Suchsysteme macht.
  14. Video Search with Sub-Image Keyword Transfer Using Existing Image Archives

    Nico Hezel, Konstantin Schall, Klaus Jung, Kai Uwe Barthel
    Das Kapitel vertieft sich in die Feinheiten der Videosuche, insbesondere auf den Video Browser Showdown (VBS) Wettbewerb. Es beleuchtet die Herausforderungen, bestimmte Videoclips in großen Sammlungen zu finden, und führt eine verbesserte automatische Keywording-Methode ein. Diese Methode nutzt die Übertragung von Schlüsselwörtern aus Teilbildern und bestehende Bildarchive, um die Genauigkeit der Videosuchaufgaben zu verbessern. Das Kapitel behandelt auch die Entwicklung des Online-Keywording-Systems Akiwi und den Einsatz verbesserter Bildbearbeitungsvektoren für eine bessere Abrufqualität. Darüber hinaus präsentiert es ein optimiertes Visualisierungssystem für Suchergebnisse und eine effiziente hierarchische Grafik für die Echtzeiterkundung von Millionen von Bildern. Das Kapitel schließt mit einer detaillierten Beschreibung der Offline-Vorbereitungsschritte und der zeitlichen Verkettung verschiedener Suchkomponenten in der Videosuche.
  15. A VR Interface for Browsing Visual Spaces at VBS2021

    Ly-Duyen Tran, Manh-Duy Nguyen, Thao-Nhu Nguyen, Graham Healy, Annalina Caputo, Binh T. Nguyen, Cathal Gurrin
    Das Kapitel stellt Eolas vor, ein innovatives Videoreservallsystem, das Virtual Reality (VR) zum Durchsuchen großer Multimedia-Bibliotheken nutzt. Eolas umfasst eine Backend-Einbettungs- und Clustertechnik für effiziente Datenspeicherung und -abfrage sowie eine Front-End-VR-Schnittstelle, die durch Sprache und Gesten gesteuert wird. Dieses System ermöglicht es dem Benutzer, Datensätze zu erforschen und nach bestimmten Videos zu suchen, ohne die Beschränkungen einer herkömmlichen Desktop-Benutzeroberfläche. Das Kapitel beleuchtet die einzigartigen Merkmale von Eolas, einschließlich des Sprachsteuerungsprotokolls, der 3D-Visualisierung von Daten und der intuitiven Benutzerinteraktion innerhalb einer VR-Umgebung. Durch die Nutzung der VR-Plattform bietet Eolas eine immersivere und benutzerfreundlichere Erfahrung beim Navigieren und Abrufen von Videos aus großen Sammlungen, was es zu einer bemerkenswerten Weiterentwicklung im Bereich multimedialer Abrufsysteme macht.
  16. Correction to: SQL-Like Interpretable Interactive Video Search

    Jiaxin Wu, Phuong Anh Nguyen, Zhixin Ma, Chong-Wah Ngo
  17. Backmatter

  • 1
  • 2
  • current Page 3
Vorherige
Titel
MultiMedia Modeling
Herausgegeben von
Jakub Lokoč
Prof. Tomáš Skopal
Prof. Dr. Klaus Schoeffmann
Vasileios Mezaris
Dr. Xirong Li
Dr. Stefanos Vrochidis
Dr. Ioannis Patras
Copyright-Jahr
2021
Electronic ISBN
978-3-030-67835-7
Print ISBN
978-3-030-67834-0
DOI
https://doi.org/10.1007/978-3-030-67835-7

Informationen zur Barrierefreiheit für dieses Buch folgen in Kürze. Wir arbeiten daran, sie so schnell wie möglich verfügbar zu machen. Vielen Dank für Ihre Geduld.

    Bildnachweise
    AvePoint Deutschland GmbH/© AvePoint Deutschland GmbH, ams.solutions GmbH/© ams.solutions GmbH, Wildix/© Wildix, arvato Systems GmbH/© arvato Systems GmbH, Ninox Software GmbH/© Ninox Software GmbH, Nagarro GmbH/© Nagarro GmbH, GWS mbH/© GWS mbH, CELONIS Labs GmbH, USU GmbH/© USU GmbH, G Data CyberDefense/© G Data CyberDefense, Vendosoft/© Vendosoft, Kumavision/© Kumavision, Noriis Network AG/© Noriis Network AG, tts GmbH/© tts GmbH, Asseco Solutions AG/© Asseco Solutions AG, AFB Gemeinnützige GmbH/© AFB Gemeinnützige GmbH, Ferrari electronic AG/© Ferrari electronic AG, Doxee AT GmbH/© Doxee AT GmbH , Haufe Group SE/© Haufe Group SE, NTT Data/© NTT Data, Bild 1 Verspätete Verkaufsaufträge (Sage-Advertorial 3/2026)/© Sage, IT-Director und IT-Mittelstand: Ihre Webinar-Matineen in 2025 und 2026/© amgun | Getty Images