MultiMedia Modeling
27th International Conference, MMM 2021, Prague, Czech Republic, June 22–24, 2021, Proceedings, Part II
- 2021
- Buch
- Herausgegeben von
- Jakub Lokoč
- Prof. Tomáš Skopal
- Prof. Dr. Klaus Schoeffmann
- Vasileios Mezaris
- Dr. Xirong Li
- Dr. Stefanos Vrochidis
- Dr. Ioannis Patras
- Buchreihe
- Lecture Notes in Computer Science
- Verlag
- Springer International Publishing
Über dieses Buch
Über dieses Buch
The two-volume set LNCS 12572 and 1273 constitutes the thoroughly refereed proceedings of the 27th International Conference on MultiMedia Modeling, MMM 2021, held in Prague, Czech Republic, in June2021.
Of the 211 submitted regular papers, 40 papers were selected for oral presentation and 33 for poster presentation; 16 special session papers were accepted as well as 2 papers for a demo presentation and 17 papers for participation at the Video Browser Showdown 2021. The papers cover topics such as: multimedia indexing; multimedia mining; multimedia abstraction and summarization; multimedia annotation, tagging and recommendation; multimodal analysis for retrieval applications; semantic analysis of multimedia and contextual data; multimedia fusion methods; multimedia hyperlinking; media content browsing and retrieval tools; media representation and algorithms; audio, image, video processing, coding and compression; multimedia sensors and interaction modes; multimedia privacy, security and content protection; multimedia standards and related issues; advances in multimedia networking and streaming; multimedia databases, content delivery and transport; wireless and mobile multimedia networking; multi-camera and multi-view systems; augmented and virtual reality, virtual environments; real-time and interactive multimedia applications; mobile multimedia applications; multimedia web applications; multimedia authoring and personalization; interactive multimedia and interfaces; sensor networks; social and educational multimedia applications; and emerging trends.
Inhaltsverzeichnis
-
NoShot Video Browser at VBS2021
Christof Karisch, Andreas Leibetseder, Klaus SchoeffmannDer NoShot Video Browser, der für den Video Browser Showdown 2021 entwickelt wurde, bietet eine optimierte webbasierte Benutzeroberfläche für die Suche nach großen Videosammlungen. Es verwendet YOLO 9000 für die Rahmenklassifizierung und Apache Solr für schnelle Suchanfragen. Zu den wichtigsten Merkmalen gehören ein Zeitcache, der die besten Keyframes für bestimmte Zeiträume anzeigt, und ein neuartiger Helligkeitsfilter, der es Benutzern ermöglicht, Suchergebnisse basierend auf der Helligkeit von Keyframes zu verfeinern. Diese Innovationen, kombiniert mit einem benutzerfreundlichen Design, machen NoShot besonders effektiv für Anfänger bei der Suche nach Videos im Wettbewerb.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractWe present our NoShot Video Browser, which has been successfully used at the last Video Browser Showdown competition VBS2020 at the MMM2020. NoShot is given its name due to the fact, that it neither makes use of any kind of shot detection nor utilize the VBS master shots. Instead videos are split into frames with a time distance of one second. The biggest strength of the system lies in its feature “time cache”, which shows results with the best confidence in a range of seconds. -
Exquisitor at the Video Browser Showdown 2021: Relationships Between Semantic Classifiers
Omar Shahbaz Khan, Björn Þór Jónsson, Mathias Larsen, Liam Poulsen, Dennis C. Koelma, Stevan Rudinac, Marcel Worring, Jan ZahálkaIn diesem Kapitel wird die Entwicklung des Video Browser Showdown (VBS) als Plattform zur Weiterentwicklung multimedialer Suchtechniken diskutiert. Es konzentriert sich auf das Exquisitor-System, das interaktives Lernen nutzt, um semantische Klassifikatoren für Videosuchaufgaben zu erstellen. Die erweiterte Version von Exquisitor führt die Möglichkeit ein, Klassifikatoren zu kombinieren, was eine effektivere Handhabung von Aufgaben ermöglicht, die mehrere semantische Konzepte und zeitliche Beziehungen beinhalten. Die Autoren stellen eine detaillierte Methode zur Kombination von Klassifikatoren vor und demonstrieren ihre Wirksamkeit durch Experimente an VBS-Aufgaben. Das Kapitel hebt hervor, wie dieser neue Ansatz die Leistung von Videosuchsystemen erheblich verbessern kann und sie zu einer wertvollen Ressource für Forscher und Praktiker im Bereich der multimedialen Suche macht.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractExquisitor is a scalable media exploration system based on interactive learning, which first took part in VBS in 2020. This paper presents an extension to Exquisitor, which supports operations on semantic classifiers to solve VBS tasks with temporal constraints. We outline the approach and present preliminary results, which indicate the potential of the approach. -
VideoGraph – Towards Using Knowledge Graphs for Interactive Video Retrieval
Luca Rossetto, Matthias Baumgartner, Narges Ashena, Florian Ruosch, Romana Pernisch, Lucien Heitz, Abraham BernsteinIn diesem Kapitel wird VideoGraph vorgestellt, ein Knowledge Graph-basierter Video-Retrieval-Prototyp, der die Organisation und den Abruf von Multimedia-Dokumenten verbessern soll. Durch die Integration von Informationen aus einem Videodatensatz mit allgemeinen Wissensdatenbanken ermöglicht VideoGraph die Abfrage reichhaltigerer Konzepte und Situationen. Bei der Erstellung des Graphen werden semantische Metadaten, textuelle semantische Informationen aus Videos, visuelle semantische Informationen und technische Video-Metadaten genutzt. Die Erforschung des Graphen wird durch Abfrageformulierung und Methoden der Graphendurchquerung erleichtert, wobei die Benutzerinteraktion durch eine modifizierte Version von vitrivr-ng unterstützt wird. Das Kapitel schließt mit der Hervorhebung des Potenzials von VideoGraph als Proof-of-Concept für zukünftige Entwicklungen in komplexen Wissensdarstellungen zum Abruf von Videos.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractVideo is a very expressive medium, able to capture a wide variety of information in different ways. While there have been many advances in the recent past, which enable the annotation of semantic concepts as well as individual objects within video, their larger context has so far not extensively been used for the purpose of retrieval. In this paper, we introduce the first iteration of VideoGraph, a knowledge graph-based video retrieval system. VideoGraph combines information extracted from multiple video modalities with external knowledge bases to produce a semantically enriched representation of the content in a video collection, which can then be retrieved using graph traversal. For the 2021 Video Browser Showdown, we show the first proof-of-concept of such a graph-based video retrieval approach. -
IVIST: Interactive Video Search Tool in VBS 2021
Yoonho Lee, Heeju Choi, Sungjune Park, Yong Man RoIn diesem Kapitel wird die erweiterte Version von IVIST vorgestellt, einem Videoabrufsystem, das für den Video Browser Showdown (VBS) entwickelt wurde. Das neue IVIST bietet eine verbesserte Benutzeroberfläche mit größeren Thumbnails und benutzerfreundlichem Design, was eine schnellere und effizientere Videosuche ermöglicht. Es integriert auch erweiterte Suchfunktionen wie Aktionserkennung, Ortserkennung und Beschreibungssuche, was es den Benutzern ermöglicht, spezifischere und genauere Videosuchen durchzuführen. Die auf ReactJS, Flask und MongoDB basierende Systemarchitektur gewährleistet eine nahtlose Interaktion zwischen Frontend, Backend und Datenbank. Das Kapitel bietet einen umfassenden Überblick über die wichtigsten Suchfunktionen, darunter Objekterkennung, Szene-Text-Erkennung, Dominant-Color-Suche und die neu hinzugekommenen Funktionen. Das erweiterte IVIST-System zeigt deutliche Verbesserungen bei der Videosuche, was es zu einem wertvollen Werkzeug für Fachleute im Bereich der Videoanalyse und -abfrage macht.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractThis paper presents a new version of the Interactive VIdeo Search Tool (IVIST), a video retrieval tool, for the participation of the Video Browser Showdown (VBS) 2021. In the previous IVIST (VBS 2020), there were core functions to search for videos practically, such as object detection, scene-text recognition, and dominant-color finding. Including core functions, we newly supplement other helpful functions to deal with finding videos more effectively: action recognition, place recognition, and description searching methods. These features are expected to enable a more detailed search, especially for human motion and background description which cannot be covered by the previous IVIST system. Furthermore, the user interface has been enhanced in a more user-friendly way. With these enhanced functions, a new version of IVIST can be practical and widely-used for actual users. -
Video Search with Collage Queries
Jakub Lokoč, Jana Bátoryová, Dominik Smrž, Marek DobranskýDas Kapitel stellt einen neuartigen Ansatz für die Videosuche mittels Collage-Abfragen vor, bei dem Benutzer bildbasierte Suchanfragen interaktiv erstellen und bearbeiten können. Diese Methode nutzt tiefe Darstellungen von Merkmalen und kosinale Ähnlichkeiten, um Collagenbilder mit Unterregionen von Videobildern abzugleichen, was eine intuitivere und flexiblere Suchinitialisierung ermöglicht. Der in die SOMHunter-Plattform integrierte System-Prototyp unterstützt sowohl statische als auch zeitliche Collage-Abfragen und lässt sich leicht an unterschiedliche Plattformen anpassen. In dem Aufsatz werden die Vorteile dieses Ansatzes hervorgehoben, wie die Fähigkeit, Beschränkungen von vorausgebildeten Objektdetektoren zu umgehen und das Potenzial für eine verbesserte Aussagekraft der Suche, während gleichzeitig Herausforderungen wie die Abhängigkeit von externen Suchmaschinen und Netzwerkkonnektivität anerkannt werden.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractNowadays, popular web search portals enable users to find available images corresponding to a provided free-form text description. With such sources of example images, a suitable composition/collage of images can be constructed as an appropriate visual query input to a known-item search system. In this paper, we investigate a querying approach enabling users to search videos with a multi-query consisting of positioned example images, so-called collage query, depicting expected objects in a searched scene. The approach relies on images from external search engines, partitioning of preselected representative video frames, relevance scoring based on deep features extracted from images/frames, and is currently integrated into the open-source version of the SOMHunter system providing additional browsing capabilities. -
Towards Explainable Interactive Multi-modal Video Retrieval with Vitrivr
Silvan Heller, Ralph Gasser, Cristina Illi, Maurizio Pasquinelli, Loris Sauter, Florian Spiess, Heiko SchuldtDas Kapitel präsentiert die neuesten Fortschritte des vitrivr-Systems für den Video Browser Showdown 2021, wobei der Schwerpunkt auf Verbesserungen bei der zeitlichen Abfrage, neuen Indexstrukturen für eine effiziente Ähnlichkeitssuche und innovativen Methoden zur Erklärung der Suchergebnisse liegt. Diese Verbesserungen zielen darauf ab, architektonische Beschränkungen zu beheben, die Leistung zu optimieren und den Anwendern bessere Einblicke in den Abrufprozess zu bieten. Das Kapitel beleuchtet auch die Vielseitigkeit des Systems in verschiedenen Anwendungen, wie etwa der Suche nach Lifeline und der Erforschung von VR-Anwendungen, und seine Rolle als Open-Source-Plattform für multimediale Forschung.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractThis paper presents the most recent iteration of the vitrivr multimedia retrieval system for its participation in the Video Browser Showdown (VBS) 2021. Building on existing functionality for interactive multi-modal retrieval, we overhaul query formulation and results presentation for queries which specify temporal context, extend our database with index structures for similarity search and present experimental functionality aimed at improving the explainability of results with the objective of better supporting users in the selection of results and the provision of relevance feedback. -
Competitive Interactive Video Retrieval in Virtual Reality with vitrivr-VR
Florian Spiess, Ralph Gasser, Silvan Heller, Luca Rossetto, Loris Sauter, Heiko SchuldtDieses Kapitel stellt vitrivr-VR vor, eine virtuelle Reality-Schnittstelle zum interaktiven Abrufen von Videos, die auf dem Open-Source-Multimedia-Abrufstack vitrivr aufbaut. Er diskutiert das Potenzial von VR bei der Videosuche und hebt die Verwendung von Sprache-Text-Eingaben für erste Abfragen und die räumliche Organisation der Ergebnisse hervor. Das Kapitel bietet auch einen Überblick über die Systemarchitektur, Abfragemechanismen und den interaktiven Abrufprozess in VR. Darüber hinaus kontextualisiert es vitrivr-VR innerhalb bestehender Forschungs- und Wettbewerbsereignisse wie dem Video Browser Showdown (VBS) und bietet wertvolle Einblicke in die Effektivität von VR-basierten Systemen bei der interaktiven Videoabfrage.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractVirtual Reality (VR) has emerged and developed as a new modality to interact with multimedia data. In this paper, we present vitrivr-VR, a prototype of an interactive multimedia retrieval system in VR based on the open source full-stack multimedia retrieval system vitrivr. We have implemented query formulation tailored to VR: Users can use speech-to-text to search collections via text for concepts, OCR and ASR data as well as entire scene descriptions through a video-text co-embedding feature that embeds sentences and video sequences into the same feature space. Result presentation and relevance feedback in vitrivr-VR leverages the capabilities of virtual spaces. -
An Interactive Video Search Tool: A Case Study Using the V3C1 Dataset
Abdullah Alfarrarjeh, Jungwon Yoon, Seon Ho Kim, Amani Abu Jabal, Akarsh Nagaraj, Chinmayee SiddaramaiahDieses Kapitel stellt ein innovatives Videosuchwerkzeug vor, das entwickelt wurde, um die Herausforderungen der Suche durch riesige Mengen an Videodaten zu bewältigen. Das Tool namens Interactive Video Search Tool (IVS) unterstützt sowohl textliche als auch visuelle Abfragen und nutzt eine Vielzahl von Metadatentypen wie erkannte Objekte, Gesichter, visuelle Merkmale und dominante Farben. IVS setzt modernste Algorithmen zur Objekterkennung, Spracherkennung und Zeichenerkennung ein, um relevante Metadaten zu extrahieren. Es speichert und indiziert diese Daten mithilfe zweier Datenbankmaschinen, Whoosh und PostgreSQL, um eine effiziente Suchleistung zu gewährleisten. Das Tool enthält auch Feedback-Mechanismen der Benutzer, die es den Benutzern ermöglichen, Abfragen anzupassen und Relevanz-Feedback zu geben, um die Suchergebnisse zu verfeinern. Die Fallstudie anhand des V3C1-Datensatzes zeigt die Effektivität des Tools beim Abrufen relevanter Keyframes aus einer großen Videosammlung. Dieses Kapitel bietet einen detaillierten Überblick über die Architektur, die Abfrageverarbeitung und die Suchansätze des Tools und hebt sein Potenzial hervor, die Art und Weise, wie Videodaten gesucht und verwaltet werden, zu revolutionieren.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractThis paper presents a prototype of an interactive video search tool for the preparation of MMM 2021 Video Browser Showdown (VBS). Our tool is tailored to enable searching for the public V3C1 dataset associated with various analysis results including detected objects, speech recognition, and visual features. It supports two types of searches: text-based and visual-based. With a text-based search, the tool enables users for querying videos using their textual descriptions, while with a visual-based search, one provides a video example to search for similar videos. Metadata extracted by recent state-of-the-art computer vision algorithms for object detection and visual features are used for accurate search. For an efficient search, the metadata are managed in two database engines: Whoosh and PostgreSQL. The tool also enables users to refine the search results by providing relevance feedback and customizing the intermediate analysis of the query inputs. -
Less is More - diveXplore 5.0 at VBS 2021
Andreas Leibetseder, Klaus SchoeffmannDas Kapitel stellt diveXplore 5.0 vor, ein überarbeitetes System für den Video Browser Showdown und die Lifelog Search Challenge, das Einfachheit und Raffinesse betont. Es beschreibt die Architektur des Systems, die Offline-Vorverarbeitungsschritte und webbasierte Technologien umfasst. Schlüsselfunktionen wie textuelle Konzeptsuche, Ähnlichkeitssuche und neue explorative Ansichten wie konzeptbasierte Merkmale und ein videobasierter Ähnlichkeitsfilter werden hervorgehoben. Diese Features ermöglichen eine flexible und effiziente Videoabfrage und machen diveXplore 5.0 zu einem wettbewerbsfähigen System für schnelle interaktive Suchaufgaben.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractAs a longstanding participating system in the annual Video Browser Showdown (VBS2017-VBS2020) as well as in two iterations of the more recently established Lifelog Search Challenge (LSC2018-LSC2019), diveXplore is developed as a feature-rich Deep Interactive Video Exploration system. After its initial successful employment as a competitive tool at the challenges, its performance, however, declined as new features were introduced increasing its overall complexity. We mainly attribute this to the fact that many additions to the system needed to revolve around the system’s core element – an interactive self-organizing browseable featuremap, which, as an integral component did not accommodate the addition of new features well. Therefore, counteracting said performance decline, the VBS 2021 version constitutes a completely rebuilt version 5.0, implemented from scratch with the aim of greatly reducing the system’s complexity as well as keeping proven useful features in a modular manner. -
SOMHunter V2 at Video Browser Showdown 2021
Patrik Veselý, František Mejzlík, Jakub LokočDas Kapitel behandelt die Entwicklung des SOMHunter-Tools, das beim Video Browser Showdown 2020 den ersten Platz belegte. Es konzentriert sich auf die Verbesserung der Möglichkeiten zur Textabfrage durch die Einführung positionierter Textabfragen und eines SOM-basierten Panels für die Verlagerung von Abfragevektoren. Diese Innovationen adressieren die Beschränkungen traditioneller Texteinbettungsmodelle und bieten eine präzisere und intuitivere Möglichkeit, innerhalb von Videos nach bestimmten Frames zu suchen. Das aktualisierte Tool enthält auch eine benutzerfreundliche Benutzeroberfläche, die es Benutzern ermöglicht, mehrere Abfragen mit Bereichsspezifikation zu erstellen, was es zu einer leistungsstarken Ressource für Fachleute macht, die mit interaktivem Videoabruf befasst sind.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractThis paper presents an enhanced version of an interactive video retrieval tool SOMHunter that won Video Browser Showdown 2020. The presented enhancements focus on improving text querying capabilities since the text search model plays a crucial part in successful searches. Hence, we introduce the ability to specify multiple text queries with further positional specification so users can better describe positional relationships of the objects. Moreover, a possibility to further specify text queries with an example image is introduced as well as consequent changes to the user interface of the tool. -
W2VV++ BERT Model at VBS 2021
Ladislav Peška, Gregor Kovalčík, Tomáš Souček, Vít Škrhák, Jakub LokočDas Kapitel befasst sich mit der Anwendung des BERT-Modells W2VV + + bei VBS 2021 und konzentriert sich auf die Verbesserung von Videosuchsystemen. Es stellt einen Prototyp vor, der Freiform-Textanfragen und kontextbewusstes Ranking nutzt, um die Suchgenauigkeit und Nutzererfahrung zu verbessern. Das System ermöglicht es dem Benutzer, detaillierte Textbeschreibungen von Szenen zu liefern, die dann mittels des BERT-Modells W2VV + + auf Videobilder gemappt werden. Der kontextsensitive Ranker lockert zeitliche Ordnungsbeschränkungen, vereinfacht die Benutzerinteraktion und reduziert die Rechenkomplexität. Das Kapitel untersucht auch verschiedene Aggregationsstrategien, um Unterabfragen effektiv zu bearbeiten und sicherzustellen, dass Kandidaten für so viele Abfragen wie möglich vernünftige Ergebnisse liefern. Die aktualisierte Version des interaktiven Video-Retrieval-Tools VIRET bietet eine vereinfachte Benutzeroberfläche und eine Suchhistorie, was es zu einer wertvollen Ressource für Fachleute im Bereich der Videosuche und -analyse macht.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractThe W2VV++ model BoW variant integrated to VIRET and SOMHunter systems has proven its effectiveness in the previous Video Browser Showdown competition in 2020. As a next experimental interactive search prototype to benchmark, we consider a simple system relying on the more complex BERT variant of the W2VV++ model, accepting a rich text input. The input can be provided by keyboard or by speech processed by a third-party cloud service. The motivation for the more complex BERT variant is its good performance for rich text descriptions that can be provided for known-item search tasks. At the same time, users will be instructed to specify as rich text description about the searched scene as possible. -
VISIONE at Video Browser Showdown 2021
Giuseppe Amato, Paolo Bolettieri, Fabrizio Falchi, Claudio Gennaro, Nicola Messina, Lucia Vadicamo, Claudio VairoIn diesem Kapitel wird VISIONE vorgestellt, ein hoch entwickeltes Video-Abrufsystem, das KI-Techniken einsetzt, um Videotastenbilder zu analysieren und visuelle Inhalte textuell zu kodieren. Das System nahm am Video Browser Showdown 2021 teil und zeigte deutliche Verbesserungen gegenüber seinem Vorgänger. Insbesondere unterstützt es jetzt Abfragen in natürlicher Sprache für textuelle Known-Item-Suche und zeitliche Abfragen, wodurch Benutzer aufeinanderfolgende Keyframes beschreiben können. Diese Verbesserungen werden durch die Integration eines Transformer Encoder Reasoning Network und fortschrittlicher Objekterkennungsmodelle erreicht. Das Kapitel beschreibt auch Verbesserungen in der Benutzeroberfläche und der Implementierung der Suche, wobei der Einsatz ausgereifter Volltextsuchtechnologien für die skalierbare Videoindizierung hervorgehoben wird. Zukünftige Arbeiten zielen darauf ab, das System durch erweiterte Farbanalyse, Sprachkommentare und kollaborative Suchfunktionen weiter zu verbessern.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractThis paper presents the second release of VISIONE, a tool for effective video search on large-scale collections. It allows users to search for videos using textual descriptions, keywords, occurrence of objects and their spatial relationships, occurrence of colors and their spatial relationships, and image similarity. One of the main features of our system is that it employs specially designed textual encodings for indexing and searching video content using the mature and scalable Apache Lucene full-text search engine. -
IVOS - The ITEC Interactive Video Object Search System at VBS2021
Anja Ressmann, Klaus SchoeffmannIVOS, das auf der VBS2021 vorgestellt wurde, vereinfacht die Suche nach Videoinhalten, indem es sich auf 80 Objektklassen konzentriert, die mit dem YOLOv4-Modell erkannt wurden. Im Gegensatz zu früheren komplexen Systemen bietet IVOS eine intuitive Benutzeroberfläche mit kleinen, kategorisierten Symbolen zur Objektauswahl. Es ermöglicht dem Benutzer, die Ergebnisse nach Objekteigenschaften wie Standort, Farbe und Größe zu filtern, und plant, die zeitlichen Suchfunktionen zu erweitern. IVOS zeichnet sich dadurch aus, dass es auch unter Zeitdruck ein leicht verständliches und überschaubares Sucherlebnis bietet, was es zu einer bemerkenswerten Weiterentwicklung multimedialer Suchsysteme macht.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractWe present IVOS, an interactive video content search system that allows for object-based search and filtering in video archives. The main idea behind is to use the result of recent object detection models to index all keyframes with a manageable set of object classes, and allow the user to filter by different characteristics, such as object name, object location, relative object size, object color, and combinations for different object classes – e.g., “large person in white on the left, with a red tie”. In addition to that, IVOS can also find segments with a specific number of objects of a particular class (e.g., “many apples” or “two people”) and supports similarity search, based on similar object occurrences. -
Video Search with Sub-Image Keyword Transfer Using Existing Image Archives
Nico Hezel, Konstantin Schall, Klaus Jung, Kai Uwe BarthelDas Kapitel vertieft sich in die Feinheiten der Videosuche, insbesondere auf den Video Browser Showdown (VBS) Wettbewerb. Es beleuchtet die Herausforderungen, bestimmte Videoclips in großen Sammlungen zu finden, und führt eine verbesserte automatische Keywording-Methode ein. Diese Methode nutzt die Übertragung von Schlüsselwörtern aus Teilbildern und bestehende Bildarchive, um die Genauigkeit der Videosuchaufgaben zu verbessern. Das Kapitel behandelt auch die Entwicklung des Online-Keywording-Systems Akiwi und den Einsatz verbesserter Bildbearbeitungsvektoren für eine bessere Abrufqualität. Darüber hinaus präsentiert es ein optimiertes Visualisierungssystem für Suchergebnisse und eine effiziente hierarchische Grafik für die Echtzeiterkundung von Millionen von Bildern. Das Kapitel schließt mit einer detaillierten Beschreibung der Offline-Vorbereitungsschritte und der zeitlichen Verkettung verschiedener Suchkomponenten in der Videosuche.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractThis paper presents details of our frame-based Ad-hoc Video Search system with manually assisted querying that will be used for the Video Browser Showdown 2021 (VBS2021). The main contributions of our new system consist of an improved automatic keywording component, better visual feature vectors which have been fine-tuned for the task of image retrieval, and an improved visual presentation of the search results. Additionally, we use a more powerful joint textual/visual search engine based on Lucene, which can perform a search according to the temporal sequence of textual or visual properties of the video frames. -
A VR Interface for Browsing Visual Spaces at VBS2021
Ly-Duyen Tran, Manh-Duy Nguyen, Thao-Nhu Nguyen, Graham Healy, Annalina Caputo, Binh T. Nguyen, Cathal GurrinDas Kapitel stellt Eolas vor, ein innovatives Videoreservallsystem, das Virtual Reality (VR) zum Durchsuchen großer Multimedia-Bibliotheken nutzt. Eolas umfasst eine Backend-Einbettungs- und Clustertechnik für effiziente Datenspeicherung und -abfrage sowie eine Front-End-VR-Schnittstelle, die durch Sprache und Gesten gesteuert wird. Dieses System ermöglicht es dem Benutzer, Datensätze zu erforschen und nach bestimmten Videos zu suchen, ohne die Beschränkungen einer herkömmlichen Desktop-Benutzeroberfläche. Das Kapitel beleuchtet die einzigartigen Merkmale von Eolas, einschließlich des Sprachsteuerungsprotokolls, der 3D-Visualisierung von Daten und der intuitiven Benutzerinteraktion innerhalb einer VR-Umgebung. Durch die Nutzung der VR-Plattform bietet Eolas eine immersivere und benutzerfreundlichere Erfahrung beim Navigieren und Abrufen von Videos aus großen Sammlungen, was es zu einer bemerkenswerten Weiterentwicklung im Bereich multimedialer Abrufsysteme macht.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractThe Video Browser Showdown (VBS) is an annual competition in which each participant prepares an interactive video retrieval system and partakes in a live comparative evaluation at the annual MMM Conference. In this paper, we introduce Eolas, which is a prototype video/image retrieval system incorporating a novel virtual reality (VR) interface. For VBS’21, Eolas represented each keyframe of the collection by an embedded feature in a latent vector space, into which a query would also be projected to facilitate retrieval within a VR environment. A user could then explore the space and perform one of a number of filter operations to traverse the space and locate the correct result. -
Correction to: SQL-Like Interpretable Interactive Video Search
Jiaxin Wu, Phuong Anh Nguyen, Zhixin Ma, Chong-Wah Ngo -
Backmatter
- Titel
- MultiMedia Modeling
- Herausgegeben von
-
Jakub Lokoč
Prof. Tomáš Skopal
Prof. Dr. Klaus Schoeffmann
Vasileios Mezaris
Dr. Xirong Li
Dr. Stefanos Vrochidis
Dr. Ioannis Patras
- Copyright-Jahr
- 2021
- Electronic ISBN
- 978-3-030-67835-7
- Print ISBN
- 978-3-030-67834-0
- DOI
- https://doi.org/10.1007/978-3-030-67835-7
Informationen zur Barrierefreiheit für dieses Buch folgen in Kürze. Wir arbeiten daran, sie so schnell wie möglich verfügbar zu machen. Vielen Dank für Ihre Geduld.