Zum Inhalt

Computer Vision – ECCV 2024

18th European Conference, Milan, Italy, September 29–October 4, 2024, Proceedings, Part LXXXVII

  • 2025
  • Buch

Über dieses Buch

Die mehrbändigen Bücher der LNCS mit den Volumennummern 15059 bis 15147 sind die referierten Beiträge der 18. Europäischen Konferenz für Computervision, ECCV 2024, die vom 29. September bis 4. Oktober 2024 in Mailand, Italien, stattfand. Die 2387 in diesem Verfahren präsentierten Arbeiten wurden sorgfältig geprüft und aus insgesamt 8585 Einreichungen ausgewählt. Sie befassen sich mit Themen wie Computervision, maschinelles Lernen, tiefe neuronale Netzwerke, Verstärkungslernen, Objekterkennung, Bildklassifizierung, Bildverarbeitung, Objekterkennung, semantische Segmentierung, Schätzung menschlicher Posen, 3D-Rekonstruktion, Stereo-Vision, Computerfotografie, neuronale Netzwerke, Bildcodierung, Bildrekonstruktion, Bewegungseinschätzung.

Inhaltsverzeichnis

  1. Frontmatter

  2. Score Distillation Sampling with Learned Manifold Corrective

    Thiemo Alldieck, Nikos Kolotouros, Cristian Sminchisescu
    Das Kapitel befasst sich mit den vielseitigen Anwendungsmöglichkeiten von Bilddiffusionsmodellen, insbesondere mit dem in DreamFusion vorgeschlagenen Verlust von Score Destillation Sampling (SDS). Sie identifiziert zentrale Probleme mit der ursprünglichen Formulierung der SDB, wie etwa die Tendenz, die Beobachtung zu degradieren und bedeutungslose Gradienten zu liefern. Die Autoren stellen eine neuartige Verlustformel vor, LMC-SDS, die darauf abzielt, bessere Gradienten in Richtung der erlernten Mannigfaltigkeit realer Bilder zu schaffen. Durch umfangreiche Experimente zeigen sie die Wirksamkeit von LMC-SDS bei optimierungsbasierter Bildsynthese, Bildbearbeitung, Netzwerktraining für Bild-zu-Bild-Translation und Text-zu-3D-Synthese. Das Kapitel unterstreicht die überlegene Leistung von LMC-SDS bei der Erzielung von Ergebnissen mit höherer visueller Genauigkeit und bei besserer Berücksichtigung der Zielprompt als andere SDS-basierte Methoden. Darüber hinaus werden die Grenzen und zukünftigen Richtungen zur weiteren Verbesserung der vielfältigen Korrektur in LMC-SDS diskutiert.
  3. FipTR: A Simple yet Effective Transformer Framework for Future Instance Prediction in Autonomous Driving

    Xingtai Gui, Tengteng Huang, Haonan Shao, Haotian Yao, Chi Zhang
    Das Kapitel stellt FipTR vor, ein Transformer-basiertes Framework, das für zukünftige Vorhersagen im Bereich autonomes Fahren entwickelt wurde. Es zielt darauf ab, die besetzte Fläche und die möglichen Bewegungszustände der Verkehrsteilnehmer aus der Vogelperspektive vorherzusagen. Das Rahmenwerk ist vom Erfolg der BEV-Wahrnehmungsparadigmen bei der Objekterkennung und Kartensegmentierung inspiriert. FipTR verwendet Instanzabfragen, um zukünftige besetzte Masken und Bewegungszustände direkt zu schätzen, wodurch die Notwendigkeit einer Abschätzung der Zentralität und Clusterprozesse vermieden wird. Der strömungsbewusste BEV-Prädiktor und zukünftige Instanz-Matching-Mechanismen sind Schlüsselkomponenten, die die zeitliche Kohärenz und Interpretierbarkeit verbessern. Umfangreiche Experimente mit dem NuScenes-Datensatz zeigen die überlegene Leistung von FipTR im Vergleich zu bestehenden Methoden und unterstreichen seine Effektivität bei der Vorhersage zukünftiger Instanzsegmentierung mit hoher Genauigkeit und zeitlicher Konsistenz.
  4. Benchmarking the Robustness of Cross-View Geo-Localization Models

    Qingwang Zhang, Yingying Zhu
    Das Kapitel vertieft sich in die kritische Frage der Robustheit der Geolokalisierung unter realistischen Bedingungen, wo GPS-Signale häufig degradiert oder nicht verfügbar sind. Es führt umfassende Benchmarks zur Bewertung der Leistung von Geolokalisierungsmodellen ein, die unter verschiedenen Arten und Schweregraden der Datenkorruption durchgeführt werden. Die Autoren schlagen außerdem einfache, aber effektive Techniken zur Datenerweiterung vor, um die Robustheit dieser Modelle zu erhöhen. Die Studie unterstreicht die signifikante Leistungsverschlechterung bestehender Modelle unter korrupten Daten und unterstreicht die Bedeutung von Robustheitsbenchmarking für Anwendungen in der realen Welt. Durch die Bereitstellung eingehender experimenteller Ergebnisse und Erkenntnisse zielt das Kapitel darauf ab, weitere Forschungen in diesem entscheidenden Bereich anzuregen.
  5. GroCo: Ground Constraint for Metric Self-supervised Monocular Depth

    Aurélien Cecille, Stefan Duffner, Franck Davoine, Thibault Neveu, Rémi Agier
    In diesem Kapitel wird GroCo vorgestellt, eine Methode zur Bodenbeschränkung für die metrische, selbstüberwachte monokulare Tiefeneinschätzung. Sie nimmt sich der langjährigen Herausforderung der Skalenvieldeutigkeit in der monokularen visuellen Odometrie an, indem sie Bodeninformationen effektiv integriert. GroCo setzt neuartige Verlustfunktionen und Aufmerksamkeitsmechanismen ein, um eine präzise Skalenwiederherstellung und robuste Leistung in verschiedenen Kamerakonfigurationen und Umgebungen sicherzustellen. Die Methode zeigt eine im Vergleich zu bestehenden Ansätzen überlegene Leistung und unterstreicht ihr Potenzial für Anwendungen in der realen Welt in der Robotik und in autonomen Fahrzeugen. Das Kapitel umfasst auch umfangreiche Experimente und Ablationsstudien, die die Robustheit und Verallgemeinerbarkeit der Methode aufzeigen.
  6. SUMix: Mixup with Semantic and Uncertain Information

    Huafeng Qin, Xin Jin, Hongyu Zhu, Hongchao Liao, Mounîm A. El-Yacoubi, Xinbo Gao
    Das Kapitel stellt SUMix vor, eine bahnbrechende Datenerweiterungstechnologie, die die Beschränkungen bestehender Vermischungsmethoden im Deep Learning anspricht. SUMix kombiniert semantische und unsichere Informationen, um ein genaueres Mischungsverhältnis zu berechnen und die Verlustfunktion zu regulieren, was die Leistung und Robustheit des Modells deutlich verbessert. Die Autoren präsentieren umfangreiche Experimente zu verschiedenen Datensätzen, die zeigen, dass SUMix herkömmliche Verwechselungsmethoden übertrifft und die Klassifikationsgenauigkeit moderner Modelle verbessert. Darüber hinaus hat sich gezeigt, dass SUMix wirksam ist, wenn es darum geht, die Robustheit der Okklusion und die Widerstandskraft gegen feindliche Angriffe zu verbessern, was es zu einem wertvollen Werkzeug für Praktiker macht, die tiefes Lernen praktizieren. Das Kapitel bietet außerdem einen umfassenden Überblick über verwandte Arbeiten in stichprobenbasierten und kennzeichnungsbasierten Vermischungsmethoden sowie Unsicherheitsmodellierungen, wobei die einzigartigen Beiträge von SUMix in diesem Bereich hervorgehoben werden.
  7. Flatness-Aware Sequential Learning Generates Resilient Backdoors

    Hoang Pham, The-Anh Ta, Anh Tran, Khoa D. Doan
    Das Kapitel diskutiert die zunehmende Bedrohung durch Backdoor-Angriffe in maschinellen Lernmodellen, insbesondere im Kontext von Machine Learning as a Service (MLaaS). Es führt ein neues Rahmenwerk namens Sequential Backdoor Learning (SBL) ein, das kontinuierliche Lerntechniken nutzt, um rückwärtsgerichtete Modelle zu entwickeln, die resistent gegen Feinabstimmungen sind. Bei der SBL-Methode wird das Modell sowohl auf sauberen als auch auf vergifteten Daten trainiert, gefolgt von Feinabstimmungen mit sauberen Daten und einer winzigen Lernrate. Dieser Ansatz zielt darauf ab, das Modell in einem flachen rückdockenden Bereich einzufangen, wodurch es während der Feinabstimmung schwierig wird, ihm zu entkommen. Das Kapitel präsentiert auch empirische Belege, die die Effektivität von SBL bei der Aufrechterhaltung hoher Angriffserfolgsraten (ASR) bei gleichzeitiger Aufrechterhaltung sauberer Datenleistung belegen. Darüber hinaus wird die Rolle der Sharpness-Aware Minimization (SAM) hervorgehoben, die das Modell in Richtung flacher Hintertürregionen lenkt und die Haltbarkeit der implantierten Hintertür weiter verbessert. Das Kapitel schließt mit einer Diskussion über die Bedeutung des kontinuierlichen Lernens und die möglichen Auswirkungen von SBL auf Verteidigungsstrategien durch die Hintertür.
  8. Iterative Ensemble Training with Anti-gradient Control for Mitigating Memorization in Diffusion Models

    Xiao Liu, Xiaoliu Guan, Yu Wu, Jiaxu Miao
    In diesem Kapitel wird ein neuartiger Ausbildungsrahmen vorgestellt, das Iterative Ensemble Training with Anti-Gradient Control (IET-AGC), das darauf abzielt, das Auswendiglernen in Diffusionsmodellen zu entschärfen. Im Gegensatz zu früheren Methoden, die sich auf bestimmte Inhalte oder Text-zu-Bild-Aufgaben konzentrierten, befasst sich IET-AGC mit dem umfassenderen Thema des Auswendiglernens sowohl in bedingungslosen als auch textbedingten Diffusionsmodellen. Das Rahmenwerk umfasst iteratives Training und die Zusammenführung von Diffusionsmodellen auf verschiedenen Datensplittern sowie eine dynamische Anpassung des Trainingsprozesses, um leicht auswendig zu lernende Proben auszuschließen. Umfangreiche Experimente zeigen, dass IET-AGC die Speicherung deutlich reduziert und gleichzeitig die Bildqualität beibehält oder sogar verbessert, was es zu einem wertvollen Beitrag im Bereich der generativen Modelle und des Datenschutzes macht.
  9. IFTR: An Instance-Level Fusion Transformer for Visual Collaborative Perception

    Shaohong Wang, Lu Bin, Xinyu Xiao, Zhiyu Xiang, Hangguan Shan, Eryun Liu
    Das Kapitel stellt IFTR vor, ein transformatorbasiertes Framework, das entwickelt wurde, um die 3D-Objekterkennung durch visuelle kollaborative Wahrnehmung zu verbessern. Es adressiert die Herausforderungen bestehender Methoden, indem es sich auf die Funktionsfusion auf Instanzebene konzentriert, die die Qualität der BEV-Merkmale verbessert und Kandidatenpositionen von Zielen im 3D-Raum kodiert. Das Framework umfasst Schlüsselkomponenten wie Instanzaggregation und domänenübergreifende Anpassung von Abfragen, die eine genauere und effizientere 3D-Objekterkennung ermöglichen. Umfangreiche Experimente an realen und simulierten Datensätzen zeigen die überlegene Leistung von IFTR im Vergleich zu früheren Methoden und verdeutlichen sein Potenzial für praktische Anwendungen im autonomen Fahren und in der Robotik.
  10. DiffClass: Diffusion-Based Class Incremental Learning

    Zichong Meng, Jie Zhang, Changdi Yang, Zheng Zhan, Pu Zhao, Yanzhi Wang
    Das Kapitel "DiffClass: Diffusion-Based Class Incremental Learning" widmet sich der Herausforderung des katastrophalen Vergessens in Deep-Learning-Modellen, bei denen die Modelle das zuvor Gelernte vergessen, wenn neue Aufgaben eingeführt werden. Es führt einen neuartigen beispielfreien Ansatz des kontinuierlichen Lernens (CIL) ein, der Diffusionsmodelle zur Synthese früherer Daten verwendet, um Datenschutz- und Legalitätsprobleme im Zusammenhang mit der Speicherung realer Daten abzumildern. Die Methode umfasst Techniken des Multidistribution Matching (MDM), um Diffusionsmodelle zu verfeinern und die Domänenlücken zwischen synthetischen und realen Daten zu verringern. Zusätzlich wird eine selektive synthetische Bildvergrößerung (SSIA) eingesetzt, um die Datenverteilung und Trainingseffizienz zu verbessern. Der vorgeschlagene Ansatz formuliert CIL als aufgabenagnostisches, bereichsübergreifendes Anpassungsproblem um, das es dem Modell ermöglicht, reale und synthetische Daten besser zu unterscheiden. Umfangreiche Experimente mit CIFAR100 und ImageNet100 zeigen die Effektivität der Methode und übertreffen modernste Techniken mit signifikanten Verbesserungen sowohl bei der durchschnittlichen als auch bei der Endgenauigkeit. Ablationsstudien bestätigen die Beiträge der einzelnen Komponenten der Methode weiter. Das Kapitel schließt mit der Hervorhebung der Errungenschaften der Methode und der Diskussion potenzieller zukünftiger Maßnahmen zur Steigerung der Trainingseffizienz.
  11. Convex Relaxations for Manifold-Valued Markov Random Fields with Approximation Guarantees

    Robin Kenis, Emanuel Laude, Panagiotis Patrinos
    Dieses Kapitel stellt einen konvexen Entspannungsansatz für Optimierungsprobleme vor, bei denen vielfältig bewertete Variablen und grafische Kopplungsstrukturen zum Einsatz kommen. Sie adressiert die Herausforderung der nichtkonvexen und nichtglatten Optimierung, indem sie das Problem unter Verwendung einer lokalen marginalen Polytopie-Entspannung (LMP-Relaxation) neu formuliert. Die LMP-Entspannung hat sich in der Praxis als wirksam erwiesen, obwohl sie nur eine niedrigere Grenze zur globalen Marginalpolytopie (GMP) -Entspannung aufweist. Die Autoren entwickeln eine Hierarchie implementierbarer dualer Programme mittels polynomialer Subraumdiskretisierung, die Konvergenzgarantien sowohl für polynomale als auch für geodätische Kopplungsbedingungen nachweist. Der Ansatz wird auf vielfältige bildgebende Probleme angewendet und stellt eine Graphenoptimierung dar, was seine praktische Effektivität und theoretische Solidität demonstriert. Das Kapitel schließt mit einer Diskussion zukünftiger Arbeit und potenzieller Verbesserungen bei der Lösung großer Probleme.
  12. Instant 3D Human Avatar Generation Using Image Diffusion Models

    Nikos Kolotouros, Thiemo Alldieck, Enric Corona, Eduard Gabriel Bazavan, Cristian Sminchisescu
    Das Kapitel stellt AvatarPopUp vor, eine bahnbrechende Methode zur sofortigen Generierung manipulierter 3D-Avatare. Diese Methode nutzt multimodale Steuerelemente, einschließlich Text, Bilder und Daten zur Haltung und Form des Menschen, um detaillierte und vielfältige 3D-Assets zu erstellen. Durch die Entkopplung der probabilistischen Text-Bild-Erzeugung und der 3D-Hebestufen nutzt AvatarPopUp die Möglichkeiten vorausgebildeter Text-Bild-Netzwerke und kleiner 3D-Datensätze, um qualitativ hochwertige Rekonstruktionen zu erstellen. Die Methode ermöglicht eine schnelle und interaktive 3D-Generierung, modernste 3D-Einzelbild-Rekonstruktion und kreative Bearbeitungsaufgaben wie das virtuelle Anprobieren von 3D. Das Kapitel hebt auch die Fähigkeit der Methode hervor, mehrere qualitativ unterschiedliche Hypothesen zu generieren, und unterstützt die Animation der generierten Vermögenswerte. Die vorgeschlagene Entkopplungsstrategie maximiert die Nutzung verfügbarer Datenquellen und gewährleistet eine hohe Diversität der Erzeugung und präzise Kontrolle auf Grundlage von Text- und Identitätsspezifikationen.
  13. PromptFusion: Decoupling Stability and Plasticity for Continual Learning

    Haoran Chen, Zuxuan Wu, Xintong Han, Menglin Jia, Yu-Gang Jiang
    Das Kapitel "PromptFusion: Decoupling Stability and Plasticity for Continual Learning" befasst sich mit der Herausforderung, neuronale Netzwerke auf dynamische, sequenzielle Weise zu trainieren, bei der Daten kontinuierlich ankommen. Die Autoren stellen PromptFusion vor, ein Framework, das zwei unabhängige Module - Stabilizer und Booster - verwendet, um Stabilität und Plastizität getrennt zu behandeln. Der Stabilisator, der mit CoOp instanziiert wurde, ist robust gegenüber klasseninternen Variationen, wodurch er sich für komplexe Datensätze eignet, während der Booster, der auf VPT basiert, sich durch einfache Datensätze auszeichnet. In diesem Kapitel wird auch PromptFusion-Lite vorgestellt, eine rechnerisch effiziente Version, die für jede Eingabe adaptiv das passende Modul auswählt und so den Rechenaufwand deutlich reduziert. Umfangreiche Experimente zeigen, dass PromptFusion und PromptFusion-Lite sowohl klasseninkrementelle als auch domäneninkrementelle Lernbenchmarks auf dem neuesten Stand der Technik erzielen. Der neuartige Ansatz der Entkoppelung von Stabilität und Plastizität, zusammen mit dem adaptiven Selektionsmechanismus, macht dieses Kapitel zu einem wertvollen Beitrag auf dem Gebiet des kontinuierlichen Lernens.
  14. Improving Geo-Diversity of Generated Images with Contextualized Vendi Score Guidance

    Reyhane Askari Hemmat, Melissa Hall, Alicia Sun, Candace Ross, Michal Drozdzal, Adriana Romero-Soriano
    In diesem Kapitel wird Contextualized Vendi Score Guidance (c-VSG) vorgestellt, eine Methode, um die geografische Diversität von Bildern zu erhöhen, die durch latente Diffusionsmodelle erzeugt werden. Der Ansatz verwendet die Vendi-Score-Metrik, um den Diffusionsprozess in Richtung vielfältigerer Proben zu lenken, und verwendet Beispielbilder, um den Realismus zu wahren. Die Autoren präsentieren umfangreiche Experimente zu zwei geografisch unterschiedlichen Datensätzen, die zeigen, dass c-VSG die Diversitäts- und Qualitätskennzahlen signifikant verbessert. Die Methode verringert auch Unterschiede in der Repräsentation zwischen den Regionen, was sie zu einem wertvollen Beitrag auf dem Gebiet des Computersehens und generativer Modelle macht.
  15. Adapting to Shifting Correlations with Unlabeled Data Calibration

    Minh Nguyen, Alan Q. Wang, Heejong Kim, Mert R. Sabuncu
    Das Kapitel untersucht die Herausforderungen realer Daten, die von der i.i.d. abweichen. Annahme, was zu signifikanten Abweichungen in den Korrelationen zwischen Variablen zwischen verschiedenen Standorten führt. Stiftungsmodelle sind zwar effektiv bei der Verallgemeinerung out-of-the-box, haben aber aufgrund von Unterschieden in der Datenverteilung mit medizinischer Bildgebung zu kämpfen. Die Autoren schlagen GPA vor, eine adaptive Methode, die unbeschriftete Daten nutzt, um stabile und sich verändernde Verteilungen abzuschätzen, was es Modellen ermöglicht, über Standorte hinweg besser zu verallgemeinern. In Experimenten mit synthetischen und realen Datensätzen schneidet GPA besser ab als andere Baselines und zeigt damit sein Potenzial, instabile Eigenschaften sicher auszunutzen und die Leistung sowohl in als auch außerhalb der Domäne zu verbessern.
  16. Masked Generative Video-to-Audio Transformers with Enhanced Synchronicity

    Santiago Pascual, Chunghsin Yeh, Ioannis Tsiamas, Joan Serrà
    In diesem Kapitel wird MaskVAT vorgestellt, ein transformatorbasiertes Modell, das entwickelt wurde, um hochwertiges Full-Band-Audio aus Videoeingängen zu erzeugen. Es befasst sich mit den Herausforderungen der zeitlichen Synchronisierung und Audioqualität bei der Erzeugung von Video-Audio-Dateien. Durch die Nutzung eines hochmodernen neuronalen Audio-Codecs und eines maskierten generativen Transformer-Ansatzes stellt MaskVAT eine starke Ausrichtung zwischen dem generierten Audio und den visuellen Inhalten sicher. Das Modell wird durch objektive Metriken und subjektive Tests bewertet, die im Vergleich zu bestehenden Methoden eine überlegene Leistung in Audioqualität, semantischem Abgleich und zeitlicher Ausrichtung zeigen. Das Kapitel behandelt auch den Trainingsaufbau, den Abtastungsprozess und eine Strategie zur Auswahl nach dem Abtasten, um die Qualität und Vielfalt des erzeugten Audios zu verbessern.
  17. Information Bottleneck Based Data Correction in Continual Learning

    Shuai Chen, Mingyi Zhang, Junge Zhang, Kaiqi Huang
    Das Kapitel untersucht die Grenzen moderner Deep-Learning-Algorithmen, wenn es darum geht, Wissen aus früheren Aufgaben im kontinuierlichen Lernen zu behalten, insbesondere das Problem des katastrophalen Vergessens. Er geht auf den Ansatz der Erfahrungswiedergabe als vielversprechende Lösung ein und beleuchtet die Herausforderungen der Stichprobenauswahl und die Voreingenommenheit, die durch nicht erfasste Daten hervorgerufen wird. Der vorgeschlagene Algorithmus zur Korrektur von Datenengpässen, IBCL, mildert diese Probleme ab, indem er aufgabenagnostische Merkmale fördert und ungesampelte Dateninformationen modelliert. Dieser innovative Ansatz verbessert die Fähigkeit des Modells, altes Wissen zu bewahren und gleichzeitig neue Aufgaben zu erlernen, und stellt einen bedeutenden Fortschritt im Bereich des kontinuierlichen Lernens dar.
  18. On Spectral Properties of Gradient-Based Explanation Methods

    Amir Mehrpanah, Erik Englesson, Hossein Azizpour
    Das Kapitel vertieft sich in die spektralen Eigenschaften gradientenbasierter Erklärungsmethoden im maschinellen Lernen und betont die Notwendigkeit formaler Analysen, um Zuverlässigkeit zu gewährleisten. Sie führt ein Rahmenwerk für die probabilistische Darstellung und Spektralanalyse ein und offenbart eine gemeinsame spektrale Voreingenommenheit, die zu Widersprüchen in den Erklärungen führt. Die Autoren schlagen zwei Lösungen vor: die Bestimmung einer optimalen Störungsskala auf Grundlage kosmischer Ähnlichkeit und die Aggregation von Erklärungen mit einer Spektrallinse. Diese Lösungen zielen darauf ab, die Inkonsistenzen abzumildern und die Robustheit der Erklärungsmethoden zu verbessern. Das Kapitel schließt mit einer Bewertung der vorgeschlagenen Methoden, die ihre Wirksamkeit aufzeigt und mögliche Wege für zukünftige Forschung aufzeigt.
  19. Contextual Correspondence Matters: Bidirectional Graph Matching for Video Summarization

    Yunzuo Zhang, Yameng Liu
    Das Kapitel geht der Herausforderung der Zusammenfassung von Videos im Zeitalter digitaler Medien nach, wo das exponentielle Wachstum von Videoinhalten innovative Lösungen erfordert. Traditionelle Methoden stützen sich auf niedrige visuelle oder audiovisuelle Funktionen, die bei der Erfassung komplexer kontextbezogener Informationen weniger effektiv sind. Das vorgeschlagene Bgm4Video-Rahmenwerk geht darauf ein, indem es einen bidirektionalen Graph-Matching-Ansatz anwendet, um sowohl grobkörnige als auch feinkörnige Kontextinformationen zu modellieren. Diese Methode, die Selbstaufmerksamkeit und zeitliche Faltung kombiniert, ermöglicht ein umfassendes Verständnis der Handlung des Videos, indem sie kontextualisierte Darstellungen verfeinert. Das Kapitel hebt umfangreiche Experimente hervor, die die überlegene Leistung des Frameworks auf Standarddatensätzen demonstrieren und sowohl bei F-Score- als auch bei rangbasierten Bewertungen modernste Methoden übertreffen.
  20. OV-Mapping: Online Open-Vocabulary Mapping with Neural Implicit Representation

    Muer Tie, Julong Wei, Ke Wu, Zhengjun Wang, Shanshuai Yuan, Kaizhao Zhang, Jie Jia, Jieru Zhao, Zhongxue Gan, Wenchao Ding
    Das Kapitel stellt O2V-Mapping vor, eine bahnbrechende Methode für das Online-Mapping offener Vokabeln unter Verwendung neuronaler impliziter Repräsentation. Es ermöglicht Robotern, Szenen in Echtzeit mit hoher semantischer Genauigkeit zu verstehen und zu rekonstruieren. Durch die Nutzung von CLIP-Einbettungen und voxelbasierten neuronalen Feldern erreicht O2V-Mapping klare Objektgrenzen und konsistente semantische Informationen und überwindet die Herausforderungen hierarchischer Semantik und räumlicher Mehrdeutigkeit. Die Methode integriert außerdem einen Mechanismus zur Verschmelzung von Sprachmerkmalen und eine Strategie zur Mehrfachabstimmung, um die Robustheit und Genauigkeit semantischer Karten zu verbessern. Darüber hinaus wird in diesem Kapitel die Integration von O2V-Mapping mit einem großen Sprachmodell (Large Language Model, LLM) vorgestellt, um die Erdungskapazität von Roboteragenten zu verbessern und das Potenzial für fortgeschrittene Roboterplanung und -interaktion aufzuzeigen. Die Wirksamkeit der Methode wird durch umfangreiche Experimente bestätigt, die eine überlegene Leistung in realen Szenarien zeigen.
  21. Dataset Distillation by Automatic Training Trajectories

    Dai Liu, Jindong Gu, Hu Cao, Carsten Trinitis, Martin Schulz
    Das Kapitel taucht in den Bereich der Datensatzdestillation ein und beleuchtet das Accumulated Mismatching Problem (AMP), das herkömmliche Methoden der Long-Range Matching Dataset Destillation (LDD) plagt. Es wird die automatische Trainingsmethode ATT (Automatic Training Trajectories) eingeführt, die dynamisch passende Objekte und Flugbahnlängen auswählt, um AMP abzumildern und so die Genauigkeit und Verallgemeinerung synthetischer Datensätze zu verbessern. Der Autor präsentiert empirische Ergebnisse, die ATT's überlegene Leistung über verschiedene Datensätze und Architekturen hinweg demonstrieren und sein Potenzial aufzeigen, die Destillationspraxis von Datensätzen zu revolutionieren.
  22. FAFA: Frequency-Aware Flow-Aided Self-supervision for Underwater Object Pose Estimation

    Jingyi Tang, Gu Wang, Zeyu Chen, Shengquan Li, Xiu Li, Xiangyang Ji
    FAFA, ein zweistufiges Rahmenwerk zur selbstüberwachten Schätzung von Unterwasserobjekten, adressiert die Herausforderungen von Unterwasserumgebungen, indem es zunächst auf synthetischen Daten trainiert und dann das Netzwerk anhand unbeschrifteter Bilder aus der realen Welt verfeinert. Es führt eine frequenzbewusste Methode zur Datenvergrößerung ein, die domäneninvariantes Feature Learning und einen mehrstufigen Selbstüberwachungsansatz verbessert, der Angleichungen auf Bild- und Featurebene umfasst. Diese innovative Methode verbessert die Genauigkeit und Robustheit von Pose-Schätzungen erheblich und übertrifft die aktuellen Methoden in Unterwasserszenarien. Der Ansatz wird anhand zweier Benchmark-Datensätze bewertet, die seine überlegene Leistung und praktische Anwendbarkeit in realen Unterwasserumgebungen demonstrieren.
  23. EMIE-MAP: Large-Scale Road Surface Reconstruction Based on Explicit Mesh and Implicit Encoding

    Wenhua Wu, Qi Wang, Guangming Wang, Junping Wang, Tiankun Zhao, Yang Liu, Dongchao Gao, Zhe Liu, Hesheng Wang
    In diesem Kapitel wird EMIE-MAP vorgestellt, eine bahnbrechende Methode für die großflächige Sanierung von Straßenoberflächen, die explizites Maschengewebe und implizite Kodierung integriert. Dieser Ansatz adressiert den wachsenden Bedarf an präzisen Straßensanierungen in Systemen für autonomes Fahren, insbesondere für die Wahrnehmung aus der Vogelperspektive (Bird's Eye View, BEV) und hochpräzise Kartierungen. EMIE-MAP kombiniert die Vorteile expliziter und impliziter Darstellungen, um Straßengeometrie, Farbe und semantische Informationen präzise zu erfassen. Es führt eine trajektorbasierte Höheninitialisierungsmethode und eine MLP-basierte Höhenrestvorhersage ein, um steile Hänge und Helligkeitsunterschiede zwischen Surround-View-Kameras zu bewältigen. Die Methode verwendet auch eine gemeinsame implizite Farbkodierung und eine Multi-Kamera-RGB-Dekodierung, um Szenenattribute und Kameraeigenschaften getrennt zu modellieren. Experimentelle Ergebnisse zeigen die überragende Leistung von EMIE-MAP in verschiedenen Straßenoberflächenszenarien, einschließlich Stadtstraßen, Nachtszenen und Rampen, und unterstreichen seine Robustheit und Genauigkeit im Vergleich zu bestehenden Methoden wie RoMe.
  24. UniIR: Training and Benchmarking Universal Multimodal Information Retrievers

    Cong Wei, Yang Chen, Haonan Chen, Hexiang Hu, Ge Zhang, Jie Fu, Alan Ritter, Wenhu Chen
    In diesem Kapitel werden die Beschränkungen aktueller multimodaler Informationsabrufsysteme (IR-Systeme) diskutiert, die oft eng gefasst sind und den unterschiedlichen Bedürfnissen der Nutzer nicht gerecht werden. Es stellt UniIR vor, ein Rahmenwerk, das darauf ausgelegt ist, universelle multimodale Informationsretriever auszubilden, die in der Lage sind, verschiedene Abrufaufgaben zu bewältigen. Die Autoren stellen verschiedene Fusionsmechanismen zur Integration multimodaler Daten vor und stellen M-BEIR vor, einen Benchmark, der 10 verschiedene Datensätze und 1,5 Millionen Abfragen umfasst. Das Kapitel hebt die signifikanten Verbesserungen hervor, die durch UniIR-Modelle erreicht wurden, insbesondere bei intermodalen Retrievalaufgaben, und demonstriert ihre Fähigkeit, auf unsichtbare Datensätze zu verallgemeinern. Darüber hinaus werden die Vorteile von Instruktionstuning bei der Leistungssteigerung des Modells und sein Potenzial für zukünftige Weiterentwicklungen im Bereich der multimodalen IR aufgezeigt.
  25. SSL-Cleanse: Trojan Detection and Mitigation in Self-Supervised Learning

    Mengxin Zheng, Jiaqi Xue, Zihao Wang, Xun Chen, Qian Lou, Lei Jiang, Xiaofeng Wang
    SSL-Cleanse ist eine bahnbrechende Methode zur Erkennung und Eindämmung von Trojaner-Angriffen in selbstüberwachten Lernprogrammen (SSL-Encodern). Die Methode konzentriert sich auf trainingsagnostische Angriffe durch die Hintertür, die aufgrund ihres verdeckten Charakters und ihrer breiten Reichweite eine besondere Herausforderung darstellen. SSL-Cleanse besteht aus zwei Hauptkomponenten: dem Detektor, der das Vorhandensein von Trojanern erkennt, und dem Mitigator, der die Trigger rückgängig macht und entfernt. Der Detektor verwendet einen Sliding Window Kneedle-Algorithmus zur Ermittlung der Clusteranzahl und eine repräsentationsorientierte Trigger-Reverse-Methode zur Generierung von Triggermustern. Der Mitigator verwendet eine selbstüberwachte Clustering Unlearning-Strategie, um den Encoder zu reinigen. Umfangreiche Experimente mit Benchmark-Datensätzen zeigen die Wirksamkeit von SSL-Cleanse, erreichen eine hohe Erkennungsgenauigkeit und reduzieren die Angriffserfolgsraten deutlich. Die vorgeschlagene Methode ist ein bedeutender Fortschritt im Bereich der SSL-Sicherheit und bietet eine robuste Lösung zum Schutz vor bösartigen Backdoor-Angriffen.
  26. Skews in the Phenomenon Space Hinder Generalization in Text-to-Image Generation

    Yingshan Chang, Yasi Zhang, Zhiyuan Fang, Ying Nian Wu, Yonatan Bisk, Feng Gao
    Das Kapitel befasst sich mit der Komplexität der Text-Bild-Erzeugung, insbesondere mit dem Kampf der Modelle, räumliche Beziehungen präzise zu erlernen und zu verallgemeinern. Es stellt ein konzeptionelles Rahmenwerk vor, das den Erzeugungsprozess in drei Komponenten unterteilt: einen Textencodierer, einen visuellen Decoder und einen Kommunikationskanal. Die Autoren schlagen statistische Kennzahlen vor, um die Vollständigkeit und Ausgewogenheit der Verteilung der Trainingsdaten zu quantifizieren, und argumentieren, dass diese Faktoren die Fähigkeit des Modells zur Verallgemeinerung erheblich beeinflussen. Experimentelle Ergebnisse sowohl an synthetischen als auch an natürlichen Bildern zeigen die starke Vorhersagekraft dieser Messgrößen und unterstreichen die Bedeutung ausgewogener und vollständiger Trainingsdaten für eine erfolgreiche Text-Bild-Erzeugung. Das Kapitel diskutiert auch die Beschränkungen aktueller Bewertungsmethoden und schlägt zukünftige Wege zur Verbesserung der Verallgemeinerung räumlicher Beziehungen in generierten Bildern vor.
  27. Bones Can’t Be Triangles: Accurate and Efficient Vertebrae Keypoint Estimation Through Collaborative Error Revision

    Jinhee Kim, Taesung Kim, Jaegul Choo
    In diesem Kapitel wird KeyBot vorgestellt, eine neuartige Methode zur Verbesserung der Genauigkeit der Schlüsselpunkteinschätzung von Wirbeln anhand von Röntgenbildern. KeyBot erkennt und korrigiert vor dem Eingreifen des Benutzers selbstständig spezifische Fehler, wie Scheitelpunkte, Knochen-Fehlidentifikation und Links-Rechts-Umkehrung. Diese automatisierte Rückkopplungsschleife reduziert den Bedarf an manuellen Korrekturen erheblich, steigert die Effizienz des Workflows und verbessert die Gesamtgenauigkeit der Schlüsselpunkteinschätzung. Die Methode wird auf synthetischen Daten trainiert, die häufige Fehlertypen repräsentieren, und integriert einen Detektor und einen Korrektor, um Fehler zu erkennen bzw. zu korrigieren. Umfangreiche Experimente mit drei öffentlichen Datensätzen zeigen die überlegene Leistung von KeyBot, reduzieren mittlere radiale Fehler und die Anzahl der Klicks, die für präzise Anmerkungen erforderlich sind. Die kollaborative Rückkopplungsschleife zwischen KeyBot, dem Anwender und dem Interaktionsmodell kombiniert medizinische Expertenerkenntnisse mit gezielter Fehlerkorrektur und führt zu einer allgemeinen Verbesserung der Genauigkeit der Schlüsselpunkteinschätzung.
  28. LatentSplat: Autoencoding Variational Gaussians for Fast Generalizable 3D Reconstruction

    Christopher Wewer, Kevin Raj, Eddy Ilg, Bernt Schiele, Jan Eric Lenssen
    Im Kapitel "LatentSplat: Autoencoding Variational Gaussians for Fast Generalizable 3D Reconstruction" wird eine neue Methode zur 3D-Rekonstruktion aus zwei Referenzansichten vorgestellt, die Variationsmerkmale von Gaussern verwendet. Die Methode mit dem Namen LatentSplat kombiniert die Stärken regressionsbasierter und generativer Ansätze, um Unsicherheit explizit zu modellieren und eine qualitativ hochwertige neuartige Blicksynthese zu erzielen. Es führt variierende 3D-Gaußsche ein, um die Szene als eine Reihe semantischer 3D-Gaußscher darzustellen, die das Szenenbild über angeschlossene, ansichtsabhängige Feature-Vektoren beschreiben. Die Methode ist an realen Videodaten geschult und zeigt eine überlegene Leistung in Bezug auf visuelle Qualität und Rechenleistung. Das Kapitel enthält eine detaillierte Beschreibung der Methode, einschließlich der Encoder- und Decoder-Architektur, Ausbildungsdetails und experimenteller Ergebnisse. Außerdem werden die Grenzen der Methode und mögliche zukünftige Arbeiten diskutiert. Das Kapitel richtet sich an Spezialisten mit einem ausgeprägten Hintergrund in den Bereichen Computer Vision und maschinelles Lernen und bietet wertvolle Einblicke in den Stand der 3D-Rekonstruktion.
  29. Backmatter

Titel
Computer Vision – ECCV 2024
Herausgegeben von
Aleš Leonardis
Elisa Ricci
Stefan Roth
Olga Russakovsky
Torsten Sattler
Gül Varol
Copyright-Jahr
2025
Electronic ISBN
978-3-031-73021-4
Print ISBN
978-3-031-73020-7
DOI
https://doi.org/10.1007/978-3-031-73021-4

Informationen zur Barrierefreiheit für dieses Buch folgen in Kürze. Wir arbeiten daran, sie so schnell wie möglich verfügbar zu machen. Vielen Dank für Ihre Geduld.

    Bildnachweise
    AvePoint Deutschland GmbH/© AvePoint Deutschland GmbH, ams.solutions GmbH/© ams.solutions GmbH, Wildix/© Wildix, arvato Systems GmbH/© arvato Systems GmbH, Ninox Software GmbH/© Ninox Software GmbH, Nagarro GmbH/© Nagarro GmbH, GWS mbH/© GWS mbH, CELONIS Labs GmbH, USU GmbH/© USU GmbH, G Data CyberDefense/© G Data CyberDefense, Vendosoft/© Vendosoft, Deutsche Telekom MMS GmbH/© Vendosoft, Noriis Network AG/© Noriis Network AG, Asseco Solutions AG/© Asseco Solutions AG, AFB Gemeinnützige GmbH/© AFB Gemeinnützige GmbH, Ferrari electronic AG/© Ferrari electronic AG, Doxee AT GmbH/© Doxee AT GmbH , Haufe Group SE/© Haufe Group SE, NTT Data/© NTT Data, Videocast 1: Standbild/© Springer Fachmedien Wiesbaden, IT-Director und IT-Mittelstand: Ihre Webinar-Matineen /© da-kuk / Getty Images / iStock