Computer Vision – ECCV 2024
18th European Conference, Milan, Italy, September 29–October 4, 2024, Proceedings, Part LXXXVII
- 2025
- Buch
- Herausgegeben von
- Aleš Leonardis
- Elisa Ricci
- Stefan Roth
- Olga Russakovsky
- Torsten Sattler
- Gül Varol
- Buchreihe
- Lecture Notes in Computer Science
- Verlag
- Springer Nature Switzerland
Über dieses Buch
Über dieses Buch
The multi-volume set of LNCS books with volume numbers 15059 up to 15147 constitutes the refereed proceedings of the 18th European Conference on Computer Vision, ECCV 2024, held in Milan, Italy, during September 29–October 4, 2024.
The 2387 papers presented in these proceedings were carefully reviewed and selected from a total of 8585 submissions. They deal with topics such as computer vision; machine learning; deep neural networks; reinforcement learning; object recognition; image classification; image processing; object detection; semantic segmentation; human pose estimation; 3d reconstruction; stereo vision; computational photography; neural networks; image coding; image reconstruction; motion estimation.
Inhaltsverzeichnis
-
Frontmatter
-
Score Distillation Sampling with Learned Manifold Corrective
Thiemo Alldieck, Nikos Kolotouros, Cristian SminchisescuDas Kapitel befasst sich mit den vielseitigen Anwendungsmöglichkeiten von Bilddiffusionsmodellen, insbesondere mit dem in DreamFusion vorgeschlagenen Verlust von Score Destillation Sampling (SDS). Sie identifiziert zentrale Probleme mit der ursprünglichen Formulierung der SDB, wie etwa die Tendenz, die Beobachtung zu degradieren und bedeutungslose Gradienten zu liefern. Die Autoren stellen eine neuartige Verlustformel vor, LMC-SDS, die darauf abzielt, bessere Gradienten in Richtung der erlernten Mannigfaltigkeit realer Bilder zu schaffen. Durch umfangreiche Experimente zeigen sie die Wirksamkeit von LMC-SDS bei optimierungsbasierter Bildsynthese, Bildbearbeitung, Netzwerktraining für Bild-zu-Bild-Translation und Text-zu-3D-Synthese. Das Kapitel unterstreicht die überlegene Leistung von LMC-SDS bei der Erzielung von Ergebnissen mit höherer visueller Genauigkeit und bei besserer Berücksichtigung der Zielprompt als andere SDS-basierte Methoden. Darüber hinaus werden die Grenzen und zukünftigen Richtungen zur weiteren Verbesserung der vielfältigen Korrektur in LMC-SDS diskutiert.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractScore Distillation Sampling (SDS) is a recent but already widely popular method that relies on an image diffusion model to control optimization problems using text prompts. aIn this paper, we conduct an in-depth analysis of the SDS loss function, identify an inherent problem with its formulation, and propose a surprisingly easy but effective fix. Specifically, we decompose the loss into different factors and isolate the component responsible for noisy gradients. In the original formulation, high text guidance is used to account for the noise, leading to unwanted side effects such as oversaturation or repeated detail. Instead, we train a shallow network mimicking the timestep-dependent frequency bias of the image diffusion model in order to effectively factor it out. We demonstrate the versatility and the effectiveness of our novel loss formulation through qualitative and quantitative experiments, including optimization-based image synthesis and editing, zero-shot image translation network training, and text-to-3D synthesis. -
FipTR: A Simple yet Effective Transformer Framework for Future Instance Prediction in Autonomous Driving
Xingtai Gui, Tengteng Huang, Haonan Shao, Haotian Yao, Chi ZhangDas Kapitel stellt FipTR vor, ein Transformer-basiertes Framework, das für zukünftige Vorhersagen im Bereich autonomes Fahren entwickelt wurde. Es zielt darauf ab, die besetzte Fläche und die möglichen Bewegungszustände der Verkehrsteilnehmer aus der Vogelperspektive vorherzusagen. Das Rahmenwerk ist vom Erfolg der BEV-Wahrnehmungsparadigmen bei der Objekterkennung und Kartensegmentierung inspiriert. FipTR verwendet Instanzabfragen, um zukünftige besetzte Masken und Bewegungszustände direkt zu schätzen, wodurch die Notwendigkeit einer Abschätzung der Zentralität und Clusterprozesse vermieden wird. Der strömungsbewusste BEV-Prädiktor und zukünftige Instanz-Matching-Mechanismen sind Schlüsselkomponenten, die die zeitliche Kohärenz und Interpretierbarkeit verbessern. Umfangreiche Experimente mit dem NuScenes-Datensatz zeigen die überlegene Leistung von FipTR im Vergleich zu bestehenden Methoden und unterstreichen seine Effektivität bei der Vorhersage zukünftiger Instanzsegmentierung mit hoher Genauigkeit und zeitlicher Konsistenz.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractThe future instance prediction from a Bird’s Eye View (BEV) perspective is a vital component in autonomous driving, which involves future instance segmentation and instance motion prediction. Existing methods usually rely on a redundant and complex pipeline which requires multiple auxiliary outputs and post-processing procedures. Moreover, estimated errors on each of the auxiliary predictions will lead to degradation of the prediction performance. In this paper, we propose a simple yet effective fully end-to-end framework named Future Instance Prediction Transformer (FipTR), which views the task as BEV instance segmentation and prediction for future frames. We propose to adopt instance queries representing specific traffic participants to directly estimate the corresponding future occupied masks, and thus get rid of complex post-processing procedures. Besides, we devise a flow-aware BEV predictor for future BEV feature prediction composed of a flow-aware deformable attention that takes backward flow guiding the offset sampling. A novel future instance matching strategy is also proposed to further improve the temporal coherence. Extensive experiments demonstrate the superiority of FipTR and its effectiveness under different temporal BEV encoders. The code is available at https://github.com/TabGuigui/FipTR. -
Benchmarking the Robustness of Cross-View Geo-Localization Models
Qingwang Zhang, Yingying ZhuDas Kapitel vertieft sich in die kritische Frage der Robustheit der Geolokalisierung unter realistischen Bedingungen, wo GPS-Signale häufig degradiert oder nicht verfügbar sind. Es führt umfassende Benchmarks zur Bewertung der Leistung von Geolokalisierungsmodellen ein, die unter verschiedenen Arten und Schweregraden der Datenkorruption durchgeführt werden. Die Autoren schlagen außerdem einfache, aber effektive Techniken zur Datenerweiterung vor, um die Robustheit dieser Modelle zu erhöhen. Die Studie unterstreicht die signifikante Leistungsverschlechterung bestehender Modelle unter korrupten Daten und unterstreicht die Bedeutung von Robustheitsbenchmarking für Anwendungen in der realen Welt. Durch die Bereitstellung eingehender experimenteller Ergebnisse und Erkenntnisse zielt das Kapitel darauf ab, weitere Forschungen in diesem entscheidenden Bereich anzuregen.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractCross-view geo-localization serves as a viable alternative to providing geographical location information when GPS signals are unstable or unavailable by matching ground images with geo-tagged aerial image databases. While significant progress has been made on some common benchmarks like CVUSA and CVACT, there remains a lack of comprehensive consideration for robustness against real-world environmental challenges such as adverse weather or sensor noise. This deficiency poses a significant challenge for deploying this technology in safety-critical domains like autonomous driving and robot navigation. To the best of our knowledge, there is currently no specialized benchmark for evaluating the robustness of cross-view geo-localization. To comprehensively and fairly evaluate the robustness of cross-view geo-localization models in real-world scenarios, we introduce 16 common types of data corruption. By synthesizing these corruptions on public datasets, we establish two fine-grained corruption robustness benchmarks (CVUSA-C and CVACT_val-C) and three comprehensive corruption robustness benchmarks (CVUSA-C-ALL, CVACT_val-C-ALL, and CVACT_test-C-ALL), covering approximately 1.5 million corrupted images. Subsequently, we conduct large-scale experiments on various cross-view geo-localization models to evaluate their robustness in corrupted environments and derive novel insights. Finally, we explore two data augmentation strategies as potential solutions to enhance model robustness. Combined with the training strategies proposed, these approaches effectively enhance the robustness of multiple models. -
GroCo: Ground Constraint for Metric Self-supervised Monocular Depth
Aurélien Cecille, Stefan Duffner, Franck Davoine, Thibault Neveu, Rémi AgierIn diesem Kapitel wird GroCo vorgestellt, eine Methode zur Bodenbeschränkung für die metrische, selbstüberwachte monokulare Tiefeneinschätzung. Sie nimmt sich der langjährigen Herausforderung der Skalenvieldeutigkeit in der monokularen visuellen Odometrie an, indem sie Bodeninformationen effektiv integriert. GroCo setzt neuartige Verlustfunktionen und Aufmerksamkeitsmechanismen ein, um eine präzise Skalenwiederherstellung und robuste Leistung in verschiedenen Kamerakonfigurationen und Umgebungen sicherzustellen. Die Methode zeigt eine im Vergleich zu bestehenden Ansätzen überlegene Leistung und unterstreicht ihr Potenzial für Anwendungen in der realen Welt in der Robotik und in autonomen Fahrzeugen. Das Kapitel umfasst auch umfangreiche Experimente und Ablationsstudien, die die Robustheit und Verallgemeinerbarkeit der Methode aufzeigen.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractMonocular depth estimation has greatly improved in the recent years but models predicting metric depth still struggle to generalize across diverse camera poses and datasets. While recent supervised methods mitigate this issue by leveraging ground prior information at inference, their adaptability to self-supervised settings is limited due to the additional challenge of scale recovery. Addressing this gap, we propose in this paper a novel constraint on ground areas designed specifically for the self-supervised paradigm. This mechanism not only allows to accurately recover the scale but also ensures coherence between the depth prediction and the ground prior. Experimental results show that our method surpasses existing scale recovery techniques on the KITTI benchmark and significantly enhances model generalization capabilities. This improvement can be observed by its more robust performance across diverse camera rotations and its adaptability in zero-shot conditions with previously unseen driving datasets such as DDAD. -
SUMix: Mixup with Semantic and Uncertain Information
Huafeng Qin, Xin Jin, Hongyu Zhu, Hongchao Liao, Mounîm A. El-Yacoubi, Xinbo GaoDas Kapitel stellt SUMix vor, eine bahnbrechende Datenerweiterungstechnologie, die die Beschränkungen bestehender Vermischungsmethoden im Deep Learning anspricht. SUMix kombiniert semantische und unsichere Informationen, um ein genaueres Mischungsverhältnis zu berechnen und die Verlustfunktion zu regulieren, was die Leistung und Robustheit des Modells deutlich verbessert. Die Autoren präsentieren umfangreiche Experimente zu verschiedenen Datensätzen, die zeigen, dass SUMix herkömmliche Verwechselungsmethoden übertrifft und die Klassifikationsgenauigkeit moderner Modelle verbessert. Darüber hinaus hat sich gezeigt, dass SUMix wirksam ist, wenn es darum geht, die Robustheit der Okklusion und die Widerstandskraft gegen feindliche Angriffe zu verbessern, was es zu einem wertvollen Werkzeug für Praktiker macht, die tiefes Lernen praktizieren. Das Kapitel bietet außerdem einen umfassenden Überblick über verwandte Arbeiten in stichprobenbasierten und kennzeichnungsbasierten Vermischungsmethoden sowie Unsicherheitsmodellierungen, wobei die einzigartigen Beiträge von SUMix in diesem Bereich hervorgehoben werden.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractMixup data augmentation approaches have been applied for various tasks of deep learning to improve the generalization ability of deep neural networks. Some existing approaches CutMix, SaliencyMix, etc. randomly replace a patch in one image with patches from another to generate the mixed image. Similarly, the corresponding labels are linearly combined by a fixed ratio \(\lambda \) by l. The objects in two images may be overlapped during the mixing process, so some semantic information is corrupted in the mixed samples. In this case, the mixed image does not match the mixed label information. Besides, such a label may mislead the deep learning model training, which results in poor performance. To solve this problem, we proposed a novel approach named SUMix to learn the mixing ratio as well as the uncertainty for the mixed samples during the training process. First, we design a learnable similarity function to compute an accurate mix ratio. Second, an approach is investigated as a regularized term to model the uncertainty of the mixed samples. We conduct experiments on five image benchmarks, and extensive experimental results imply that our method is capable of improving the performance of classifiers with different cutting-based mixup approaches. The source code is available at https://github.com/JinXins/SUMix. -
Flatness-Aware Sequential Learning Generates Resilient Backdoors
Hoang Pham, The-Anh Ta, Anh Tran, Khoa D. DoanDas Kapitel diskutiert die zunehmende Bedrohung durch Backdoor-Angriffe in maschinellen Lernmodellen, insbesondere im Kontext von Machine Learning as a Service (MLaaS). Es führt ein neues Rahmenwerk namens Sequential Backdoor Learning (SBL) ein, das kontinuierliche Lerntechniken nutzt, um rückwärtsgerichtete Modelle zu entwickeln, die resistent gegen Feinabstimmungen sind. Bei der SBL-Methode wird das Modell sowohl auf sauberen als auch auf vergifteten Daten trainiert, gefolgt von Feinabstimmungen mit sauberen Daten und einer winzigen Lernrate. Dieser Ansatz zielt darauf ab, das Modell in einem flachen rückdockenden Bereich einzufangen, wodurch es während der Feinabstimmung schwierig wird, ihm zu entkommen. Das Kapitel präsentiert auch empirische Belege, die die Effektivität von SBL bei der Aufrechterhaltung hoher Angriffserfolgsraten (ASR) bei gleichzeitiger Aufrechterhaltung sauberer Datenleistung belegen. Darüber hinaus wird die Rolle der Sharpness-Aware Minimization (SAM) hervorgehoben, die das Modell in Richtung flacher Hintertürregionen lenkt und die Haltbarkeit der implantierten Hintertür weiter verbessert. Das Kapitel schließt mit einer Diskussion über die Bedeutung des kontinuierlichen Lernens und die möglichen Auswirkungen von SBL auf Verteidigungsstrategien durch die Hintertür.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractRecently, backdoor attacks have become an emerging threat to the security of machine learning models. From the adversary’s perspective, the implanted backdoors should be resistant to defensive algorithms, but some recently proposed fine-tuning defenses can remove these backdoors with notable efficacy. This is mainly due to the catastrophic forgetting (CF) property of deep neural networks. This paper counters CF of backdoors by leveraging continual learning (CL) techniques. We begin by investigating the connectivity between a backdoored and fine-tuned model in the loss landscape. Our analysis confirms that fine-tuning defenses, especially the more advanced ones, can easily push a poisoned model out of the backdoor regions, making it forget all about the backdoors. Based on this finding, we re-formulate backdoor training through the lens of CL and propose a novel framework, named Sequential Backdoor Learning (SBL), that can generate resilient backdoors. This framework separates the backdoor poisoning process into two tasks: the first task learns a backdoored model, while the second task, based on the CL principles, moves it to a backdoored region resistant to fine-tuning. We additionally propose to seek flatter backdoor regions via a sharpness-aware minimizer in the framework, further strengthening the durability of the implanted backdoor. Finally, we demonstrate the effectiveness of our method through extensive empirical experiments on several benchmark datasets in the backdoor domain. The source code is available at https://github.com/mail-research/SBL-resilient-backdoors. -
Iterative Ensemble Training with Anti-gradient Control for Mitigating Memorization in Diffusion Models
Xiao Liu, Xiaoliu Guan, Yu Wu, Jiaxu MiaoIn diesem Kapitel wird ein neuartiger Ausbildungsrahmen vorgestellt, das Iterative Ensemble Training with Anti-Gradient Control (IET-AGC), das darauf abzielt, das Auswendiglernen in Diffusionsmodellen zu entschärfen. Im Gegensatz zu früheren Methoden, die sich auf bestimmte Inhalte oder Text-zu-Bild-Aufgaben konzentrierten, befasst sich IET-AGC mit dem umfassenderen Thema des Auswendiglernens sowohl in bedingungslosen als auch textbedingten Diffusionsmodellen. Das Rahmenwerk umfasst iteratives Training und die Zusammenführung von Diffusionsmodellen auf verschiedenen Datensplittern sowie eine dynamische Anpassung des Trainingsprozesses, um leicht auswendig zu lernende Proben auszuschließen. Umfangreiche Experimente zeigen, dass IET-AGC die Speicherung deutlich reduziert und gleichzeitig die Bildqualität beibehält oder sogar verbessert, was es zu einem wertvollen Beitrag im Bereich der generativen Modelle und des Datenschutzes macht.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractDiffusion models, known for their tremendous ability to generate novel and high-quality samples, have recently raised concerns due to their data memorization behavior, which poses privacy risks. Recent approaches for memory mitigation either only focused on the text modality problem in cross-modal generation tasks or utilized data augmentation strategies. In this paper, we propose a novel training framework for diffusion models from the perspective of visual modality, which is more generic and fundamental for mitigating memorization. To facilitate “forgetting” of stored information in diffusion model parameters, we propose an iterative ensemble training strategy by splitting the data into multiple shards for training multiple models and intermittently aggregating these model parameters. Moreover, practical analysis of losses illustrates that the training loss for easily memorable images tends to be obviously lower. Thus, we propose an anti-gradient control method to exclude the sample with a lower loss value from the current mini-batch to avoid memorizing. Extensive experiments and analysis on four datasets are conducted to illustrate the effectiveness of our method, and results show that our method successfully reduces memory capacity while even improving the performance slightly. Moreover, to save the computing cost, we successfully apply our method to fine-tune the well-trained diffusion models by limited epochs, demonstrating the applicability of our method. Code is available in https://github.com/liuxiao-guan/IET_AGC. -
IFTR: An Instance-Level Fusion Transformer for Visual Collaborative Perception
Shaohong Wang, Lu Bin, Xinyu Xiao, Zhiyu Xiang, Hangguan Shan, Eryun LiuDas Kapitel stellt IFTR vor, ein transformatorbasiertes Framework, das entwickelt wurde, um die 3D-Objekterkennung durch visuelle kollaborative Wahrnehmung zu verbessern. Es adressiert die Herausforderungen bestehender Methoden, indem es sich auf die Funktionsfusion auf Instanzebene konzentriert, die die Qualität der BEV-Merkmale verbessert und Kandidatenpositionen von Zielen im 3D-Raum kodiert. Das Framework umfasst Schlüsselkomponenten wie Instanzaggregation und domänenübergreifende Anpassung von Abfragen, die eine genauere und effizientere 3D-Objekterkennung ermöglichen. Umfangreiche Experimente an realen und simulierten Datensätzen zeigen die überlegene Leistung von IFTR im Vergleich zu früheren Methoden und verdeutlichen sein Potenzial für praktische Anwendungen im autonomen Fahren und in der Robotik.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractMulti-agent collaborative perception has emerged as a widely recognized technology in the field of autonomous driving in recent years. However, current collaborative perception predominantly relies on LiDAR point clouds, with significantly less attention given to methods using camera images. This severely impedes the development of budget-constrained collaborative systems and the exploitation of the advantages offered by the camera modality. This work proposes an instance-level fusion transformer for visual collaborative perception (IFTR), which enhances the detection performance of camera-only collaborative perception systems through the communication and sharing of visual features. To capture the visual information from multiple agents, we design an instance feature aggregation that interacts with the visual features of individual agents using predefined grid-shaped bird eye view (BEV) queries, generating more comprehensive and accurate BEV features. Additionally, we devise a cross-domain query adaptation as a heuristic to fuse 2D priors, implicitly encoding the candidate positions of targets. Furthermore, IFTR optimizes communication efficiency by sending instance-level features, achieving an optimal performance-bandwidth trade-off. We evaluate the proposed IFTR on a real dataset, DAIR-V2X, and two simulated datasets, OPV2V and V2XSet, achieving performance improvements of 57.96%, 9.23% and 12.99% in AP@70 metrics compared to the previous SOTAs, respectively. Extensive experiments demonstrate the superiority of IFTR and the effectiveness of its key components. The code is available at https://github.com/wangsh0111/IFTR. -
DiffClass: Diffusion-Based Class Incremental Learning
Zichong Meng, Jie Zhang, Changdi Yang, Zheng Zhan, Pu Zhao, Yanzhi WangDas Kapitel "DiffClass: Diffusion-Based Class Incremental Learning" widmet sich der Herausforderung des katastrophalen Vergessens in Deep-Learning-Modellen, bei denen die Modelle das zuvor Gelernte vergessen, wenn neue Aufgaben eingeführt werden. Es führt einen neuartigen beispielfreien Ansatz des kontinuierlichen Lernens (CIL) ein, der Diffusionsmodelle zur Synthese früherer Daten verwendet, um Datenschutz- und Legalitätsprobleme im Zusammenhang mit der Speicherung realer Daten abzumildern. Die Methode umfasst Techniken des Multidistribution Matching (MDM), um Diffusionsmodelle zu verfeinern und die Domänenlücken zwischen synthetischen und realen Daten zu verringern. Zusätzlich wird eine selektive synthetische Bildvergrößerung (SSIA) eingesetzt, um die Datenverteilung und Trainingseffizienz zu verbessern. Der vorgeschlagene Ansatz formuliert CIL als aufgabenagnostisches, bereichsübergreifendes Anpassungsproblem um, das es dem Modell ermöglicht, reale und synthetische Daten besser zu unterscheiden. Umfangreiche Experimente mit CIFAR100 und ImageNet100 zeigen die Effektivität der Methode und übertreffen modernste Techniken mit signifikanten Verbesserungen sowohl bei der durchschnittlichen als auch bei der Endgenauigkeit. Ablationsstudien bestätigen die Beiträge der einzelnen Komponenten der Methode weiter. Das Kapitel schließt mit der Hervorhebung der Errungenschaften der Methode und der Diskussion potenzieller zukünftiger Maßnahmen zur Steigerung der Trainingseffizienz.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractClass Incremental Learning (CIL) is challenging due to catastrophic forgetting. On top of that, exemplar-free CIL is even more challenging due to forbidden access to data of previous tasks. Recent exemplar-free CIL methods attempt to mitigate catastrophic forgetting by synthesizing previous task data. However, they fail to overcome the catastrophic forgetting due to the inability to deal with the significant domain gap between real and synthetic data. To overcome these issues, we propose a novel exemplar-free CIL method. Our method adopts multi-distribution matching (MDM) diffusion models to align quality of synthetic data and bridge domain gaps among all domains of training data. Moreover, our approach integrates selective synthetic image augmentation (SSIA) to expand the distribution of the training data, thereby improving the model’s plasticity and reinforcing the performance of our multi-domain adaptation (MDA) technique. With the proposed integrations, our method then reformulates exemplar-free CIL into a multi-domain adaptation problem to implicitly address the domain gap problem and enhance model stability during incremental training. Extensive experiments on benchmark CIL datasets and settings demonstrate that our method excels previous exemplar-free CIL methods with non-marginal improvements and achieves state-of-the-art performance. Our project page is available at https://cr8br0ze.github.io/DiffClass. -
Convex Relaxations for Manifold-Valued Markov Random Fields with Approximation Guarantees
Robin Kenis, Emanuel Laude, Panagiotis PatrinosDieses Kapitel stellt einen konvexen Entspannungsansatz für Optimierungsprobleme vor, bei denen vielfältig bewertete Variablen und grafische Kopplungsstrukturen zum Einsatz kommen. Sie adressiert die Herausforderung der nichtkonvexen und nichtglatten Optimierung, indem sie das Problem unter Verwendung einer lokalen marginalen Polytopie-Entspannung (LMP-Relaxation) neu formuliert. Die LMP-Entspannung hat sich in der Praxis als wirksam erwiesen, obwohl sie nur eine niedrigere Grenze zur globalen Marginalpolytopie (GMP) -Entspannung aufweist. Die Autoren entwickeln eine Hierarchie implementierbarer dualer Programme mittels polynomialer Subraumdiskretisierung, die Konvergenzgarantien sowohl für polynomale als auch für geodätische Kopplungsbedingungen nachweist. Der Ansatz wird auf vielfältige bildgebende Probleme angewendet und stellt eine Graphenoptimierung dar, was seine praktische Effektivität und theoretische Solidität demonstriert. Das Kapitel schließt mit einer Diskussion zukünftiger Arbeit und potenzieller Verbesserungen bei der Lösung großer Probleme.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractWhile neural network models have garnered significant attention in the imaging community, their application remains limited in important settings where optimality certificates are required or in the absence of extensive datasets. In such cases, classical models like (continuous) Markov Random Fields (MRFs) remain preferable. However, the associated optimization problem is nonconvex, and therefore very challenging to solve globally. This difficulty is further exacerbated in the case of nonconvex state spaces, such as the unit sphere. To address this, we propose a convex Semidefinite Programming (SDP) relaxation to provide lower bounds for these optimization challenges. Our relaxation provably approximates a certain infinite-dimensional convex lifting in measure spaces. Notably, our approach furnishes a certificate of (near) optimality when the relaxation (closely) approximates the unlifted problem. Our experiments show that our relaxation outperforms popular linear relaxations for many interesting problems. -
Instant 3D Human Avatar Generation Using Image Diffusion Models
Nikos Kolotouros, Thiemo Alldieck, Enric Corona, Eduard Gabriel Bazavan, Cristian SminchisescuDas Kapitel stellt AvatarPopUp vor, eine bahnbrechende Methode zur sofortigen Generierung manipulierter 3D-Avatare. Diese Methode nutzt multimodale Steuerelemente, einschließlich Text, Bilder und Daten zur Haltung und Form des Menschen, um detaillierte und vielfältige 3D-Assets zu erstellen. Durch die Entkopplung der probabilistischen Text-Bild-Erzeugung und der 3D-Hebestufen nutzt AvatarPopUp die Möglichkeiten vorausgebildeter Text-Bild-Netzwerke und kleiner 3D-Datensätze, um qualitativ hochwertige Rekonstruktionen zu erstellen. Die Methode ermöglicht eine schnelle und interaktive 3D-Generierung, modernste 3D-Einzelbild-Rekonstruktion und kreative Bearbeitungsaufgaben wie das virtuelle Anprobieren von 3D. Das Kapitel hebt auch die Fähigkeit der Methode hervor, mehrere qualitativ unterschiedliche Hypothesen zu generieren, und unterstützt die Animation der generierten Vermögenswerte. Die vorgeschlagene Entkopplungsstrategie maximiert die Nutzung verfügbarer Datenquellen und gewährleistet eine hohe Diversität der Erzeugung und präzise Kontrolle auf Grundlage von Text- und Identitätsspezifikationen.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractWe present AvatarPopUp, a method for fast, high quality 3D human avatar generation from different input modalities, such as images and text prompts and with control over the generated pose and shape. The common theme is the use of diffusion-based image generation networks that are specialized for each particular task, followed by a 3D lifting network. We purposefully decouple the generation from the 3D modeling which allow us to leverage powerful image synthesis priors, trained on billions of text-image pairs. We fine-tune latent diffusion networks with additional image conditioning for image generation and back-view prediction, and to support qualitatively different multiple 3D hypotheses. Our partial fine-tuning approach allows to adapt the networks for each task without inducing catastrophic forgetting. In our experiments, we demonstrate that our method produces accurate, high-quality 3D avatars with diverse appearance that respect the multimodal text, image, and body control signals. Our approach can produce a 3D model in as few as 2 s, a four orders of magnitude speedup w.r.t. the vast majority of existing methods, most of which solve only a subset of our tasks, and with fewer controls. AvatarPopUp enables applications that require the controlled 3D generation of human avatars at scale. The project website can be found at https://www.nikoskolot.com/avatarpopup/. -
PromptFusion: Decoupling Stability and Plasticity for Continual Learning
Haoran Chen, Zuxuan Wu, Xintong Han, Menglin Jia, Yu-Gang JiangDas Kapitel "PromptFusion: Decoupling Stability and Plasticity for Continual Learning" befasst sich mit der Herausforderung, neuronale Netzwerke auf dynamische, sequenzielle Weise zu trainieren, bei der Daten kontinuierlich ankommen. Die Autoren stellen PromptFusion vor, ein Framework, das zwei unabhängige Module - Stabilizer und Booster - verwendet, um Stabilität und Plastizität getrennt zu behandeln. Der Stabilisator, der mit CoOp instanziiert wurde, ist robust gegenüber klasseninternen Variationen, wodurch er sich für komplexe Datensätze eignet, während der Booster, der auf VPT basiert, sich durch einfache Datensätze auszeichnet. In diesem Kapitel wird auch PromptFusion-Lite vorgestellt, eine rechnerisch effiziente Version, die für jede Eingabe adaptiv das passende Modul auswählt und so den Rechenaufwand deutlich reduziert. Umfangreiche Experimente zeigen, dass PromptFusion und PromptFusion-Lite sowohl klasseninkrementelle als auch domäneninkrementelle Lernbenchmarks auf dem neuesten Stand der Technik erzielen. Der neuartige Ansatz der Entkoppelung von Stabilität und Plastizität, zusammen mit dem adaptiven Selektionsmechanismus, macht dieses Kapitel zu einem wertvollen Beitrag auf dem Gebiet des kontinuierlichen Lernens.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractCurrent research on continual learning mainly focuses on relieving catastrophic forgetting, and most of their success is at the cost of limiting the performance of newly incoming tasks. Such a trade-off is referred to as the stability-plasticity dilemma and is a more general and challenging problem for continual learning. However, the inherent conflict between these two concepts makes it seemingly impossible to devise a satisfactory solution to both of them simultaneously. Therefore, we ask, “is it possible to divide them into two separate problems to conquer them independently?”. To this end, we propose a prompt-tuning-based method termed PromptFusion to enable the decoupling of stability and plasticity. Specifically, PromptFusion consists of a carefully designed Stabilizer module that deals with catastrophic forgetting and a Booster module to learn new knowledge concurrently. Furthermore, to address the computational overhead brought by the additional architecture, we propose PromptFusion-Lite which improves PromptFusion by dynamically determining whether to activate both modules for each input image. Extensive experiments show that both PromptFusion and PromptFusion-Lite achieve promising results on popular continual learning datasets for class-incremental and domain-incremental settings. Especially on Split-Imagenet-R, one of the most challenging datasets for class-incremental learning, our method can exceed state-of-the-art prompt-based methods by more than 5% in accuracy, with PromptFusion-Lite using 14.8% less computational resources than PromptFusion. Code is available at https://github.com/HaoranChen/PromptFusion. -
Improving Geo-Diversity of Generated Images with Contextualized Vendi Score Guidance
Reyhane Askari Hemmat, Melissa Hall, Alicia Sun, Candace Ross, Michal Drozdzal, Adriana Romero-SorianoIn diesem Kapitel wird Contextualized Vendi Score Guidance (c-VSG) vorgestellt, eine Methode, um die geografische Diversität von Bildern zu erhöhen, die durch latente Diffusionsmodelle erzeugt werden. Der Ansatz verwendet die Vendi-Score-Metrik, um den Diffusionsprozess in Richtung vielfältigerer Proben zu lenken, und verwendet Beispielbilder, um den Realismus zu wahren. Die Autoren präsentieren umfangreiche Experimente zu zwei geografisch unterschiedlichen Datensätzen, die zeigen, dass c-VSG die Diversitäts- und Qualitätskennzahlen signifikant verbessert. Die Methode verringert auch Unterschiede in der Repräsentation zwischen den Regionen, was sie zu einem wertvollen Beitrag auf dem Gebiet des Computersehens und generativer Modelle macht.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractWith the growing popularity of text-to-image generative models, there has been increasing focus on understanding their risks and biases. Recent work has found that state-of-the-art models struggle to depict everyday objects with the true diversity of the real world and have notable gaps between geographic regions. In this work, we aim to increase the diversity of generated images of common objects such that per-region variations are representative of the real world. We introduce an inference-time intervention, contextualized Vendi Score Guidance (c-VSG), that guides the backwards steps of latent diffusion models to increase the diversity of a sample as compared to a “memory bank” of previously generated images while constraining the amount of variation within that of an exemplar set of real-world contextualizing images. We evaluate c-VSG with two geographically representative datasets and find that it substantially increases the diversity of generated images, both for the worst-performing regions and on average, while simultaneously maintaining or improving image quality and consistency. Additionally, qualitative analyses reveal that diversity of generated images is significantly improved, including along the lines of reductive region portrayals present in the original model. We hope that this work is a step towards text-to-image generative models that reflect the true geographic diversity of the world (https://github.com/facebookresearch/Contextualized-Vendi-Score-Guidance). -
Adapting to Shifting Correlations with Unlabeled Data Calibration
Minh Nguyen, Alan Q. Wang, Heejong Kim, Mert R. SabuncuDas Kapitel untersucht die Herausforderungen realer Daten, die von der i.i.d. abweichen. Annahme, was zu signifikanten Abweichungen in den Korrelationen zwischen Variablen zwischen verschiedenen Standorten führt. Stiftungsmodelle sind zwar effektiv bei der Verallgemeinerung out-of-the-box, haben aber aufgrund von Unterschieden in der Datenverteilung mit medizinischer Bildgebung zu kämpfen. Die Autoren schlagen GPA vor, eine adaptive Methode, die unbeschriftete Daten nutzt, um stabile und sich verändernde Verteilungen abzuschätzen, was es Modellen ermöglicht, über Standorte hinweg besser zu verallgemeinern. In Experimenten mit synthetischen und realen Datensätzen schneidet GPA besser ab als andere Baselines und zeigt damit sein Potenzial, instabile Eigenschaften sicher auszunutzen und die Leistung sowohl in als auch außerhalb der Domäne zu verbessern.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractDistribution shifts between sites can seriously degrade model performance since models are prone to exploiting unstable correlations. Thus, many methods try to find features that are stable across sites and discard unstable features. However, unstable features might have complementary information that, if used appropriately, could increase accuracy. More recent methods try to adapt to unstable features at the new sites to achieve higher accuracy. However, they make unrealistic assumptions or fail to scale to multiple confounding features. We propose Generalized Prevalence Adjustment (GPA for short), a flexible method that adjusts model predictions to the shifting correlations between prediction target and confounders to safely exploit unstable features. GPA can infer the interaction between target and confounders in new sites using unlabeled samples from those sites. We evaluate GPA on several real and synthetic datasets, and show that it outperforms competitive baselines. -
Masked Generative Video-to-Audio Transformers with Enhanced Synchronicity
Santiago Pascual, Chunghsin Yeh, Ioannis Tsiamas, Joan SerràIn diesem Kapitel wird MaskVAT vorgestellt, ein transformatorbasiertes Modell, das entwickelt wurde, um hochwertiges Full-Band-Audio aus Videoeingängen zu erzeugen. Es befasst sich mit den Herausforderungen der zeitlichen Synchronisierung und Audioqualität bei der Erzeugung von Video-Audio-Dateien. Durch die Nutzung eines hochmodernen neuronalen Audio-Codecs und eines maskierten generativen Transformer-Ansatzes stellt MaskVAT eine starke Ausrichtung zwischen dem generierten Audio und den visuellen Inhalten sicher. Das Modell wird durch objektive Metriken und subjektive Tests bewertet, die im Vergleich zu bestehenden Methoden eine überlegene Leistung in Audioqualität, semantischem Abgleich und zeitlicher Ausrichtung zeigen. Das Kapitel behandelt auch den Trainingsaufbau, den Abtastungsprozess und eine Strategie zur Auswahl nach dem Abtasten, um die Qualität und Vielfalt des erzeugten Audios zu verbessern.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractVideo-to-audio (V2A) generation leverages visual-only video features to render plausible sounds that match the scene. Importantly, the generated sound onsets should match the visual actions that are aligned with them, otherwise unnatural synchronization artifacts arise. Recent works have explored the progression of conditioning sound generators on still images and then video features, focusing on quality and semantic matching while ignoring synchronization, or by sacrificing some amount of quality to focus on improving synchronization only. In this work, we propose a V2A generative model, named MaskVAT, that interconnects a full-band high-quality general audio codec with a sequence-to-sequence masked generative model. This combination allows modeling high audio quality, semantic matching, and temporal synchronicity at the same time. Our results show that, by combining a high-quality codec with the proper pre-trained audio-visual features and a sequence-to-sequence parallel structure, we are able to yield highly synchronized results on one hand, whilst being competitive with the state of the art of non-codec generative audio models. Sample videos and generated audios are available at https://maskvat.github.io/. -
Information Bottleneck Based Data Correction in Continual Learning
Shuai Chen, Mingyi Zhang, Junge Zhang, Kaiqi HuangDas Kapitel untersucht die Grenzen moderner Deep-Learning-Algorithmen, wenn es darum geht, Wissen aus früheren Aufgaben im kontinuierlichen Lernen zu behalten, insbesondere das Problem des katastrophalen Vergessens. Er geht auf den Ansatz der Erfahrungswiedergabe als vielversprechende Lösung ein und beleuchtet die Herausforderungen der Stichprobenauswahl und die Voreingenommenheit, die durch nicht erfasste Daten hervorgerufen wird. Der vorgeschlagene Algorithmus zur Korrektur von Datenengpässen, IBCL, mildert diese Probleme ab, indem er aufgabenagnostische Merkmale fördert und ungesampelte Dateninformationen modelliert. Dieser innovative Ansatz verbessert die Fähigkeit des Modells, altes Wissen zu bewahren und gleichzeitig neue Aufgaben zu erlernen, und stellt einen bedeutenden Fortschritt im Bereich des kontinuierlichen Lernens dar.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractContinual Learning (CL) requires model to retain previously learned knowledge while learning new tasks. Recently, experience replay-based methods have made significant progress in addressing this challenge. These methods primarily select data from old tasks and store them in a buffer. When learning new task, they train the model using both the current and buffered data. However, the limited number of old data can lead to the model being influenced by new tasks. The repeated replaying of buffer data and the gradual discarding of old task data (unsampled data) also result in a biased estimation of the model towards the old tasks, causing overfitting issues. All these factors can affect the CL performance. Therefore, we propose a data correction algorithm based on the Information Bottleneck (IBCL) to enhance the performance of the replay-based CL system. This algorithm comprises two components: the Information Bottleneck Task Agnostic Constraints (IBTA), which encourages the buffer data to learn task-relevant features related to the old tasks, thereby reducing the impact of new tasks. The Information Bottleneck Unsampled Data Surrogate (IBDS), which models the information of the unsampled data in the old tasks to alleviate data bias. Our method can be flexibly combined with most existing experience replay methods. We have verified the effectiveness of our method through a series of experiments, demonstrating its potential for improving the performance of CL algorithms. -
On Spectral Properties of Gradient-Based Explanation Methods
Amir Mehrpanah, Erik Englesson, Hossein AzizpourDas Kapitel vertieft sich in die spektralen Eigenschaften gradientenbasierter Erklärungsmethoden im maschinellen Lernen und betont die Notwendigkeit formaler Analysen, um Zuverlässigkeit zu gewährleisten. Sie führt ein Rahmenwerk für die probabilistische Darstellung und Spektralanalyse ein und offenbart eine gemeinsame spektrale Voreingenommenheit, die zu Widersprüchen in den Erklärungen führt. Die Autoren schlagen zwei Lösungen vor: die Bestimmung einer optimalen Störungsskala auf Grundlage kosmischer Ähnlichkeit und die Aggregation von Erklärungen mit einer Spektrallinse. Diese Lösungen zielen darauf ab, die Inkonsistenzen abzumildern und die Robustheit der Erklärungsmethoden zu verbessern. Das Kapitel schließt mit einer Bewertung der vorgeschlagenen Methoden, die ihre Wirksamkeit aufzeigt und mögliche Wege für zukünftige Forschung aufzeigt.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractUnderstanding the behavior of deep networks is crucial to increase our confidence in their results. Despite an extensive body of work for explaining their predictions, researchers have faced reliability issues, which can be attributed to insufficient formalism. In our research, we adopt novel probabilistic and spectral perspectives to formally analyze explanation methods. Our study reveals a pervasive spectral bias stemming from the use of gradient, and sheds light on some common design choices that have been discovered experimentally, in particular, the use of squared gradient and input perturbation. We further characterize how the choice of perturbation hyperparameters in explanation methods, such as SmoothGrad, can lead to inconsistent explanations and introduce two remedies based on our proposed formalism: (i) a mechanism to determine a standard perturbation scale, and (ii) an aggregation method which we call SpectralLens. Finally, we substantiate our theoretical results through quantitative evaluations. -
Contextual Correspondence Matters: Bidirectional Graph Matching for Video Summarization
Yunzuo Zhang, Yameng LiuDas Kapitel geht der Herausforderung der Zusammenfassung von Videos im Zeitalter digitaler Medien nach, wo das exponentielle Wachstum von Videoinhalten innovative Lösungen erfordert. Traditionelle Methoden stützen sich auf niedrige visuelle oder audiovisuelle Funktionen, die bei der Erfassung komplexer kontextbezogener Informationen weniger effektiv sind. Das vorgeschlagene Bgm4Video-Rahmenwerk geht darauf ein, indem es einen bidirektionalen Graph-Matching-Ansatz anwendet, um sowohl grobkörnige als auch feinkörnige Kontextinformationen zu modellieren. Diese Methode, die Selbstaufmerksamkeit und zeitliche Faltung kombiniert, ermöglicht ein umfassendes Verständnis der Handlung des Videos, indem sie kontextualisierte Darstellungen verfeinert. Das Kapitel hebt umfangreiche Experimente hervor, die die überlegene Leistung des Frameworks auf Standarddatensätzen demonstrieren und sowohl bei F-Score- als auch bei rangbasierten Bewertungen modernste Methoden übertreffen.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractVideo summarization plays a vital role in improving video browsing efficiency and has various applications in action recognition and information retrieval. In order to generate summaries that can provide key information, existing works have been proposed to simultaneously explore the contribution of both long-range and short-range temporal cues. However, they rarely consider the potential correspondence between temporal cues at different granularity within video sequences, making it insufficient to ensure detailed video understanding. In order to solve this issue, we propose a novel video summarization framework, namely Bgm4Video, based on the graph-matching mechanism, which models the potential contextualized relationship across multi-granularity temporal cues. The proposed framework is composed of two dominant components including (i) a temporal encoder (TE) that explores both coarse-grained and fine-grained contextual information within videos and (ii) a bidirectional graph transmission (BGT) module that models the interrelationship across multi-granularity temporal cues. By grasping the contextual correspondence, our method allows for further refining temporal representations to precisely pinpoint valuable segments. We demonstrate the advantage of our components through an extensive ablation study. We also evaluate our full approach on the video summarization task and demonstrate improvements over state-of-the-art on the popular benchmarks. -
OV-Mapping: Online Open-Vocabulary Mapping with Neural Implicit Representation
Muer Tie, Julong Wei, Ke Wu, Zhengjun Wang, Shanshuai Yuan, Kaizhao Zhang, Jie Jia, Jieru Zhao, Zhongxue Gan, Wenchao DingDas Kapitel stellt O2V-Mapping vor, eine bahnbrechende Methode für das Online-Mapping offener Vokabeln unter Verwendung neuronaler impliziter Repräsentation. Es ermöglicht Robotern, Szenen in Echtzeit mit hoher semantischer Genauigkeit zu verstehen und zu rekonstruieren. Durch die Nutzung von CLIP-Einbettungen und voxelbasierten neuronalen Feldern erreicht O2V-Mapping klare Objektgrenzen und konsistente semantische Informationen und überwindet die Herausforderungen hierarchischer Semantik und räumlicher Mehrdeutigkeit. Die Methode integriert außerdem einen Mechanismus zur Verschmelzung von Sprachmerkmalen und eine Strategie zur Mehrfachabstimmung, um die Robustheit und Genauigkeit semantischer Karten zu verbessern. Darüber hinaus wird in diesem Kapitel die Integration von O2V-Mapping mit einem großen Sprachmodell (Large Language Model, LLM) vorgestellt, um die Erdungskapazität von Roboteragenten zu verbessern und das Potenzial für fortgeschrittene Roboterplanung und -interaktion aufzuzeigen. Die Wirksamkeit der Methode wird durch umfangreiche Experimente bestätigt, die eine überlegene Leistung in realen Szenarien zeigen.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractOnline construction of open-ended language scenes is crucial for robotic applications, where open-vocabulary interactive scene understanding is required. Recently, neural implicit representation has provided a promising direction for online interactive mapping. However, implementing open-vocabulary scene understanding capability into online neural implicit mapping still faces three challenges: lack of local scene updating ability, blurry spatial hierarchical semantic segmentation and difficulty in maintaining multi-view consistency. To this end, we proposed O2V-mapping, which utilizes voxel-based language and geometric features to create an open-vocabulary field, thus allowing for local updates during online training process. Additionally, we leverage a foundational model for image segmentation to extract language features on object-level entities, achieving clear segmentation boundaries and hierarchical semantic features. For the purpose of preserving consistency in 3D object properties across different viewpoints, we propose a spatial adaptive voxel adjustment mechanism and a multi-view weight selection method. Extensive experiments on open-vocabulary object localization and semantic segmentation demonstrate that O2V-mapping achieves online construction of language scenes while enhancing accuracy, outperforming the previous SOTA method. -
Dataset Distillation by Automatic Training Trajectories
Dai Liu, Jindong Gu, Hu Cao, Carsten Trinitis, Martin SchulzDas Kapitel taucht in den Bereich der Datensatzdestillation ein und beleuchtet das Accumulated Mismatching Problem (AMP), das herkömmliche Methoden der Long-Range Matching Dataset Destillation (LDD) plagt. Es wird die automatische Trainingsmethode ATT (Automatic Training Trajectories) eingeführt, die dynamisch passende Objekte und Flugbahnlängen auswählt, um AMP abzumildern und so die Genauigkeit und Verallgemeinerung synthetischer Datensätze zu verbessern. Der Autor präsentiert empirische Ergebnisse, die ATT's überlegene Leistung über verschiedene Datensätze und Architekturen hinweg demonstrieren und sein Potenzial aufzeigen, die Destillationspraxis von Datensätzen zu revolutionieren.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractDataset Distillation is used to create a concise, yet informative, synthetic dataset that can replace the original dataset for training purposes. Some leading methods in this domain prioritize long-range matching, involving the unrolling of training trajectories with a fixed number of steps (\(N_{S}\)) on the synthetic dataset to align with various expert training trajectories. However, traditional long-range matching methods possess an overfitting-like problem, the fixed step size \(N_{S}\) forces synthetic dataset to distortedly conform seen expert training trajectories, resulting in a loss of generality—especially to those from unencountered architecture. We refer to this as the Accumulated Mismatching Problem (AMP), and propose a new approach, Automatic Training Trajectories (ATT), which dynamically and adaptively adjusts trajectory length \(N_{S}\) to address the AMP. Our method outperforms existing methods particularly in tests involving cross-architectures. Moreover, owing to its adaptive nature, it exhibits enhanced stability in the face of parameter variations. Our source code is publicly available at https://github.com/NiaLiu/ATT. -
FAFA: Frequency-Aware Flow-Aided Self-supervision for Underwater Object Pose Estimation
Jingyi Tang, Gu Wang, Zeyu Chen, Shengquan Li, Xiu Li, Xiangyang JiFAFA, ein zweistufiges Rahmenwerk zur selbstüberwachten Schätzung von Unterwasserobjekten, adressiert die Herausforderungen von Unterwasserumgebungen, indem es zunächst auf synthetischen Daten trainiert und dann das Netzwerk anhand unbeschrifteter Bilder aus der realen Welt verfeinert. Es führt eine frequenzbewusste Methode zur Datenvergrößerung ein, die domäneninvariantes Feature Learning und einen mehrstufigen Selbstüberwachungsansatz verbessert, der Angleichungen auf Bild- und Featurebene umfasst. Diese innovative Methode verbessert die Genauigkeit und Robustheit von Pose-Schätzungen erheblich und übertrifft die aktuellen Methoden in Unterwasserszenarien. Der Ansatz wird anhand zweier Benchmark-Datensätze bewertet, die seine überlegene Leistung und praktische Anwendbarkeit in realen Unterwasserumgebungen demonstrieren.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractAlthough methods for estimating the pose of objects in indoor scenes have achieved great success, the pose estimation of underwater objects remains challenging due to difficulties brought by the complex underwater environment, such as degraded illumination, blurring, and the substantial cost of obtaining real annotations. In response, we introduce FAFA, a Frequency-Aware Flow-Aided self-supervised framework for 6D pose estimation of unmanned underwater vehicles (UUVs). Essentially, we first train a frequency-aware flow-based pose estimator on synthetic data, where an FFT-based augmentation approach is proposed to facilitate the network in capturing domain-invariant features and target domain styles from a frequency perspective. Further, we perform self-supervised training by enforcing flow-aided multi-level consistencies to adapt it to the real-world underwater environment. Our framework relies solely on the 3D model and RGB images, alleviating the need for any real pose annotations or other-modality data like depths. We evaluate the effectiveness of FAFA on common underwater object pose benchmarks and showcase significant performance improvements compared to state-of-the-art methods. Code is available at github.com/tjy0703/FAFA. -
EMIE-MAP: Large-Scale Road Surface Reconstruction Based on Explicit Mesh and Implicit Encoding
Wenhua Wu, Qi Wang, Guangming Wang, Junping Wang, Tiankun Zhao, Yang Liu, Dongchao Gao, Zhe Liu, Hesheng WangIn diesem Kapitel wird EMIE-MAP vorgestellt, eine bahnbrechende Methode für die großflächige Sanierung von Straßenoberflächen, die explizites Maschengewebe und implizite Kodierung integriert. Dieser Ansatz adressiert den wachsenden Bedarf an präzisen Straßensanierungen in Systemen für autonomes Fahren, insbesondere für die Wahrnehmung aus der Vogelperspektive (Bird's Eye View, BEV) und hochpräzise Kartierungen. EMIE-MAP kombiniert die Vorteile expliziter und impliziter Darstellungen, um Straßengeometrie, Farbe und semantische Informationen präzise zu erfassen. Es führt eine trajektorbasierte Höheninitialisierungsmethode und eine MLP-basierte Höhenrestvorhersage ein, um steile Hänge und Helligkeitsunterschiede zwischen Surround-View-Kameras zu bewältigen. Die Methode verwendet auch eine gemeinsame implizite Farbkodierung und eine Multi-Kamera-RGB-Dekodierung, um Szenenattribute und Kameraeigenschaften getrennt zu modellieren. Experimentelle Ergebnisse zeigen die überragende Leistung von EMIE-MAP in verschiedenen Straßenoberflächenszenarien, einschließlich Stadtstraßen, Nachtszenen und Rampen, und unterstreichen seine Robustheit und Genauigkeit im Vergleich zu bestehenden Methoden wie RoMe.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractRoad surface reconstruction plays a vital role in autonomous driving systems, enabling road lane perception and high-precision mapping. Recently, neural implicit encoding has achieved remarkable results in scene representation, particularly in the realistic rendering of scene textures. However, it faces challenges in directly representing geometric information for large-scale scenes. To address this, we propose EMIE-MAP, a novel method for large-scale road surface reconstruction based on explicit mesh and implicit encoding. The road geometry is represented using explicit mesh, where each vertex stores implicit encoding representing the color and semantic information. To overcome the difficulty in optimizing road elevation, we introduce a trajectory-based elevation initialization and an elevation residual learning method. Additionally, by employing shared implicit encoding and multi-camera color decoding, we achieve separate modeling of scene physical properties and camera characteristics, allowing surround-view reconstruction compatible with different camera models. Our method achieves remarkable road surface reconstruction performance in open source datasets and a variety of real-world challenging scenarios. -
UniIR: Training and Benchmarking Universal Multimodal Information Retrievers
Cong Wei, Yang Chen, Haonan Chen, Hexiang Hu, Ge Zhang, Jie Fu, Alan Ritter, Wenhu ChenIn diesem Kapitel werden die Beschränkungen aktueller multimodaler Informationsabrufsysteme (IR-Systeme) diskutiert, die oft eng gefasst sind und den unterschiedlichen Bedürfnissen der Nutzer nicht gerecht werden. Es stellt UniIR vor, ein Rahmenwerk, das darauf ausgelegt ist, universelle multimodale Informationsretriever auszubilden, die in der Lage sind, verschiedene Abrufaufgaben zu bewältigen. Die Autoren stellen verschiedene Fusionsmechanismen zur Integration multimodaler Daten vor und stellen M-BEIR vor, einen Benchmark, der 10 verschiedene Datensätze und 1,5 Millionen Abfragen umfasst. Das Kapitel hebt die signifikanten Verbesserungen hervor, die durch UniIR-Modelle erreicht wurden, insbesondere bei intermodalen Retrievalaufgaben, und demonstriert ihre Fähigkeit, auf unsichtbare Datensätze zu verallgemeinern. Darüber hinaus werden die Vorteile von Instruktionstuning bei der Leistungssteigerung des Modells und sein Potenzial für zukünftige Weiterentwicklungen im Bereich der multimodalen IR aufgezeigt.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractExisting information retrieval (IR) models often assume a homogeneous format, limiting their applicability to diverse user needs, such as searching for images with text descriptions, searching for a news article with a headline image, or finding a similar photo with a query image. To approach such different information-seeking demands, we introduce UniIR, a unified instruction-guided multimodal retriever capable of handling eight distinct retrieval tasks across modalities. UniIR, a single retrieval system jointly trained on ten diverse multimodal-IR datasets, interprets user instructions to execute various retrieval tasks, demonstrating robust performance across existing datasets and zero-shot generalization to new tasks. Our experiments highlight that multi-task training and instruction tuning are keys to UniIR’s generalization ability. Additionally, we construct the M-BEIR, a multimodal retrieval benchmark with comprehensive results, to standardize the evaluation of universal multimodal information retrieval. -
SSL-Cleanse: Trojan Detection and Mitigation in Self-Supervised Learning
Mengxin Zheng, Jiaqi Xue, Zihao Wang, Xun Chen, Qian Lou, Lei Jiang, Xiaofeng WangSSL-Cleanse ist eine bahnbrechende Methode zur Erkennung und Eindämmung von Trojaner-Angriffen in selbstüberwachten Lernprogrammen (SSL-Encodern). Die Methode konzentriert sich auf trainingsagnostische Angriffe durch die Hintertür, die aufgrund ihres verdeckten Charakters und ihrer breiten Reichweite eine besondere Herausforderung darstellen. SSL-Cleanse besteht aus zwei Hauptkomponenten: dem Detektor, der das Vorhandensein von Trojanern erkennt, und dem Mitigator, der die Trigger rückgängig macht und entfernt. Der Detektor verwendet einen Sliding Window Kneedle-Algorithmus zur Ermittlung der Clusteranzahl und eine repräsentationsorientierte Trigger-Reverse-Methode zur Generierung von Triggermustern. Der Mitigator verwendet eine selbstüberwachte Clustering Unlearning-Strategie, um den Encoder zu reinigen. Umfangreiche Experimente mit Benchmark-Datensätzen zeigen die Wirksamkeit von SSL-Cleanse, erreichen eine hohe Erkennungsgenauigkeit und reduzieren die Angriffserfolgsraten deutlich. Die vorgeschlagene Methode ist ein bedeutender Fortschritt im Bereich der SSL-Sicherheit und bietet eine robuste Lösung zum Schutz vor bösartigen Backdoor-Angriffen.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractSelf-supervised learning (SSL) is a prevalent approach for encoding data representations. Using a pre-trained SSL image encoder and subsequently training a downstream classifier, impressive performance can be achieved on various tasks with very little labeled data. The growing adoption of SSL has led to an increase in security research on SSL encoders and associated Trojan attacks. Trojan attacks embedded in SSL encoders can operate covertly, spreading across multiple users and devices. The presence of backdoor behavior in Trojaned encoders can inadvertently be inherited by downstream classifiers, making it even more difficult to detect and mitigate the threat. Although current Trojan detection methods in supervised learning can potentially safeguard SSL downstream classifiers, identifying and addressing triggers in the SSL encoder before its widespread dissemination is a challenging task. This challenge arises because downstream tasks might be unknown, dataset labels may be unavailable, and the original unlabeled training dataset might be inaccessible during Trojan detection in SSL encoders. We introduce SSL-Cleanse as a solution to identify and mitigate backdoor threats in SSL encoders. We evaluated SSL-Cleanse on various datasets using 1200 encoders, achieving an average detection success rate of \(82.2\%\) on ImageNet-100. After mitigating backdoors, on average, backdoored encoders achieve \(0.3\%\) attack success rate without great accuracy loss, proving the effectiveness of SSL-Cleanse. The source code of SSL-Cleanse is available at https://github.com/UCF-ML-Research/SSL-Cleanse. -
Skews in the Phenomenon Space Hinder Generalization in Text-to-Image Generation
Yingshan Chang, Yasi Zhang, Zhiyuan Fang, Ying Nian Wu, Yonatan Bisk, Feng GaoDas Kapitel befasst sich mit der Komplexität der Text-Bild-Erzeugung, insbesondere mit dem Kampf der Modelle, räumliche Beziehungen präzise zu erlernen und zu verallgemeinern. Es stellt ein konzeptionelles Rahmenwerk vor, das den Erzeugungsprozess in drei Komponenten unterteilt: einen Textencodierer, einen visuellen Decoder und einen Kommunikationskanal. Die Autoren schlagen statistische Kennzahlen vor, um die Vollständigkeit und Ausgewogenheit der Verteilung der Trainingsdaten zu quantifizieren, und argumentieren, dass diese Faktoren die Fähigkeit des Modells zur Verallgemeinerung erheblich beeinflussen. Experimentelle Ergebnisse sowohl an synthetischen als auch an natürlichen Bildern zeigen die starke Vorhersagekraft dieser Messgrößen und unterstreichen die Bedeutung ausgewogener und vollständiger Trainingsdaten für eine erfolgreiche Text-Bild-Erzeugung. Das Kapitel diskutiert auch die Beschränkungen aktueller Bewertungsmethoden und schlägt zukünftige Wege zur Verbesserung der Verallgemeinerung räumlicher Beziehungen in generierten Bildern vor.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractThe literature on text-to-image generation is plagued by issues of faithfully composing entities with relations. But there lacks a formal understanding of how entity-relation compositions can be effectively learned. Moreover, the underlying phenomenon space that meaningfully reflects the problem structure is not well-defined, leading to an arms race for larger quantities of data in the hope that generalization emerges out of large-scale pretraining. We hypothesize that the underlying phenomenological coverage has not been proportionally scaled up, leading to a skew of the presented phenomenon which harms generalization. We introduce statistical metrics that quantify both the linguistic and visual skew of a dataset for relational learning, and show that generalization failures of text-to-image generation are a direct result of incomplete or unbalanced phenomenological coverage. We first perform experiments in a synthetic domain and demonstrate that systematically controlled metrics are strongly predictive of generalization performance. Then we move to natural images and show that simple distribution perturbations in light of our theories boost generalization without enlarging the absolute data size. This work informs an important direction towards quality-enhancing the data diversity or balance orthogonal to scaling up the absolute size. Our discussions point out important open questions on 1) Evaluation of generated entity-relation compositions, and 2) Better models for reasoning with abstract relations. -
Bones Can’t Be Triangles: Accurate and Efficient Vertebrae Keypoint Estimation Through Collaborative Error Revision
Jinhee Kim, Taesung Kim, Jaegul ChooIn diesem Kapitel wird KeyBot vorgestellt, eine neuartige Methode zur Verbesserung der Genauigkeit der Schlüsselpunkteinschätzung von Wirbeln anhand von Röntgenbildern. KeyBot erkennt und korrigiert vor dem Eingreifen des Benutzers selbstständig spezifische Fehler, wie Scheitelpunkte, Knochen-Fehlidentifikation und Links-Rechts-Umkehrung. Diese automatisierte Rückkopplungsschleife reduziert den Bedarf an manuellen Korrekturen erheblich, steigert die Effizienz des Workflows und verbessert die Gesamtgenauigkeit der Schlüsselpunkteinschätzung. Die Methode wird auf synthetischen Daten trainiert, die häufige Fehlertypen repräsentieren, und integriert einen Detektor und einen Korrektor, um Fehler zu erkennen bzw. zu korrigieren. Umfangreiche Experimente mit drei öffentlichen Datensätzen zeigen die überlegene Leistung von KeyBot, reduzieren mittlere radiale Fehler und die Anzahl der Klicks, die für präzise Anmerkungen erforderlich sind. Die kollaborative Rückkopplungsschleife zwischen KeyBot, dem Anwender und dem Interaktionsmodell kombiniert medizinische Expertenerkenntnisse mit gezielter Fehlerkorrektur und führt zu einer allgemeinen Verbesserung der Genauigkeit der Schlüsselpunkteinschätzung.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractRecent advances in interactive keypoint estimation methods have enhanced accuracy while minimizing user intervention. However, these methods require user input for error correction, which can be costly in vertebrae keypoint estimation where inaccurate keypoints are densely clustered or overlap. We introduce a novel approach, KeyBot, specifically designed to identify and correct significant and typical errors in existing models, akin to user revision. By characterizing typical error types and using simulated errors for training, KeyBot effectively corrects these errors and significantly reduces user workload. Comprehensive quantitative and qualitative evaluations on three public datasets confirm that KeyBot significantly outperforms existing methods, achieving state-of-the-art performance in interactive vertebrae keypoint estimation. The source code and demo video are available on our project page. -
LatentSplat: Autoencoding Variational Gaussians for Fast Generalizable 3D Reconstruction
Christopher Wewer, Kevin Raj, Eddy Ilg, Bernt Schiele, Jan Eric LenssenIm Kapitel "LatentSplat: Autoencoding Variational Gaussians for Fast Generalizable 3D Reconstruction" wird eine neue Methode zur 3D-Rekonstruktion aus zwei Referenzansichten vorgestellt, die Variationsmerkmale von Gaussern verwendet. Die Methode mit dem Namen LatentSplat kombiniert die Stärken regressionsbasierter und generativer Ansätze, um Unsicherheit explizit zu modellieren und eine qualitativ hochwertige neuartige Blicksynthese zu erzielen. Es führt variierende 3D-Gaußsche ein, um die Szene als eine Reihe semantischer 3D-Gaußscher darzustellen, die das Szenenbild über angeschlossene, ansichtsabhängige Feature-Vektoren beschreiben. Die Methode ist an realen Videodaten geschult und zeigt eine überlegene Leistung in Bezug auf visuelle Qualität und Rechenleistung. Das Kapitel enthält eine detaillierte Beschreibung der Methode, einschließlich der Encoder- und Decoder-Architektur, Ausbildungsdetails und experimenteller Ergebnisse. Außerdem werden die Grenzen der Methode und mögliche zukünftige Arbeiten diskutiert. Das Kapitel richtet sich an Spezialisten mit einem ausgeprägten Hintergrund in den Bereichen Computer Vision und maschinelles Lernen und bietet wertvolle Einblicke in den Stand der 3D-Rekonstruktion.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractWe present latentSplat, a method to predict semantic Gaussians in a 3D latent space that can be splatted and decoded by a light-weight generative 2D architecture. Existing methods for generalizable 3D reconstruction either do not scale to large scenes and resolutions, or are limited to interpolation of close input views. latentSplat combines the strengths of regression-based and generative approaches while being trained purely on readily available real video data. The core of our method are variational 3D Gaussians, a representation that efficiently encodes varying uncertainty within a latent space consisting of 3D feature Gaussians. From these Gaussians, specific instances can be sampled and rendered via efficient splatting and a fast, generative decoder. We show that latentSplat outperforms previous works in reconstruction quality and generalization, while being fast and scalable to high-resolution data. -
Backmatter
- Titel
- Computer Vision – ECCV 2024
- Herausgegeben von
-
Aleš Leonardis
Elisa Ricci
Stefan Roth
Olga Russakovsky
Torsten Sattler
Gül Varol
- Copyright-Jahr
- 2025
- Verlag
- Springer Nature Switzerland
- Electronic ISBN
- 978-3-031-73021-4
- Print ISBN
- 978-3-031-73020-7
- DOI
- https://doi.org/10.1007/978-3-031-73021-4
Informationen zur Barrierefreiheit für dieses Buch folgen in Kürze. Wir arbeiten daran, sie so schnell wie möglich verfügbar zu machen. Vielen Dank für Ihre Geduld.