Bildverarbeitung für die Medizin 2026
Proceedings, German Conference on Medical Image Computing, Lübeck March 15 - 17, 2026
- 2026
- Buch
- Herausgegeben von
- Heinz Handels
- Katharina Breininger
- Thomas Deserno
- Andreas Maier
- Klaus Maier-Hein
- Christoph Palm
- Thomas Tolxdorff
- Buchreihe
- Informatik aktuell
- Verlag
- Springer Fachmedien Wiesbaden
Über dieses Buch
Die Konferenz "BVM – Bildverarbeitung für die Medizin" ist seit vielen Jahren als die nationale Plattform für den Austausch von Ideen und die Diskussion der neuesten Forschungsergebnisse im Bereich der Medizinischen Bildverarbeitung und der Künstlichen Intelligenz (KI) etabliert. Auch 2026 haben (junge) Wissenschaftler*innen, Industrie und Anwender*innen diesen Austausch vertieft. Die Beiträge dieses Bandes – die meisten davon in englischer Sprache – umfassen alle Bereiche der medizinischen Bildverarbeitung, insbesondere die Bildgebung und -akquisition, Segmentierung und Analyse, Registrierung, Visualisierung und Animation, computerunterstützte Diagnose sowie bildgestützte Therapieplanung und Therapie. Hierbei kommen Methoden des maschinellen Lernens, der biomechanischen Modellierung sowie der Validierung und Qualitätssicherung zum Einsatz.
Die Kapitel "Label, Refine, Repeat: Extending nnInteractive with Dataset Traversal and nnU-Net Proposals", "AI-based Automated Framework for Quantitative PET/CT Image Analysis", "Anatomy-informed 3D Reconstruction of Tracked Ultrasound Sweeps: A Proof of Concept" sind unter einer Creative Commons Attribution 4.0 International License über link.springer.com frei verfügbar (Open Access).
Inhaltsverzeichnis
-
Frontmatter
-
Interpretable Mediastinal Lymph Node Station Classification and N-staging on CT and PET/CT Images
Sofija Engelson, Jan Ehrhardt, Yannic Elser, Malte M. Sieren, Julia Andresen, Stefanie Schierholz, Tobias Keck, Daniel Drömann, Jörg Barkhausen, Heinz HandelsIn diesem Fachbeitrag wird ein innovativer Ansatz zur automatisierten Klassifizierung von Lymphknotenstationen (LNS) und N-Staging auf CT- und PET/CT-Bildern vorgestellt. Die Methode erweitert zwei etablierte Segmentierungsalgorithmen durch probabilistisches Atlas-basiertes LNS-Mapping, was die Erkennungsgenauigkeit um über 40 Prozentpunkte verbessert. Die vorgeschlagene Methode erreicht eine Genauigkeit von 0,74 für die LNS-Klassifizierung und 0,68 für das N-Staging auf PET/CT, was eine signifikante Verbesserung gegenüber der Baseline-Methode darstellt. Die Studie zeigt, dass die PET-Scan-Informationen wertvolle Zusatzinformationen für die Lymphknotenbewertung liefern, was mit der Literatur übereinstimmt. Der Beitrag diskutiert auch die Herausforderungen und Grenzen der Methode, insbesondere bei der Bewertung von CT-Bildern ohne PET-Scan. Die vorgeschlagene Pipeline bietet eine interpretierbare und vollständig automatisierte Lösung für das N-Staging, die als Entscheidungshilfe für Radiologen dienen kann. Die Ergebnisse zeigen, dass die Methode das Potenzial hat, die Genauigkeit und Effizienz der Lymphknotenbewertung in der klinischen Praxis zu verbessern.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractWe present an interpretable approach for automated lymph node station (LNS) classification and N-staging on PET/CT and CT only by extending two established segmentation algorithms with probabilistic atlas-based LNS mapping. Our results show that a probabilistic approach for LNS mapping improves the detection accuracy by over 40 percentage points. The proposed method yields an accuracy of 0.74 for LNS classification and 0.68 for N-staging on PET/CT, representing a significant improvement toward human-level performance compared with the baseline approach. A performance drop for CT only evaluation indicates the PET scan adds valuable information to lymph node assessment, which is in alignment with according literature. -
Breast MRI Evaluation with Weakly-informed Slice-level Explanation
BE-WISE Adarsh Bhandary Panambur, Tri-Thien Nguyen, Siming Bayer, Andreas MaierIn diesem Fachbeitrag wird die Methode BE-WISE vorgestellt, die eine transformer-basierte Architektur nutzt, um Brust-MRI-Bilder zu klassifizieren und Läsionen zu lokalisieren. Die Methode lernt aus minimaler Radiologen-Eingabe und kombiniert Brustebenen-Diagnose mit Schichtebenen-Läsionslokalisierung. Dies ermöglicht eine präzisere und interpretierbare Diagnose, was besonders für die Erkennung von Brustkrebs von Bedeutung ist. Die Studie zeigt, dass BE-WISE im Vergleich zu bestehenden Methoden eine höhere diagnostische Leistung erzielt, insbesondere durch die Integration von dynamischen Kontrastverstärkungs-MRI-Sequenzen und die Nutzung von schwacher Überwachung. Die Ergebnisse deuten darauf hin, dass BE-WISE eine vielversprechende Methode für die Verbesserung der Brustkrebsdiagnostik ist und potenziell in der klinischen Praxis eingesetzt werden könnte. Zudem wird die Möglichkeit der human-in-the-loop-Refinements diskutiert, die eine kontinuierliche Verbesserung der Diagnosegenauigkeit ermöglicht.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractBreast MRI provides superior soft-tissue contrast and lesion conspicuity compared to mammography but its large-scale deployment is hampered by the need for fine-grained annotations. We propose BE-WISE, a transformer-based framework for interpretable breast MRI classification that jointly learns breast-level diagnosis and slice-level lesion localization from minimal radiologist input. The approach integrates a Swin transformer backbone into an attention-based multiple-instance learning scheme and optimizes a unified Gaussian-based objective that couples global and local supervision. On the multicenter ODELIA Breast MRI dataset, BE-WISE with focal loss attains a test AUC of 0.8683 and an Odelia score of 0.7098, improving over the medical slice transformer baseline by more than 7% in AUC and 14% in odelia score. Slice-wise prediction profiles align with expert-indicated lesion slices, supporting the interpretability of the model. These findings indicate that weak, slice-level expert guidance can substantially enhance diagnostic performance and enable human-in-the-loop AI for breast MRI. -
Abstract: Investigation of Class Separability within Object Detection Models in Histopathology
Jonas Ammeling, Jonathan Ganz, Frauke Wilm, Katharina Breininger, Marc AubrevilleIn diesem Fachbeitrag wird die Klassentrennbarkeit in Objekt-Erkennungsmodellen für die Histopathologie untersucht. Die Studie konzentriert sich auf die Analyse der Unterscheidungsfähigkeit in verschiedenen Schichten von Modellen, insbesondere in den Backbone-, Feature-Pyramid-Netzwerk- und Detektionskopfschichten. Zwei neue Metriken, der angepasste generalisierte Diskriminierungswert (aGDV) und der Hellinger-Distanz-basierte Diskriminierungswert (HDV), werden eingeführt, um die Trennung von Klassen in latenten Räumen zu bewerten. Die Studie zeigt, dass die Klassentrennbarkeit in frühen Backbone-Schichten bescheiden ist, durch tiefere Backbone- und FPN-Schichten zunimmt und in Detektionsköpfen ihren Höhepunkt erreicht. Die layerweisen HDV-Metriken unterscheiden zudem Domänen mit guter Generalisierung von solchen mit schwerer Domänenverschiebung und reflektieren klassenspezifische Verwirrung in Mehrklassen-Einstellungen. Die Ergebnisse bieten praktische Hinweise für Architektur- und Trainingsentscheidungen, indem sie aufzeigen, wo Diskriminierung gewonnen oder verloren geht, und den Einfluss von Multi-Domänen-Training, Farbverstärkung oder selbstüberwachtem Lernen untersuchen. Die Studie liefert wertvolle Einblicke in die Modellleistung unter Domänenverschiebungen und zeigt, wie sich die Unterscheidungsfähigkeit in verschiedenen Schichten entwickelt.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractObject detection is central to histopathological image analysis, yet standard metrics (e.g. AP, F1-score) reveal little about where and why models fail, especially under domain shifts across scanners, tissues, or laboratories. In this study [1], we propose a quantitative, non-invasive framework to assess and class separability directly in the latent spaces of dense, fully convolutional object detectors with local correspondences. By aggregating object-level activations into size-invariant descriptors and computing separability per layer, our method reveals how discrimination emerges, propagates, or collapses within backbone, feature pyramid network (FPN), and detection heads. We adapt two metrics: an adapted generalized discrimination value (aGDV), contrasting inter- vs. intra-class distances, and a hellinger distance-based discrimination value (HDV), quantifying distribution overlap via the Bhattacharyya coefficient with variance-based channel selection and adaptive binning. On three real world datasets covering mitotic figure detection and multi-class cell detection, separability is modest in early backbone layers, increases through deeper backbone and FPN, and peaks in detection heads aligned with the relevant object scale. Layerwise HDV further differentiates domains with good generalization from those with severe domain shift and reflects class-specific confusion in multi-class settings. The framework provides actionable guidance for architecture and training decisions, indicating where discrimination is gained or lost, the impact of multi-domain training, stain augmentation, or self-supervised learning. -
Self-supervised Dual-domain Swin Transformer for Sparse-view CT Reconstruction
DuDoSwin Bipin Yadav, Adarsh Raghunath, Franziska Weber, Andreas MaierIn diesem Fachbeitrag wird die Methode DuDoSwin vorgestellt, die auf selbstüberwachten Dual-Domain-Swin-Transformern basiert und speziell für die CT-Rekonstruktion mit wenigen Ansichten entwickelt wurde. Die Methode kombiniert Sinogramm-Winkel-Superauflösung und Bildbereichsverfeinerung, um die Bildqualität zu verbessern. Ein differenzierbarer FBP-Brückenoperator ermöglicht die End-to-End-Optimierung. Die Evaluierung auf der AAPM Low-Dose CT-Datensammlung zeigt, dass DuDoSwin im Vergleich zu bestehenden lernbasierten und interpolationsbasierten Methoden eine überlegene Rekonstruktionsqualität und perzeptuelle Treue erreicht. Die Methode ist besonders effektiv bei schwerer Winkel-Unterabtastung und verbessert quantitative Metriken wie PSNR, SSIM und LPIPS. Die Implementierung ist öffentlich verfügbar und bietet eine praktische Lösung für die Verbesserung der CT-Bildqualität bei reduzierter Strahlendosis.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractSparse-view computed tomography (CT) reconstruction suffers from streak artifacts and loss of fine detail after filtered back-projection (FBP). To alleviate these issues, we propose a self-supervised dual-domain swin transformer (DuDoSwin) that performs sinogram angular super-resolution and image-domain refinement, connected via a differentiable FBP bridge for end-to-end optimization. On the AAPM Low-Dose CT dataset, DuDoSwin achieves superior reconstruction quality and perceptual fidelity compared to existing learning-based and interpolation-based methods, improving quantitative (PSNR/SSIM/LPIPS) metrics under severe angular undersampling (4×, 8×, 16×). By jointly modeling projection and image domains, the proposed dual-domain design restores sharp anatomical structures and enhances perceptual quality, contributing to higher-quality low-dose CT reconstruction. The implementation is available at https://github.com/bipin-y-lab/DuDoSwin. -
How Predictable is the Human Body?
Predicting Organ Bounding Boxes With a Statistical Atlas Based on Four Keypoints Temke Kohlbrandt, Kai Geissler, Stefan HeldmannIn dieser Studie wird die Vorhersage von Organpositionen mithilfe eines statistischen Atlas basierend auf vier Schlüsselpunkten untersucht. Die Autoren vergleichen diese Methode mit einem linearen Regressionsmodell und evaluieren die Genauigkeit der Vorhersagen anhand von 10.828 Ganzkörper-MRT-Volumina. Die Ergebnisse zeigen, dass die statistische Atlas-Methode vergleichbare Ergebnisse liefert, jedoch flexibler an verschiedene analytische Szenarien anpassbar ist. Besonders hervorzuheben ist die Fähigkeit, die Größe der vorhergesagten Bounding Boxes zu kontrollieren, was die Strahlenbelastung bei CT-Untersuchungen reduzieren kann. Die Studie hebt auch die Herausforderungen bei der Vorhersage kleinerer und variabler Strukturen hervor und schlägt zukünftige Forschungsrichtungen vor, um die Robustheit und Allgemeingültigkeit des Modells zu verbessern.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractOptimizing patient positioning during CT and MRI examinations is crucial to enhance imaging efficiency and reduce radiation exposure. This study explores the accuracy of bounding box prediction for internal body structures gained from statistical atlases based on four key points in comparison to a regression model. Therefore, we utilized a dataset including 10 828 whole-body MR volumes and extracted corresponding segmentation masks. We evaluated how effectively these boxes encompass the target structures, considering also the size. Our method yields results comparable to the regression model. However, it offers the advantage of rapid adaptability to diverse research questions, making it more flexible for various analytical scenarios. -
Abstract: PrIINeR
Towards Prior-informed Implicit Neural Representations for Accelerated MRI Ziad Al-Haj Hemidi, Eytan Kats, Mattias P. HeinrichIn diesem Fachbeitrag wird die Methode PrIINeR vorgestellt, die Deep Learning und Implicit Neural Representations (INRs) kombiniert, um die Qualität von beschleunigten MRI-Scans zu verbessern. Die Autoren zeigen, dass herkömmliche Methoden wie Parallel Imaging und Compressed Sensing bei hoher Beschleunigung die Bildqualität beeinträchtigen, während Deep Learning-Methoden oft zu Glättung oder Halluzination von Merkmalen führen. PrIINeR integriert Population-Priors mit instanzspezifischer Optimierung, um diese Probleme zu lösen. Die Methode verwendet ein hash-grid-kodiertes implizites Netzwerk, das gemeinsam mit Coil-Sensitivitätskarten optimiert wird und durch ein duales Datenkonsistenzziel geleitet wird. Dies ermöglicht eine bessere Übereinstimmung mit den undersampled k-space-Daten und den prior-informierten Rekonstruktionen. Durch die Anwendung von Totalvariationsregularisierung werden Aliasing-Artefakte weiter reduziert, während scharfe Kanten erhalten bleiben. Die Ergebnisse zeigen, dass PrIINeR die Rekonstruktionsqualität signifikant verbessert, gemessen an SSIM und PSNR, und qualitativ bessere Artefaktunterdrückung und Erhaltung anatomischer Details bietet. Die Methode ist robust und flexibel und bietet eine vielversprechende Lösung für beschleunigte MRI.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractMagnetic resonance imaging (MRI) provides excellent diagnostic detail but suffers from long scan times. Accelerated imaging through undersampling reduces acquisition but introduces aliasing, while parallel imaging and compressed sensing degrade quality at higher acceleration. Deep learning methods trained on large datasets suppress artifacts effectively, yet often over-smooth or hallucinate features. Implicit neural representations (INRs), which optimize continuous image functions per-instance, preserve fine details but remain under-constrained, leaving residual artifacts.We propose PrIINeR (prior-informed implicit neural representation) [1], a framework that unites population-trained priors with INR optimization. PrIINeR employs a hash-grid encoded implicit network jointly optimized with coil sensitivity maps and guided by a dual data consistency objective, enforcing fidelity to both undersampled k-space and prior-informed reconstructions. Total variation regularization further suppresses aliasing while maintaining sharp edges.On the NYU fastMRI [2] knee dataset (4–10× undersampling), PrIINeR consistently improves reconstruction quality over both INR-only methods and population-trained priors of varying complexity. Gains in SSIM and PSNR are statistically significant (p < 0.05) across nearly all settings, while qualitative results confirm better artifact suppression and preservation of anatomical detail.By combining global priors with instance-specific fidelity, PrIINeR offers a robust, flexible approach to accelerated MRI. Code is publicly available at: https://github.com/multimodallearning/PrIINeR. -
Interpretable Framework for Zero-shot 4D Low-dose CT Denoising
Filter2Noise-4D Yipeng Sun, Linda-Sophie Schneider, Siyuan Mei, Chengze Ye, Mingxuan Gu, Fabian Wagner, Siming Bayer, Andreas MaierIn diesem Fachbeitrag wird das Filter2Noise-4D (F2N-4D) Framework vorgestellt, eine innovative Methode zur Rauschunterdrückung in 4D-CT-Bildern, die speziell für die Strahlentherapieplanung entwickelt wurde. Der Ansatz nutzt lernbare, inhaltsadaptive bilaterale Filter, die eine transparente und klinisch vertrauenswürdige Denoising-Methode ermöglichen. Durch die Nutzung von spatio-temporaler Information aus benachbarten Schichten und eine selbstüberwachte Trainingsstrategie erreicht F2N-4D eine hohe Performance bei minimalen Parametern. Der Beitrag diskutiert die Herausforderungen der Rauschunterdrückung in 4D-LDCT-Bildern und zeigt, wie F2N-4D diese durch eine Kombination aus mathematischer Transparenz und künstlicher Intelligenz überwindet. Die Ergebnisse demonstrieren die Überlegenheit von F2N-4D gegenüber herkömmlichen Methoden und unterstreichen dessen Potenzial für die Verbesserung der Strahlentherapieplanung und anderer bildgebender Anwendungen.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractFour-dimensional CT (4D-CT) tracks tumor motion throughout the breathing cycle for radiation therapy planning, but dose reduction per phase introduces spatio-temporal noise compromising tumor delineation. Existing learning-based denoising methods are either clinically impractical (requiring paired data) or lack interpretability (black-box networks). We present Filter2Noise-4D (F2N-4D), a zero-shot interpretable framework employing content-adaptive bilateral filtering that exploits spatio-temporal information from neighboring slices. Self-supervised training uses interpolation of neighboring slices to construct training pairs. With only 1.8k parameters, F2N-4D achieves competitive performance while maintaining transparency. -
Foundation Models in Medical Image Segmentation
How Foundational Are Foundation Models Really? David Lurz, Luisa Neubig, Markus Kopp, Andreas KistIn diesem Fachbeitrag wird die Leistungsfähigkeit verschiedener Foundation Models in der medizinischen Bildsegmentierung umfassend evaluiert. Die Autoren untersuchen, wie gut Modelle wie SAM2.1, SAM3, MedSAM2, SAM-Med2D, SAM-Med3D, nnInteractive und VISTA3D auf über 80 medizinischen Datensätzen abschneiden, die eine Vielzahl von Bildtypen und Segmentierungsaufgaben abdecken. Dabei wird herausgefunden, dass MedSAM2 als das vielseitigste Modell hervortritt, während SAM-Med3D und VISTA3D in 3D-CT-Segmentierungsaufgaben überzeugen, jedoch mehr Rechenleistung und Speicher erfordern. nnInteractive zeigt sich als schnelles Modell mit guter Segmentierungsleistung. Die Studie beleuchtet auch den Einfluss verschiedener Prompt-Typen und deren Qualität auf die Segmentierungsleistung, was neue Erkenntnisse für die Optimierung dieser Modelle liefert. Die Ergebnisse zeigen, dass Foundation Models in vielen medizinischen Segmentierungsaufgaben hervorragend abschneiden, jedoch bei komplexen oder kleinen Strukturen wie Gefäßen, Tumoren oder Nebennieren noch Herausforderungen bestehen. Der Beitrag bietet wertvolle Einblicke für Fachleute, die sich mit der Anwendung und Weiterentwicklung von Foundation Models in der medizinischen Bildverarbeitung beschäftigen.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractTask-constrained deep learning models have shown strong performance for medical image segmentation. Recently, generalist segmentation foundation models have emerged, showing promising results across different scenarios. However, we lack large-scale studies comparing the performance of 2D image, video, and volume segmentation across multiple models and modalities. To unmask how foundational the models truly are, we comprehensively evaluate the segmentation performance of SAM2.1, SAM3, MedSAM2, SAM-Med2D, SAM-Med3D, nnInteractive and VISTA3D on more than 80 medical datasets. MedSAM2stands out as the most foundational of all models, while SAM-Med3D and VISTA3D excel in 3D CT segmentation scenarios, but require noticeably more computational power and memory. nnInteractive seems to be a promising model, featuring very fast inference time and rather high segmentation performance. Our code and evaluation results are openly available at https://github.com/DavidL-11/med-seg-fm. -
Modular Pipeline for Rapidly Evaluating Foundation Models in Medical Imaging
EvalBlocks Jan Tagscherer, Sarah de Boer, Lena Philipp, Fennie van der Graaf, Dré Peeters, Joeran Bosma, Lars Leijten, Bogdan Obreja, Ewoud Smit, Alessa HeringIn diesem Fachbeitrag wird das Framework EvalBlocks vorgestellt, das speziell für die effiziente und reproduzierbare Evaluierung von Foundation Models in der medizinischen Bildgebung entwickelt wurde. Das Framework ermöglicht die Integration neuer Datensätze, Modelle und Bewertungsstrategien und unterstützt die parallele Ausführung von Experimenten auf Shared-Compute-Infrastrukturen. Die Autoren demonstrieren die Anwendung von EvalBlocks an fünf State-of-the-Art-Foundation-Modellen und drei medizinischen Bildgebungs-Klassifizierungsaufgaben. Dabei zeigen sie, wie das Framework die Evaluierung beschleunigt und die Reproduzierbarkeit der Ergebnisse sicherstellt. Ein weiterer Schwerpunkt liegt auf der Visualisierung der Ergebnisse, die eine tiefere Analyse der Feature-Embeddings ermöglicht. Durch die modulare Architektur und die Unterstützung von Caching und paralleler Ausführung reduziert EvalBlocks den Aufwand für die Evaluierung erheblich und ermöglicht es Forschern, sich auf die Verbesserung der Modelle zu konzentrieren. Die Ergebnisse zeigen, dass EvalBlocks eine wertvolle Ressource für die Entwicklung und Evaluierung von Foundation Models in der medizinischen Bildgebung darstellt.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractDeveloping foundation models in medical imaging requires continuous monitoring of downstream performance. Researchers are burdened with tracking numerous experiments, design choices, and their effects on performance, often relying on ad-hoc, manual workflows that are inherently slow and error-prone. We introduce EvalBlocks, a modular, plug-and-play framework for efficient evaluation of foundation models during development. Built on Snakemake, EvalBlocks supports seamless integration of new datasets, foundation models, aggregation methods, and evaluation strategies. All experiments and results are tracked centrally and are reproducible with a single command, while efficient caching and parallel execution enable scalable use on shared compute infrastructure. Demonstrated on five state-of-the-art foundation models and three medical imaging classification tasks, EvalBlocks streamlines model evaluation, enabling researchers to iterate faster and focus on model innovation rather than evaluation logistics. The framework is released as open source software at https://github.com/DIAGNijmegen/eval-blocks. -
Parameter-efficient Finetuning of Foundational Models for Text-guided X-ray Image Segmentation
Maeen Alikarrar, Christopher Syben, Joshua Scheuplein, Christian Hümmer, Ludwig Ritschl, Steffen Kappler, Andreas MaierIn diesem Fachbeitrag wird eine innovative Methode zur Segmentierung von Röntgenbildern vorgestellt, die auf textgesteuerten Grundmodellen basiert. Die Autoren zeigen, wie durch die Integration von textbasierten Anweisungen und Low-Rank-Adaption (LoRA) die Segmentierung von Röntgenbildern verbessert werden kann, ohne das gesamte Modell neu zu trainieren. Die Studie konzentriert sich auf die Herausforderungen der Röntgenbildsegmentierung, wie überlappende anatomische Strukturen und Projektionsambiguität, und bietet eine Lösung, die sowohl effizient als auch präzise ist. Durch die Verwendung von textbasierten Prompts können Anwender ohne tiefgehende anatomische Kenntnisse präzise Segmentierungen durchführen. Die Ergebnisse zeigen eine deutliche Verbesserung der Segmentierungsqualität im Vergleich zu herkömmlichen Methoden. Die Studie liefert wertvolle Einblicke in die Anwendung von Grundmodellen in der medizinischen Bildverarbeitung und zeigt, wie textbasierte Steuerung die Segmentierung von Röntgenbildern revolutionieren kann.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractRadiographic image segmentation presents unique challenges due to overlapping anatomical structures, projection ambiguity, and the scarcity of high-quality annotations. Recently, segmentation foundation models such as MedSAM have emerged as powerful tools for automated medical image analysis. Trained on large-scale and diverse image-mask pairs, MedSAM has achieved broad generalization across a wide range of medical image segmentation tasks. Despite this, its exposure to X-rays was primarily limited to chest radiographs annotated with lung masks, and the model relied on spatial prompts like bounding boxes, which are labor-intensive to draw precisely during inference and prone to ambiguity. To overcome these limitations, we propose a parameter-efficient adaptation of MedSAM designed for X-ray image segmentation. The approach integrates lightweight low-rank adaptation (LoRA) fine-tuning to enable efficient model updating while incorporating text-based conditioning to guide mask prediction. This design facilitates intuitive, non-expert human interaction without requiring precise geometric prompts. Evaluated on internal chest and lower-limb radiographic datasets, the model achieves a mean Dice (mDice) score of 92.42 and a mean intersection-over-union (mIoU) of 86.46 while unfreezing only a small fraction of parameters. These results demonstrate that parameter-efficient, language-conditioned adaptation offers an effective strategy for enhancing segmentation performance in projection-based medical imaging. -
Revealing Eye-dentity
Foundation Models Enable Re-identification from Retinal OCT Marc S. Seibel, Nele S. Brügge, Timo Kepp, Bennet Kahrs, Jan Ehrhardt, Heinz HandelsIn diesem Fachbeitrag wird die Fähigkeit von Foundation-Modellen untersucht, Individuen anhand von retinalen OCT-Scans (optische Kohärenztomographie) zu re-identifizieren. Die Studie evaluiert verschiedene Modelle, darunter generalistische und spezialisierte Foundation-Modelle, und analysiert deren Leistung bei der Extraktion biometrischer Merkmale aus OCT-Daten. Ein zentraler Fokus liegt auf der Untersuchung der Re-Identifikationsleistung sowohl innerhalb eines Geräts als auch zwischen verschiedenen OCT-Geräten. Die Ergebnisse zeigen, dass spezialisierte Modelle wie RETFound eine hohe Re-Identifikationsgenauigkeit erreichen, während generalistische Modelle nur leicht schlechter abschneiden. Die Studie hebt die potenziellen Risiken für die Privatsphäre hervor, insbesondere wenn OCT-Daten in der medizinischen Forschung und Praxis genutzt werden. Die Autoren diskutieren auch die Auswirkungen von Bildqualität und Geräteunterschieden auf die Re-Identifikationsleistung und schlagen Maßnahmen zur Verbesserung der Datensicherheit vor. Dieser Fachbeitrag bietet wertvolle Einblicke in die Herausforderungen und Möglichkeiten der Nutzung von OCT-Daten in der medizinischen Bildverarbeitung und KI-Forschung.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractFoundation models have become central to medical imaging research, yet subject re-identification implications remain unclear. In this work, we study whether optical coherence tomography (OCT)-derived B-scan features extracted using frozen generalist and specialist foundation models allow re-identification of subjects intra- and cross-device. A lightweight binary classifier was trained to predict whether two feature sets originate from the same individual. Results show that specialist models such as RETFound reach 78% re-identification accuracy (Rank-1) on high-resolution OCT data, while generalist models perform only slightly worse. Performance decreased substantially on the lower-resolution data and was near chance across devices. These findings suggest that general foundation models extract subject-related information, potentially entangled with recording device-related information. -
Quantifying Anatomical Bias in Coronary Segmentation
Why Your Model Prefers the LCA More Than the RCA Selina Baumgart, Nikolas Deubner, Andreas M. KistIn dieser Studie wird die Leistung von Deep-Learning-Modellen bei der Segmentierung von Koronararterien in Röntgenangiografien untersucht. Vier verschiedene U-Net-basierte Modelle wurden auf 599 Patienten mit zwölf häufig verwendeten Projektionwinkeln getestet. Die Ergebnisse zeigen, dass die Projektionwinkel einen größeren Einfluss auf die Segmentierungsqualität haben als der Arterientyp selbst. InceptionResNetV2 erzielte die höchsten Dice-Werte, während nnU-Net besser in der Erfassung von Kapillaren und Kathetern war. Die Studie hebt die Bedeutung der Berücksichtigung von Projektionwinkel-Diversität und segmentbezogener Bewertung in zukünftigen Benchmarks hervor, um eine klinisch zuverlässige Koronarsegmentierung zu gewährleisten. Die Analyse zeigt auch, dass distale Äste und Überlappungen von Gefäßen für alle Modelle eine Herausforderung darstellen. Die Studie bietet wertvolle Einblicke in die Optimierung von Deep-Learning-Modellen für die medizinische Bildverarbeitung und unterstreicht die Notwendigkeit einer differenzierten Bewertung von Modellleistungen unter verschiedenen anatomischen und bildgebenden Bedingungen.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractDeep learning-based segmentation of coronary arteries in X-ray angiography supports stenosis assessment via the Quantitative Flow Ratio. However, traditional metrics like the Dice coefficient neglect howimage acquisition parameters, particularly vessel type and projection angle, affect model accuracy. This study evaluated four U-Net-based models (vanilla U-Net, nnUNet, and U-Nets using MobileNetV2 or InceptionResNetV2 as encoders) on 599 patients covering twelve common projection angles. Results show that projection angles, including vessel overlap, have a stronger impact on segmentation quality than vessel type. InceptionResNetV2 achieved the highest overall Dice scores, while nnU-Net better captured capillaries and catheters. Distal branches remained challenging for all models. Our findings highlight the need to consider projection-angle diversity and segment-level evaluation in datasets and benchmarks to ensure clinically reliable coronary segmentation. -
Exploring Cross-dataset Transferability in Lung Nodule Segmentation via Weak Supervision and Synthetic Anomalies
Dominik Hirsch, Jan Ehrhardt, Heinz HandelsIn dieser Studie wird die Übertragbarkeit von Lungenknoten-Segmentierungsmodellen auf verschiedene Datensätze untersucht. Die Autoren schlagen eine schwach überwachte Methode vor, die Modellvorhersagen als Pseudo-Labels und synthetische Anomalien nutzt, um die Modellleistung ohne zusätzliche menschliche Annotationen zu verbessern. Die Studie zeigt, dass diese Methode die Leistung des TotalSegmentator-Modells auf dem LNDb-Datensatz verbessert, jedoch nicht an die Leistung von nachbearbeiteten TotalSegmentator-Masken heranreicht. Die Ergebnisse unterstreichen die Herausforderungen der Domänenverschiebung und die Notwendigkeit weiterer Verbesserungen in der synthetischen Anomalieerzeugung und der Rekonstruktionsnetzwerkleistung. Die Studie bietet wertvolle Einblicke in die Potenziale und Grenzen schwach überwachter Lernansätze in der medizinischen Bildverarbeitung.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractAccurate lung nodule segmentation is critical for reliable chest CT analysis, yet current models rely heavily on large-scale, manually annotated data and often struggle to generalize to unseen datasets. This study investigates whether the transferability of an existing segmentation model can be improved without additional human-labeled lesion masks. Building on the TotalSegmentator lung-nodule task, a weakly supervised framework is proposed in which model-generated predictions serve both as pseudo-labels and as sources of synthetic anomalies, which are blended into CT volumes via 3D Poisson blending. The approach employs a two-stage DRAEM-inspired architecture, combining a pre-trained reconstruction network that captures normal-appearance priors with a discriminative network trained to localize nodular anomalies. Evaluation on the LNDb dataset shows that the proposed model improves over raw TotalSegmentator predictions on multiple metrics, increasing the Dice score from 23.87 to 26.73. However, post-processed TotalSegmentator masks still achieve higher performance (Dice 32.25), and both approaches exhibit substantial performance degradation, underscoring the challenges posed by domain shift. These findings suggest that while weak supervision with synthetic anomalies can guide feature learning, matching the accuracy and robustness of fully supervised methods remains challenging. -
Abstract: LesionLocator
Zero-shot Universal Tumor Segmentation and Tracking in 3D Whole-body Imaging Maximilian Rokuss, Yannick Kirchhoff, Seval Akbal, Balint Kovacs, Saikat Roy, Constantin Ulrich, Tassilo Wald, Lukas T. Rotkopf, Heinz-Peter Schlemmer, Klaus Maier-HeinIn diesem Fachbeitrag wird LesionLocator vorgestellt, ein bahnbrechender Ansatz zur automatisierten Segmentierung und Verfolgung von Läsionen in 3D- und 4D-medizinischen Bilddaten. Die Autoren adressieren die Herausforderungen der Läsionssegmentierung und -verfolgung in der Onkologie, insbesondere die steigende Inzidenz von Krebs und die zunehmende Menge an Bilddaten. LesionLocator nutzt umfangreiche Vorabschulung und eine neue synthetische Datengenerierungstechnik, um die Knappheit von Mehrzeitpunkt-Datensätzen zu überwinden. Die Methode erreicht eine menschliche Leistungsfähigkeit in der universellen Läsionssegmentierung und übertrifft bestehende promptbare Modelle um nahezu 10 Dice-Punkte bei verschiedenen Tumorarten. Die autoregressive Maskenpropagation von LesionLocator erreicht eine Abrufrate von 86% und eine Dice-Genauigkeit von 79% bei der longitudinalen Verfolgung. Die Autoren stellen die erste Open-Access-Lösung für die promptbare Läsionsverfolgung bereit, einschließlich eines synthetischen 4D-Datensatzes und Modellgewichten. Dieser Fachbeitrag bietet wertvolle Einblicke in die neuesten Entwicklungen der medizinischen Bildverarbeitung und KI-Anwendungen in der Onkologie.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractAutomated lesion segmentation and tracking in longitudinal medical imaging remain critical challenges in oncology, particularly as cancer incidence and imaging volumes continue to rise. Current promptable segmentation models are predominantly designed for 2D or single-timepoint 3D data, neglecting the temporal dimension essential for disease monitoring. We present LesionLocator, the first end-to-end framework unifying zero-shot 3D lesion segmentation and 4D tracking across longitudinal medical images, originally published in the Proceedings of CVPR 2025 [1]. Our model leverages extensive pretraining and introduces a novel synthetic longitudinal data generation technique to address the scarcity of multi-timepoint datasets. LesionLocator achieves human-level performance in universal lesion segmentation, outperforming existing promptable models by nearly 10 Dice points across diverse tumor types. Our autoregressive mask propagation achieves 86% retrieval accuracy with 79% Dice for longitudinal tracking.We provide the first open-access solution for promptable lesion tracking, releasing both synthetic 4D dataset and model weights. -
Vision-language Models for Structured Report Generation in Radiology
Towards Consistent and Reliable Chest X-ray Reporting Md Badhon Miah, Lukas Buess, Andreas MaierIn diesem Fachbeitrag wird die Anwendung von Vision-language Modellen (VLMs) für die automatische Erstellung von strukturierten Röntgenberichten untersucht. Die Studie zeigt, dass strukturierte Berichte die Leistung von VLMs bei der medizinischen Bildinterpretation deutlich verbessern können. Durch die Einführung des SRRG-benchmark wird eine systematische Bewertung von LLMs für die Erstellung strukturierter Berichte ermöglicht. Zudem wird die Entwicklung einer neuen Metrik, RadFAA, vorgestellt, die die Zuverlässigkeit der Zuordnung von medizinischen Befunden zu anatomischen Systemen bewertet. Die Ergebnisse deuten darauf hin, dass strukturierte Berichte die klinische Genauigkeit und Zuverlässigkeit von KI-generierten Röntgenberichten erhöhen können. Die Studie liefert wertvolle Einblicke in die Verbesserung der medizinischen Bildinterpretation und die Reduzierung von Fehlern in der Berichterstattung.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractMedical report generation (MRG) aims to automatically generate reports from medical images, reducing the workload on radiologists. Research in this field is progressing rapidly with large pretrained vision-language models (VLMs), but most are trained on general image-text data and fail to capture critical medical findings. Effective chest X-ray (CXR) report generation requires fine-tuning on high-quality datasets, but inconsistent reporting styles remain a key challenge. The structured radiology report generation (SRRG) approach addresses this by using large language models (LLMs) to standardize and generate consistent structured reports. In this study, we introduce SRRG-benchmark to systematically evaluate state-of-the-art LLMs for converting free-text CXR reports into structured formsuitable for training VLMs. We primarily focus on assessing the medical image interpretation capabilities of VLMs across both structured and conventional free-text report generation tasks. Our results demonstrate that structured reporting improves VLMs’ medical image interpretation performance compared to free-text fine-tuning, increasing MedGemma’s clinical accuracy (GREEN) from 0.50 to 0.53 and RadGraph F1 from 0.27 to 0.38, with similar gains for Qwen3-VL. -
Abstract: Your other Left! Vision-language Models Fail to Understand Relative Positions in Medical Images
Daniel Wolf, Heiko Hillenhagen, Billurvan Taskin, Alex Bäuerle, Meinrad Beer, Michael Götz, Timo RopinskiIn diesem Fachbeitrag wird die Unfähigkeit von Vision-language models (VLMs) untersucht, relative Positionen in medizinischen Bildern korrekt zu identifizieren. Die Autoren zeigen, dass selbst fortgeschrittene Modelle wie GPT4o nur zufällig richtig liegen, was erhebliche Bedenken hinsichtlich ihrer Zuverlässigkeit in der klinischen Praxis aufwirft. Die Studie untersucht verschiedene Lösungsansätze, darunter die Verwendung von Segmentierungsmodellen zur Platzierung von Markern auf anatomischen Strukturen, die jedoch nur moderate Verbesserungen bringen. Eine tiefere Analyse reveals, dass VLMs oft auf memorisierte anatomische Kenntnisse zurückgreifen, anstatt die tatsächlichen Bilder zu analysieren. Dies führt zu fehlerhaften Antworten in Fällen wie situs inversus oder postoperativen Veränderungen. Die Autoren stellen MIRP vor, einen neuen Benchmark zur systematischen Testung von räumlichem Verständnis in medizinischen Bildern. Dieser Beitrag bietet wertvolle Einblicke in die Herausforderungen und potenziellen Lösungen für die Verbesserung von VLMs in der medizinischen Bildverarbeitung.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractImagine a radiology department where vision-language models (VLMs) assist with report generation. For such systems to be safe, they must accurately understand spatial relationships, a skill essential for radiologists, where mistakes have led to serious consequences, such as wrong-side surgeries. In our publication [1], we show that VLMs fail at this fundamental ability. Models were asked to identify the relative position of two anatomical structures in a CT slice. Even advanced VLMs, such as GPT4o, performed only at chance level, raising concerns about their reliability in clinical routine. How could they properly describe localizations in reports without this capability? We investigated potential solutions. Since segmentation models are already highly accurate, their outputs can be used to place markers on the anatomical structures. Prior work in computer vision shows that such markers can enhance spatial reasoning. While markers yielded moderate gains, accuracy remained far below results on natural images. A deeper analysis revealed the underlying cause. VLMs already possess strong prior anatomical knowledge. In other words, they “know” where organs are typically located in standard human anatomy. Instead of analyzing the actual CT image, they often fall back on this memorized knowledge when answering spatial questions. For example, if asked whether the liver is to the right of the stomach, a model may simply respond “yes” based on general anatomy, without inspecting the image at all. This shortcut is dangerous: in cases such as situs inversus, or post-surgical alterations, where organ positions deviate from the norm, the model will confidently give incorrect answers.We release MIRP, a benchmark designed to systematically test spatial reasoning. Details on https://wolfda95.github.io/your_other_left/. -
Abstract: Leveraging Open-source Language Models for Clinical Information Extraction
A Study in Resource-constrained Healthcare Settings Luc Builtjes, Joeran Bosma, Mathias Prokop, Bram van Ginneken, Alessa HeringIn dieser Studie wird die Nutzung von Open-source Sprachmodellen für die Extraktion klinischer Informationen in ressourcenarmen Gesundheitseinrichtungen untersucht. Die Autoren evaluieren neun multilinguale Modelle anhand des DRAGON 2024 Benchmarks, der 28 Aufgaben aus den Bereichen Klassifizierung, Regression und Named Entity Recognition umfasst. Dabei zeigt sich, dass die Modelle ohne Feinabstimmung wettbewerbsfähige Ergebnisse erzielen können. Besonders hervorzuheben ist die Entwicklung des llm-extractinator Frameworks, das die automatisierte Extraktion strukturierter Informationen ermöglicht. Die Studie betont die Bedeutung von native-sprachlicher Inference und zeigt, dass die Übersetzung von Eingaben in Englisch die Leistung der Modelle negativ beeinflusst. Die Ergebnisse bieten eine praktische und datenschutzfreundliche Lösung für die medizinische Informationsverarbeitung in ressourcenarmen Umgebungen.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractLarge language models (LLMs) have shown strong abilities in understanding and generating natural language, offering new opportunities for clinical text analysis. Most prior studies, however, rely on proprietary systems, raising concerns about data privacy and accessibility in healthcare. Open-source LLMs offer transparent, locally deployable, and privacy-preserving alternatives, yet their performance in low-resource languages and zero-shot medical information extraction remains underexplored. We evaluated modern open-source generative LLMs for extracting clinically relevant information from Dutch medical reports using the DRAGON 2024 benchmark. To enable this, we developed llm-extractinator [1], an open-source framework that automates structured information extraction via schema definition, dynamic prompt construction, local inference, and automatic validation. Nine multilingual models were evaluated on 28 DRAGON tasks spanning classification, regression, and named entity recognition in a strict zero-shot setup. Performance was measured using task-specific metrics (AUC, Cohen’s K, RSMAPE, F1) and aggregated into the DRAGON utility score. Llama-3.3-70B achieved the highest score (SDRAGON = 0.760), followed by Phi-4-14B (0.751), Qwen-2.5-14B (0.748), and DeepSeek-R1-14B (0.744). These models matched or exceeded a fine-tuned RoBERTa baseline on 17 of 28 tasks. Translating Dutch input to English reduced performance (ΔS = −0.11 to −0.25), emphasizing the importance of native-language inference. Our results show that open-source generative LLMs can achieve competitive performance without fine-tuning, providing a practical and privacy-preserving solution for clinical information extraction in resource-constrained settings. The llm-extractinator framework facilitates reproducible benchmarking and lowers the barrier for applying LLMs in local medical research environments.
- Titel
- Bildverarbeitung für die Medizin 2026
- Herausgegeben von
-
Heinz Handels
Katharina Breininger
Thomas Deserno
Andreas Maier
Klaus Maier-Hein
Christoph Palm
Thomas Tolxdorff
- Copyright-Jahr
- 2026
- Electronic ISBN
- 978-3-658-51100-5
- Print ISBN
- 978-3-658-51099-2
- DOI
- https://doi.org/10.1007/978-3-658-51100-5
Die PDF-Dateien dieses Buches entsprechen nicht vollständig den PDF/UA-Standards, bieten jedoch eingeschränkte Bildschirmleseunterstützung, beschriebene nicht-textuelle Inhalte (Bilder, Grafiken), Lesezeichen zur einfachen Navigation sowie durchsuchbaren und auswählbaren Text. Nutzer von unterstützenden Technologien können Schwierigkeiten bei der Navigation oder Interpretation der Inhalte in diesem Dokument haben. Wir sind uns der Bedeutung von Barrierefreiheit bewusst und freuen uns über Anfragen zur Barrierefreiheit unserer Produkte. Bei Fragen oder Bedarf an Barrierefreiheit kontaktieren Sie uns bitte unter accessibilitysupport@springernature.com