Computer Vision and Robotics
Proceedings of CVR 2025, Volume 2
- 2026
- Buch
- Herausgegeben von
- Harish Sharma
- Abhishek Bhatt
- Chirag Modi
- Andries Engelbrecht
- Buchreihe
- Lecture Notes in Networks and Systems
- Verlag
- Springer Nature Switzerland
Über dieses Buch
Über dieses Buch
This book consists of a collection of the high-quality research articles in the field of computer vision and robotics which are presented at the International Conference on Computer Vision and Robotics (CVR 2025), organized by National Institute of Technology, Goa, India, during 25–26 April 2025. The book discusses applications of computer vision and robotics in the fields like medical science, defence, and smart city planning. The book presents recent works from researchers, academicians, industry, and policy makers.
Inhaltsverzeichnis
-
FocusNet: A Pathogenetically Oriented Deep Learning Framework for Enhanced Diagnostics and Treatment of Fundus Pathologies
R. Bhuvanya, A. Saravanan, V. Vanitha, K. P. Koushik, S. Heblin Bersilla, R. Bharani RajanDieses Kapitel stellt FocusNet vor, ein pathogenetisch orientiertes Deep-Learning-Rahmenwerk zur Verbesserung der Diagnose und Behandlung von Netzhauterkrankungen. Die Studie untersucht die Integration von DenseNet169 mit pixelweisen Aufmerksamkeitsmechanismen, die die Präzision der Klassifizierung von Erkrankungen wie diabetischer Retinopathie, Glaukom und Grauer Star signifikant verbessern. Die Studie evaluiert verschiedene Deep-Learning-Modelle, einschließlich der Varianten ResNet und MobileNet, und zeigt, dass FocusNet die höchste Klassifizierungsgenauigkeit erreicht. Die Studie diskutiert auch die Bedeutung von Aufmerksamkeitsmechanismen in der medizinischen Bildgebung und hebt deren Fähigkeit hervor, sich auf relevante Regionen innerhalb von Netzhautbildern zu konzentrieren. Zusätzlich bietet das Kapitel einen detaillierten Vergleich von Leistungskennzahlen wie Genauigkeit, Präzision, Recall und F1-Score zwischen verschiedenen Modellen. Die Ergebnisse deuten darauf hin, dass FocusNet einen vielversprechenden Ansatz zur Verbesserung der Früherkennung und Behandlung von Netzhauterkrankungen bietet, von dem letztlich die Patienten profitieren.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractOne of the biggest health issues across the globe is eye diseases causing irreversible vision loss or blindness. Vision loss can be prevented by early and accurate diagnosis with proper treatment. This paper investigates three distinct models: MobileNet, ResNet, and DenseNet, along with their respective variants (MobileNet V1, V2, ResNet-50, ResNet-101, DenseNet-121, and DenseNet-169). Additionally, a pixel-wise attention mechanism is integrated with all the selected models. According to the experimental results, all the models incorporated with attention mechanism yielded good results. The findings of our study demonstrate that FocusNet based on DenseNet169 architecture with an attention mechanism, achieved the highest accuracy of 95%, followed by DenseNet 121 with 93%, MobileNet v2 with 91% ResNet 101 with 73%, and ResNet 50 lagged with accuracy of 51%. These findings highlight the effectiveness of attention mechanism with deep learning models for reliable eye disease classification. Also this study underscores the potential of attention driven deep learning framework in diagnosing ophthalmic diseases. -
Optimizing Tomato Disease Classification Using Deep Learning Ensemble Approach with Color Opponency Space
Gurpreet Singh, Sandeep SharmaDieses Kapitel untersucht die Optimierung der Klassifizierung von Tomatenerkrankungen mithilfe eines tief lernenden Ensembleansatzes kombiniert mit dem Color Opponency Space (COS). Die Studie konzentriert sich auf die Herausforderungen durch Tomatenkrankheiten, die Notwendigkeit automatisierter Klassifizierungstechniken und die Integration von COS zur verbesserten Extraktion von Merkmalen. Die Forschung nutzt den Datensatz Plant Village, der Bilder verschiedener Tomatenkrankheiten enthält, und verwendet Inception v3, DenseNet121 und ResNet50-Modelle mit und ohne COS-Vorverarbeitung. Die Lernstrategien des Ensembles, einschließlich weicher Stimmabgabe und gewichteter Stimmabgabe, werden eingesetzt, um die Klassifizierungsleistung zu verbessern. Die vorgeschlagene Methode erreicht eine herausragende Genauigkeit von 97,74% und übertrifft damit bestehende Ansätze. Das Kapitel diskutiert auch die Grenzen der vorgeschlagenen Methode und schlägt zukünftige Forschungsrichtungen vor, wie die Einbeziehung von Aufmerksamkeitsmechanismen oder transformatorbasierten Modellen zur weiteren Verbesserung. Die Ergebnisse unterstreichen das Potenzial des tiefen Lernens und des gemeinsamen Lernens in der Präzisionslandwirtschaft für die Erkennung von Krankheiten in Echtzeit und nachhaltiges Pflanzenmanagement.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractOne of the most significant crops grown in India is the tomato. Many deep learning models have found widespread application in the precise categorization of various tomato diseases. The deep learning plant pathology models are based on the popular convolutional neural network architectures such as Inception v3, DenseNet121, and ResNet50. This paper aims to improve the prediction accuracy of these three neural networks by using them with the global color constancy approach known as color opponency space (COS), employing hue, saturation, and value. Furthermore, these three models are applied in combination approaches using ensemble learning techniques such as soft voting and weighted voting to find the best-performing combination in terms of accuracy. Inception v3 with COS, DenseNet121 without COS, and ResNet50 with COS are the recommended configurations. This combination achieves 97.74% accuracy, which is higher than any other combination of these three models. This approach demonstrates the potential of hybrid ensemble-CNN frameworks in elevating plant disease classification accuracy for real-world agricultural applications. -
CNN-Autoencoder with Linear Regression-Based Image Analyzer for Detection of Defects in SQ59 Armatures
Suraj Sunil Joshi, Devarshi Anil Mahajan, Atharva Deshmukh, Mukta Dinesh Deore, Pooja Mishra, Piyush JadhavDieses Kapitel untersucht eine innovative Methode zur Erkennung von Defekten in SQ59-Armaturen, mit besonderem Schwerpunkt auf Delldefekten in Kommutatorplatten. Die Autoren stellen einen neuartigen Ansatz vor, der CNN-basierte Featureextraktion mit Autoencodern kombiniert und die Herausforderungen durch Bewegungsunschärfe und Beleuchtungsunregelmäßigkeiten in Produktionsumgebungen angeht. Die Studie vertieft sich in die Architektur der vorgeschlagenen Methode und beschreibt die Merkmalsextraktionsschicht, die Autoencoderschicht und die Bildanalyseschicht. Darin wird die Verwendung linearer Regression für die Klassifizierung hervorgehoben und die erreichten Leistungskennzahlen diskutiert, einschließlich einer Formel-1-Messgröße von 80,01%. Das Kapitel bietet auch eine umfassende Analyse der Leistung des Autoencoders und vergleicht sie mit anderen Methoden, wodurch wertvolle Erkenntnisse für Fachleute auf diesem Gebiet gewonnen werden können. Die Ergebnisse zeigen die Effektivität der vorgeschlagenen Methode bei der Erkennung von Mängeln, was sie zu einem bedeutenden Beitrag im Bereich der Qualitätskontrolle in der Fertigung macht.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractDuring the production of armatures, many types of defects in its structure arise, making effective quality assurance techniques necessary. We have proposed a CNN-Autoencoder with linear regression-based image analyzer for detecting defective armatures using a dataset of over 500 images. CNN was used for feature extraction and reducing data dimensions. An autoencoder will detect anomalies using the perfect armature pieces segregating the defective ones. Lastly, a linear regression layer has been developed for classification based on intra-variations in the image distribution. The features for the regression model were generated using various statistical techniques in which the intra-image variation and distribution was considered. The F1-score achieved was 80.01%. -
Project Management with Tamper-Proof Evaluation System Using Blockchain and Secured Storage
S. Sudharsana Saravanan, C. Swetha, S. Shravanthi, S. R. Sarvanthikha, U. Gayathri, N. HariniDieses Kapitel geht auf die entscheidende Notwendigkeit transparenter und fairer Bewertungssysteme für die Mitarbeiterleistung ein und hebt die nachteiligen Auswirkungen traditioneller Bewertungsmethoden auf das Wohlbefinden am Arbeitsplatz hervor. Es führt eine Blockchain-basierte Lösung ein, die IPFS für eine sichere und unveränderliche Datenspeicherung nutzt und so die Integrität und Authentizität von Bewertungsprotokollen gewährleistet. Der Text untersucht die Integration automatisierter Bewertungstools wie MOSS und Diffchecker, die die Genauigkeit und Effizienz von Leistungsbewertungen verbessern. Darüber hinaus werden die Auswirkungen solcher Systeme auf die Zufriedenheit der Mitarbeiter, die Produktivität und die Unternehmenskultur diskutiert. Das Kapitel schließt mit einem Vergleich traditioneller Bewertungsmethoden mit dem vorgeschlagenen Blockchain-basierten System, der deutliche Verbesserungen bei Transparenz, Sicherheit und Skalierbarkeit aufzeigt. Durch die Umsetzung dieser Lösung können Organisationen ein gerechteres und unterstützenderes Arbeitsumfeld fördern und letztlich sowohl den individuellen als auch den organisatorischen Erfolg vorantreiben.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractIn the prevalent project management systems, the employee’s performance evaluation is a crucial component for preserving efficiency and growth. However, these systems often fail to provide precise, candid, and tamper-proof evaluations, which leads to wrongful analysis and irregularities. This paper proposes a blockchain-based tamper-proof evaluation system for project management, combined with protected storage using IPFS which will improve the credibility and safety of performance data. The system uses three key components through a private blockchain network for consistent data-recording, self-operating code evaluation tools including MOSS and Diffchecker for unbiased analysis, and IPFS-based decentralized storage for the data to be evaluated. This system focuses on improving data safety and is planned to reduce biased evaluation by 70–80% compared to traditional methods. It also includes a mechanism for managerial supervision which allows the managers to alter assessments in case the evaluation tool’s assessment has any error. Unlike the current systems, each and every modification is cryptographically signed, guaranteeing trackability while preventing unfairness. The blockchain layer is designed using a permissioned consensus mechanism, where only authenticated nodes participate in transaction validation and block propagation, ensuring robust access control and data integrity. Also, we use IPFS to access previous performance data while ensuring safety and independence from centered servers. To preserve authenticity, all the changes made by the manager are documented and forwarded to higher authorities for review. This regulated flexibility balances computerization with human judgement, ensuring fairness in performance assessment enhancing the impartiality of employee assessments. Moreover, the employees will get to be in a stress-free healthier environment and a more balanced workplace. -
Edge-Optimized Hybrid Framework for Image Super-Resolution Using Deep Learning and Fuzzy Logic
Ananya Vemula, Amit Kumar BairwaDieses Kapitel untersucht die Integration von Fuzzy Logic und Deep Learning, um ein neuartiges hybrides Rahmenwerk für Bild-Höchstauflösung zu schaffen. Der Text vertieft sich in die Methodik hinter verschwommener Logik und tiefem Lernen und hebt ihre individuellen Stärken und Grenzen hervor. Er präsentiert einen detaillierten Vergleich verschiedener Höchstauflösungstechniken, darunter SRCNN, ESRGAN und andere, und betont die Vorteile des vorgeschlagenen Hybridansatzes. Der Abschnitt zur Implementierung beschreibt, wie Fuzzy Logic die Kantenerhaltung, Robustheit gegenüber Rauschen und Anpassungsfähigkeit bei Aufgaben mit höchster Auflösung verbessert. Die Ergebnisse zeigen die Effektivität des hybriden Rahmenwerks und erzielen eine überlegene Wahrnehmungsqualität und quantitative Kennzahlen. Die Schlussfolgerung skizziert die möglichen Anwendungsmöglichkeiten dieses Rahmenwerks in den Bereichen medizinische Bildgebung, Fernerkundung und Überwachung, spricht aber auch die Nachteile an und schlägt Richtungen für zukünftige Forschung vor.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractImage super-resolution (SR) addresses critical needs in medical diagnostics and geo-spatial analysis by enhancing low-resolution imaging data. While deep learning methods like Enhanced Super-Resolution Generative Adversarial Networks (ESRGAN) achieve high visual quality through adversarial training, they exhibit limitations in preserving anatomically critical edges in MRI scans and topographic features in satellite imagery. This paper presents a novel three-stage architecture that combines the generative capabilities of ESRGANof ESRGAN with a fuzzy inference system for edge optimization.The framework demonstrates a 7.8% improvement in the peak signal-to-noise ratio and 12% higher edge preservation scores compared to baseline ESRGAN on the DIV2K benchmark. The hybrid approach enables an interpretable edge enhancement through 27 fuzzy rules that govern gradient map optimization, addressing key limitations of purely data-driven methods. -
Backmatter
- Titel
- Computer Vision and Robotics
- Herausgegeben von
-
Harish Sharma
Abhishek Bhatt
Chirag Modi
Andries Engelbrecht
- Copyright-Jahr
- 2026
- Verlag
- Springer Nature Switzerland
- Electronic ISBN
- 978-3-032-06253-6
- Print ISBN
- 978-3-032-06252-9
- DOI
- https://doi.org/10.1007/978-3-032-06253-6
Die PDF-Dateien dieses Buches wurden gemäß dem PDF/UA-1-Standard erstellt, um die Barrierefreiheit zu verbessern. Dazu gehören Bildschirmlesegeräte, beschriebene nicht-textuelle Inhalte (Bilder, Grafiken), Lesezeichen für eine einfache Navigation, tastaturfreundliche Links und Formulare sowie durchsuchbarer und auswählbarer Text. Wir sind uns der Bedeutung von Barrierefreiheit bewusst und freuen uns über Anfragen zur Barrierefreiheit unserer Produkte. Bei Fragen oder Bedarf an Barrierefreiheit kontaktieren Sie uns bitte unter accessibilitysupport@springernature.com.