Zum Inhalt

Soft Computing for Visual Recognition Through Audio for the Visually Impaired

  • 2025
  • OriginalPaper
  • Buchkapitel
Erschienen in:

Aktivieren Sie unsere intelligente Suche, um passende Fachinhalte oder Patente zu finden.

search-config
loading …

Abstract

Dieses Kapitel befasst sich mit der Anwendung von Soft-Computing-Techniken zur visuellen Erkennung durch Audio zur Unterstützung sehbehinderter Menschen. Die Studie bewertet verschiedene Modelle des maschinellen Lernens, darunter Convolutional Neural Networks (CNNs) und Recurrent Neural Networks (RNNs), um die Mobilität und Unabhängigkeit von Menschen mit Sehbehinderungen zu verbessern. Die Forschung konzentriert sich auf die Verwendung von CNNs zur Feature-Extraktion und RNNs zur Erzeugung beschreibender Bildunterschriften, die dann in Audioausgabe umgewandelt werden. Die Studie vergleicht verschiedene CNN-Modelle wie VGG16, ResNet, InceptionNet, XceptionNet und MobileNet in Kombination mit GRU, einer Variante von RNN, um den effektivsten Ansatz zu ermitteln. Die Ergebnisse deuten darauf hin, dass das XceptionNet-GRU-Modell die höchste BLEU-Punktzahl von 0,86 erreichte, was seine überlegene Leistung bei der Erzeugung präziser und beschreibender Bildunterschriften beweist. In diesem Kapitel werden auch die praktischen Anwendungen dieser Modelle in realen Szenarien diskutiert und ihr Potenzial zur Verbesserung der Lebensqualität sehbehinderter Menschen hervorgehoben. Die Studie schließt mit Vorschlägen für zukünftige Untersuchungen, um die Fähigkeiten des Systems zu verbessern, wie etwa die Verwendung größerer Datensätze und Echtzeit-Bildbeschreibungen.

Sie sind noch kein Kunde? Dann Informieren Sie sich jetzt über unsere Lizenzmodelle:

Einzelzugang

Starten Sie jetzt Ihren persönlichen Einzelzugang. Erhalten Sie sofortigen Zugriff auf mehr als 170.000 Bücher und 540 Zeitschriften - pdf-Downloads und Neu-Erscheinungen inklusive.

Jetzt ab 54,00 € pro Monat!                                        

Mehr erfahren

Zugang für Unternehmen

Nutzen Sie Springer Professional in Ihrem Unternehmen und geben Sie Ihren Mitarbeitern fundiertes Fachwissen an die Hand. Fordern Sie jetzt Informationen für Firmenzugänge an.

Erleben Sie, wie Springer Professional Sie in Ihrer Arbeit unterstützt!

Beraten lassen
Titel
Soft Computing for Visual Recognition Through Audio for the Visually Impaired
Verfasst von
S. R. K. L. Amulya
Vishakha Singh
Tummalapalli Sandeep
Surya Sasidhar
Rita Roy
Copyright-Jahr
2025
DOI
https://doi.org/10.1007/978-3-031-51342-8_10
Dieser Inhalt ist nur sichtbar, wenn du eingeloggt bist und die entsprechende Berechtigung hast.
    Bildnachweise
    AvePoint Deutschland GmbH/© AvePoint Deutschland GmbH, NTT Data/© NTT Data, Wildix/© Wildix, arvato Systems GmbH/© arvato Systems GmbH, Ninox Software GmbH/© Ninox Software GmbH, Nagarro GmbH/© Nagarro GmbH, GWS mbH/© GWS mbH, CELONIS Labs GmbH, USU GmbH/© USU GmbH, G Data CyberDefense/© G Data CyberDefense, Vendosoft/© Vendosoft, Deutsche Telekom MMS GmbH/© Vendosoft, Fortinet GmbH/© Fortinet GmbH, ams.solutions GmbH/© ams.solutions GmbH, Ferrari electronic AG/© Ferrari electronic AG, Asseco Solutions AG/© Asseco Solutions AG, AFB Gemeinnützige GmbH/© AFB Gemeinnützige GmbH, Haufe Group SE/© Haufe Group SE, Doxee AT GmbH/© Doxee AT GmbH , ADLON Intelligent Solutions GmbH/© ADLON Intelligent Solutions GmbH, Bild 1 Doxa Consulting (Sage-Advertorial 4/2026)/© Sage, Videocast 1: Standbild/© Springer Fachmedien Wiesbaden, KI-Wissen für mittelständische Unternehmen/© Dell_Getty 1999938268, IT-Director und IT-Mittelstand: Ihre Webinar-Matineen /© da-kuk / Getty Images / iStock