Zum Inhalt

Multi-Type-TD-TSR – Extracting Tables from Document Images Using a Multi-stage Pipeline for Table Detection and Table Structure Recognition: From OCR to Structured Table Representations

  • 2021
  • OriginalPaper
  • Buchkapitel
Erschienen in:

Aktivieren Sie unsere intelligente Suche, um passende Fachinhalte oder Patente zu finden.

search-config
loading …

Abstract

Das Kapitel stellt eine ausgeklügelte mehrstufige Pipeline, Multi-Type-TD-TSR, vor, die darauf ausgelegt ist, Tabellen aus Dokumentenbildern zu extrahieren. Es befasst sich mit den Herausforderungen der Erkennung von Tabellen und der Erkennung von Tabellenstrukturen und konzentriert sich auf OCR-Nachkorrekturen, insbesondere in historischen Dokumenten. Die Pipeline unterscheidet zwischen drei Arten von Tabellen basierend auf ihren Rändern und nutzt fortschrittliche Vorverarbeitungstechniken, um eine genaue Ausrichtung der Tabellen und Farbeinvarianz sicherzustellen. Die Methode verwendet eine Kombination datengesteuerter und deterministischer Algorithmen, um verschiedene Tabellentypen effektiv zu handhaben. Die Pipeline wird anhand einer selbst kommentierten Teilmenge des ICDAR 2019-Datensatzes ausgewertet und erreicht damit den Stand der Technik bei der Erkennung von Tabellenstrukturen. Diese Arbeit leistet einen Beitrag vor Ort, indem sie eine robuste Lösung für die Extraktion und Interpretation von Tabellendaten anbietet, die den Weg für nachgelagerte NLP-Aufgaben ebnet.

Sie haben noch keine Lizenz? Dann Informieren Sie sich jetzt über unsere Produkte:

Springer Professional "Wirtschaft+Technik"

Online-Abonnement

Mit Springer Professional "Wirtschaft+Technik" erhalten Sie Zugriff auf:

  • über 130.000 Bücher
  • über 540 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Maschinenbau + Werkstoffe
  • Oberflächen + Materialtechnik
  • Versicherung + Risiko

Jetzt Wissensvorsprung sichern!

Springer Professional "Technik"

Online-Abonnement

Mit Springer Professional "Technik" erhalten Sie Zugriff auf:

  • über 75.000 Bücher
  • über 390 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Maschinenbau + Werkstoffe
  • Oberflächen + Materialtechnik




 

Jetzt Wissensvorsprung sichern!

Springer Professional "Wirtschaft"

Online-Abonnement

Mit Springer Professional "Wirtschaft" erhalten Sie Zugriff auf:

  • über 100.000 Bücher
  • über 340 Zeitschriften

aus folgenden Fachgebieten:

  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Versicherung + Risiko




Jetzt Wissensvorsprung sichern!

Titel
Multi-Type-TD-TSR – Extracting Tables from Document Images Using a Multi-stage Pipeline for Table Detection and Table Structure Recognition: From OCR to Structured Table Representations
Verfasst von
Pascal Fischer
Alen Smajic
Giuseppe Abrami
Alexander Mehler
Copyright-Jahr
2021
DOI
https://doi.org/10.1007/978-3-030-87626-5_8
Dieser Inhalt ist nur sichtbar, wenn du eingeloggt bist und die entsprechende Berechtigung hast.
    Bildnachweise
    AvePoint Deutschland GmbH/© AvePoint Deutschland GmbH, ams.solutions GmbH/© ams.solutions GmbH, Wildix/© Wildix, arvato Systems GmbH/© arvato Systems GmbH, Ninox Software GmbH/© Ninox Software GmbH, Nagarro GmbH/© Nagarro GmbH, GWS mbH/© GWS mbH, CELONIS Labs GmbH, USU GmbH/© USU GmbH, G Data CyberDefense/© G Data CyberDefense, Vendosoft/© Vendosoft, Kumavision/© Kumavision, Noriis Network AG/© Noriis Network AG, WSW Software GmbH/© WSW Software GmbH, tts GmbH/© tts GmbH, Asseco Solutions AG/© Asseco Solutions AG, AFB Gemeinnützige GmbH/© AFB Gemeinnützige GmbH, Ferrari electronic AG/© Ferrari electronic AG, Doxee AT GmbH/© Doxee AT GmbH , Haufe Group SE/© Haufe Group SE, NTT Data/© NTT Data