Skip to main content

2016 | OriginalPaper | Buchkapitel

Automated Table Understanding Using Stub Patterns

verfasst von : Roya Rastan, Hye-young Paik, John Shepherd, Armin Haller

Erschienen in: Database Systems for Advanced Applications

Verlag: Springer International Publishing

Aktivieren Sie unsere intelligente Suche, um passende Fachinhalte oder Patente zu finden.

search-config
loading …

Abstract

Tables in documents are a rich source of information, but not yet well-utilised computationally because of the difficulty of extracting their structure and data automatically. In this paper, we progress the state-of-the-art in automatic table extraction by identifying common patterns in table headers to develop rules and heuristics for determining table structure. We describe and evaluate a table understanding system using these patterns and rules.

Sie haben noch keine Lizenz? Dann Informieren Sie sich jetzt über unsere Produkte:

Springer Professional "Wirtschaft+Technik"

Online-Abonnement

Mit Springer Professional "Wirtschaft+Technik" erhalten Sie Zugriff auf:

  • über 102.000 Bücher
  • über 537 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Maschinenbau + Werkstoffe
  • Versicherung + Risiko

Jetzt Wissensvorsprung sichern!

Springer Professional "Technik"

Online-Abonnement

Mit Springer Professional "Technik" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 390 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Maschinenbau + Werkstoffe




 

Jetzt Wissensvorsprung sichern!

Springer Professional "Wirtschaft"

Online-Abonnement

Mit Springer Professional "Wirtschaft" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 340 Zeitschriften

aus folgenden Fachgebieten:

  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Versicherung + Risiko




Jetzt Wissensvorsprung sichern!

Literatur
1.
Zurück zum Zitat Alrayes, N., Luk, W.-S.: Automatic transformation of multi-dimensional web tables into data cubes. Data Warehousing and Knowledge Discovery. LNCS, vol. 7448, pp. 81–92. Springer, Heidelberg (2012)CrossRef Alrayes, N., Luk, W.-S.: Automatic transformation of multi-dimensional web tables into data cubes. Data Warehousing and Knowledge Discovery. LNCS, vol. 7448, pp. 81–92. Springer, Heidelberg (2012)CrossRef
2.
Zurück zum Zitat e Silva, A.C., Jorge, A., Torgo, L.: Design of an end-to-end method to extract information from tables. IJDAR 82(2–3), 144–171 (2006)CrossRef e Silva, A.C., Jorge, A., Torgo, L.: Design of an end-to-end method to extract information from tables. IJDAR 82(2–3), 144–171 (2006)CrossRef
3.
Zurück zum Zitat Embley, D.W., Hurst, M., Lopresti, D., Nagy, G.: Table-processing paradigms: a research survey. IJDAR 8(2–3), 66–86 (2006)CrossRef Embley, D.W., Hurst, M., Lopresti, D., Nagy, G.: Table-processing paradigms: a research survey. IJDAR 8(2–3), 66–86 (2006)CrossRef
4.
Zurück zum Zitat Fang, J., Mitra, P., Tang, Z., Giles, C.L.: Table header detection and classification. In: AAAI (2012) Fang, J., Mitra, P., Tang, Z., Giles, C.L.: Table header detection and classification. In: AAAI (2012)
5.
Zurück zum Zitat Jha, P., Nagy, G.: Wang notation tool: layout independent representation of tables. In: ICPR, pp. 1–4. IEEE (2008) Jha, P., Nagy, G.: Wang notation tool: layout independent representation of tables. In: ICPR, pp. 1–4. IEEE (2008)
6.
Zurück zum Zitat Nagy, G.: Learning the characteristics of critical cells from web tables. In: ICPR, pp. 1554–1557. IEEE (2012) Nagy, G.: Learning the characteristics of critical cells from web tables. In: ICPR, pp. 1554–1557. IEEE (2012)
7.
Zurück zum Zitat Nagy, G., Seth, S., Embley, D.W.: End-to-end conversion of html tables for populating a relational database. In: DAS, pp. 222–226. IEEE (2014) Nagy, G., Seth, S., Embley, D.W.: End-to-end conversion of html tables for populating a relational database. In: DAS, pp. 222–226. IEEE (2014)
8.
Zurück zum Zitat Nagy, G., Tamhankar, M.: Vericlick: an efficient tool for table format verification. In: IS&T/SPIE Electronic Imaging, pp. 1–9 (2012) Nagy, G., Tamhankar, M.: Vericlick: an efficient tool for table format verification. In: IS&T/SPIE Electronic Imaging, pp. 1–9 (2012)
9.
Zurück zum Zitat Oro, E., Ruffolo, M.: PDF-TREX: an approach for recognizing and extracting tables from pdf documents. In: ICDAR, pp. 906–910. IEEE (2009) Oro, E., Ruffolo, M.: PDF-TREX: an approach for recognizing and extracting tables from pdf documents. In: ICDAR, pp. 906–910. IEEE (2009)
10.
Zurück zum Zitat Padmanabhan, R.K.: Table abstraction tool. PhD thesis, Citeseer (2009) Padmanabhan, R.K.: Table abstraction tool. PhD thesis, Citeseer (2009)
11.
Zurück zum Zitat Rastan, R., Paik, H.-Y., Shepherd, J.: TEXUS: a task-based approach for table extraction and understanding. In: DocEng2015, pp. 25–34 (2015) Rastan, R., Paik, H.-Y., Shepherd, J.: TEXUS: a task-based approach for table extraction and understanding. In: DocEng2015, pp. 25–34 (2015)
12.
Zurück zum Zitat Seth, S., Jandhyala, R., Krishnamoorthy, M., Nagy, G.: Analysis and taxonomy of column header categories for web tables. In: IAPR, pp. 81–88. ACM (2010) Seth, S., Jandhyala, R., Krishnamoorthy, M., Nagy, G.: Analysis and taxonomy of column header categories for web tables. In: IAPR, pp. 81–88. ACM (2010)
13.
Zurück zum Zitat Seth, S., Nagy, G.: Segmenting tables via indexing of value cells by table headers. In: ICDAR, pp. 887–891. IEEE (2013) Seth, S., Nagy, G.: Segmenting tables via indexing of value cells by table headers. In: ICDAR, pp. 887–891. IEEE (2013)
14.
Zurück zum Zitat Wang, X.: Tabular abstraction, editing, and formatting. PhD thesis, University of Waterloo (1996) Wang, X.: Tabular abstraction, editing, and formatting. PhD thesis, University of Waterloo (1996)
15.
Zurück zum Zitat Zanibbi, R., Blostein, D., Cordy, J.R.: A survey of table recognition. Doc. Anal. Recogn. 7(1), 1–16 (2004) Zanibbi, R., Blostein, D., Cordy, J.R.: A survey of table recognition. Doc. Anal. Recogn. 7(1), 1–16 (2004)
16.
Zurück zum Zitat Zhang, K., Shasha, D.: Simple fast algorithms for the editing distance between trees and related problems. SIAM J. Comput. 18(6), 1245–1262 (1989)MathSciNetCrossRefMATH Zhang, K., Shasha, D.: Simple fast algorithms for the editing distance between trees and related problems. SIAM J. Comput. 18(6), 1245–1262 (1989)MathSciNetCrossRefMATH
Metadaten
Titel
Automated Table Understanding Using Stub Patterns
verfasst von
Roya Rastan
Hye-young Paik
John Shepherd
Armin Haller
Copyright-Jahr
2016
DOI
https://doi.org/10.1007/978-3-319-32025-0_33