Skip to main content

2017 | OriginalPaper | Buchkapitel

Extraction and Interpretation of Textual Data from Czech Insolvency Proceedings

verfasst von : Iveta Mrázová, Peter Zvirinský

Erschienen in: Artificial Intelligence and Soft Computing

Verlag: Springer International Publishing

Aktivieren Sie unsere intelligente Suche, um passende Fachinhalte oder Patente zu finden.

search-config
loading …

Abstract

Recently, the Czech Insolvency Register covers about 200000 insolvency proceedings. In order to better assess the real impact of indebtedness across the Czech society, the data about creditors or reasons for debt might be of great value. Unfortunately, the vast majority of such information is contained only in scanned document copies attached to the insolvency proceedings. Therefore, this study aims at finding efficient pre-processing, clustering and classification techniques capable of extracting the wanted information from these cca 1200000 pdf-files.

Sie haben noch keine Lizenz? Dann Informieren Sie sich jetzt über unsere Produkte:

Springer Professional "Wirtschaft+Technik"

Online-Abonnement

Mit Springer Professional "Wirtschaft+Technik" erhalten Sie Zugriff auf:

  • über 102.000 Bücher
  • über 537 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Maschinenbau + Werkstoffe
  • Versicherung + Risiko

Jetzt Wissensvorsprung sichern!

Springer Professional "Technik"

Online-Abonnement

Mit Springer Professional "Technik" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 390 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Maschinenbau + Werkstoffe




 

Jetzt Wissensvorsprung sichern!

Springer Professional "Wirtschaft"

Online-Abonnement

Mit Springer Professional "Wirtschaft" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 340 Zeitschriften

aus folgenden Fachgebieten:

  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Versicherung + Risiko




Jetzt Wissensvorsprung sichern!

Literatur
2.
Zurück zum Zitat Bradski, G., Kaehler, A.: Learning OpenCV. O’Reilly, Sebastopol (2008) Bradski, G., Kaehler, A.: Learning OpenCV. O’Reilly, Sebastopol (2008)
3.
Zurück zum Zitat Chen, C.L.P., Zhang, C.Y.: Data-intensive applications, challenges, techniques and technologies. Inf. Sci. 275, 314–347 (2014)CrossRef Chen, C.L.P., Zhang, C.Y.: Data-intensive applications, challenges, techniques and technologies. Inf. Sci. 275, 314–347 (2014)CrossRef
4.
Zurück zum Zitat Duda, R.O., Hart, P.E.: Use of the Hough transformation to detect lines and curves in pictures. Commun. ACM 15, 11–15 (1972)CrossRefMATH Duda, R.O., Hart, P.E.: Use of the Hough transformation to detect lines and curves in pictures. Commun. ACM 15, 11–15 (1972)CrossRefMATH
6.
Zurück zum Zitat Kiryati, N., Eldar, Y., Bruckstein, A.M.: A probabilistic Hough transform. Pattern Recogn. 24, 303–316 (1991)MathSciNetCrossRef Kiryati, N., Eldar, Y., Bruckstein, A.M.: A probabilistic Hough transform. Pattern Recogn. 24, 303–316 (1991)MathSciNetCrossRef
8.
Zurück zum Zitat Liu, B.: Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data. Springer, Berlin (2007)MATH Liu, B.: Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data. Springer, Berlin (2007)MATH
9.
Zurück zum Zitat Mrázová, I., Zvirinský, P.: Czech insolvency proceedings data: social network analysis. Procedia Comput. Sci. 61, 52–59 (2015)CrossRef Mrázová, I., Zvirinský, P.: Czech insolvency proceedings data: social network analysis. Procedia Comput. Sci. 61, 52–59 (2015)CrossRef
10.
Zurück zum Zitat Patel, C., Patel, A.: Optical character recognition by open source OCR tool tesseract: a case study. Int. J. Comput. Appl. 55, 50–56 (2012) Patel, C., Patel, A.: Optical character recognition by open source OCR tool tesseract: a case study. Int. J. Comput. Appl. 55, 50–56 (2012)
11.
12.
Zurück zum Zitat Rousseeuw, P.J.: Silhouettes: a graphic aid to the interpretation and validation of cluster analysis. J. Comput. Appl. Math. 20(1), 53–65 (1987)CrossRefMATH Rousseeuw, P.J.: Silhouettes: a graphic aid to the interpretation and validation of cluster analysis. J. Comput. Appl. Math. 20(1), 53–65 (1987)CrossRefMATH
13.
Zurück zum Zitat Still, M.: The Definitive Guide to ImageMagick. Apress, Berkeley (2005) Still, M.: The Definitive Guide to ImageMagick. Apress, Berkeley (2005)
14.
15.
Zurück zum Zitat Vesanto, J., Alhoniemi, E.: Clustering of the self-organizing map. IEEE Trans. Neural Netw. 11, 586–600 (2000)CrossRef Vesanto, J., Alhoniemi, E.: Clustering of the self-organizing map. IEEE Trans. Neural Netw. 11, 586–600 (2000)CrossRef
16.
Zurück zum Zitat Zhang, T., Oles, F.: Text categorization based on regularized linear classifiers. Inf. Retrieval 4, 5–31 (2001)CrossRefMATH Zhang, T., Oles, F.: Text categorization based on regularized linear classifiers. Inf. Retrieval 4, 5–31 (2001)CrossRefMATH
Metadaten
Titel
Extraction and Interpretation of Textual Data from Czech Insolvency Proceedings
verfasst von
Iveta Mrázová
Peter Zvirinský
Copyright-Jahr
2017
DOI
https://doi.org/10.1007/978-3-319-59060-8_12

Premium Partner