Zum Inhalt

Knowledge-Driven Multilingual Text Analysis and Transparent Information Retrieval

Language Technology for Industrial Applications

  • 2026
  • Buch
insite
SUCHEN

Über dieses Buch

Dieses Buch stellt alle Komponenten und Wissensquellen vor, die für Transparent Information Retrieval erforderlich sind. Je nach Thema und unter Berücksichtigung ihrer Interoperabilität werden sowohl Tief- als auch Flachtechnologie eingesetzt. Die Verarbeitung beginnt mit der Analyse der Textdaten und sammelt ihre Ergebnisse in einem mehrsprachigen konzeptionellen Netzwerk, wodurch eine transparente Informationsgewinnung ermöglicht wird, bei der die Benutzer mit dem System in ihrer Muttersprache kommunizieren, während die Dokumente in einer anderen Sprache und für die Benutzer transparent sein könnten. Dazu untersucht der Autor alle Textanalysekomponenten, die für die mehrsprachige Indexierung erforderlich sind, beginnend mit vorbereitenden Arbeiten wie Sprach- und Themenidentifikation, über Satzaufteilung und Tokenisierung (einschließlich Chinesisch) bis hin zur Beschreibung lexikalischer Analysen, auch für Mehrworteinträge und Named Entities. Die Einträge werden dann sowohl auf syntaktischer (durch einen Tagger) als auch auf semantischer Ebene (durch mehrsprachige Wortsinn-Disambiguierung) eindeutig definiert. Die Analyseergebnisse werden in einem dynamischen multilingualen ConceptNet gesammelt, das eine Indexstruktur ist, die um monolinguale Beziehungen (wie Synonyme oder Head-Modifier-Links) sowie multilinguale Beziehungen (Übersetzungen) erweitert wird. Neben vielen europäischen Sprachen werden auch Türkisch, Arabisch, Persisch und Chinesisch behandelt. Das Buch schließt mit einer Beschreibung der Komponenten, die für den Aufbau der benötigten Ressourcen erforderlich sind, wie Kriechmaschinen, zweisprachige Termextraktion und Werkzeuge für standardmäßige sprachliche Anmerkungen. Für jede Komponente finden die Leser eine Technologieübersicht, eine Diskussion ihrer wichtigsten Herausforderungen bei der Berechnung, eine Beschreibung der ausgewählten technischen Lösung und Bewertungsinformationen.

Inhaltsverzeichnis

Frontmatter
Chapter 1. System Design
Abstract
The basic challenge of Information Retrieval has been described as the need to match the conceptual environments of the author of a text and the person who searches for it: They use different concepts, they have different connotations and associative links, they have different intentions when writing/searching texts, they may speak different languages.
Gregor Thurmair
Chapter 2. TINA Analysis Strategy
Abstract
This chapter describes the linguistic machinery used: Deep processing uses grammar rules and dictionaries; the formalism used is described here. Shallow processing is mainly based on Finite State technology. An important issue is the interoperability between the two analysis technologies: The Document Model collects all analysis results and makes them available to either of them; the common linguistic environment is defined in a 3-tier tagset and a conversion option into feature-value structures for Deep analysis.
Gregor Thurmair
Chapter 3. Text Analysis Preprocessing
Abstract
This chapter deals with preprocessing technology. Text Handling must cope with the challenges provided by the external text formats, and create a basic format for further processing. Language Identification is responsible to provide the linguistic resources for the text language recognised, and Topic Identification decides to which topic a text belongs, related to a generic taxonomy used as a starting point for user specific extensions.
Gregor Thurmair
Chapter 4. Text Segmentation
Abstract
All components following the Preprocessing (Text Handling, Language and Topic Identification) are language specific, and need resources in the supported languages. The first group of analysis tools is intended to create word candidates (‘tokens’) from texts (paragraphs) as produced by the text handling: Sentence splitting, tokenisation, and normalisation.
Gregor Thurmair
Chapter 5. Lexical Analysis
Abstract
Lexical analysis is the process of turning (tokenised) strings into meaningful lexical entries. Both sides are often called ‘words’. However, just talking about ‘words’ is insufficient in lexical analysis, as ‘words’ can denote quite different things.
Gregor Thurmair
Chapter 6. Special Entries
Abstract
In the context of index term production, lemmatisation as described in the previous chapter is a key element. However there are two types of lemmata which deserve special attention. This is the treatment of multiword entries because they are not covered by the techniques applied so far, and this is the treatment of (proper) names as they cannot completely lexicalised by definition.
Gregor Thurmair
Chapter 7. Disambiguation
Abstract
The result of Lexical Analysis is a list of terms, defined by <lemma, POS, semantic description> . However in many cases ambiguities will be observed, be it on syntactic or on semantic level. Therefore disambiguation is required, if a proper term list is envisaged. Disambiguation must take the context into account in order to produce terms with one POS and one sense. TINA provides two components for this purpose: LtTagger for syntactic disambiguation, and LtSensExtract for semantic disambiguation.
Gregor Thurmair
Chapter 8. Transparent Information Retrieval (TIR) and the LtConceptNet
Abstract
This chapter discusses how the results of the text analysis can be exploited in a retrieval context. Transparent Information Retrieval (TIR) describes a multilingual setup where query and result presentation are given in the user language while the documents may be written in different languages, this fact however being transparent to the users. Obviously two translation steps are required for this.The resource proposed is a dynamic multilingual concept net, i.e. an index enriched by links between terms on both monolingual (synonyms, head-modifiers) and multilingual (translations) level. The difference of the LtConceptNet to thesauri, multilingual WordNets, and ontologies is explained, its layout is given, and its use in query expansion and translation contexts is explained by two application examples.
Gregor Thurmair
Chapter 9. Resources
Abstract
The complete TINA system depends heavily on the availability of linguistic resources. Reusability and creation of resources, above all of dictionary resources, needs to be planned carefully, in particular as many of them require human intervention. This chapter investigates which resources are needed for which component, what their interdependence is, how they could be created efficiently, and how legacy data, if available, could be integrated.
Gregor Thurmair
Titel
Knowledge-Driven Multilingual Text Analysis and Transparent Information Retrieval
Verfasst von
Gregor Thurmair
Copyright-Jahr
2026
Electronic ISBN
978-3-031-91741-7
Print ISBN
978-3-031-91740-0
DOI
https://doi.org/10.1007/978-3-031-91741-7

Die PDF-Dateien dieses Buches wurden gemäß dem PDF/UA-1-Standard erstellt, um die Barrierefreiheit zu verbessern. Dazu gehören Bildschirmlesegeräte, beschriebene nicht-textuelle Inhalte (Bilder, Grafiken), Lesezeichen für eine einfache Navigation, tastaturfreundliche Links und Formulare sowie durchsuchbarer und auswählbarer Text. Wir sind uns der Bedeutung von Barrierefreiheit bewusst und freuen uns über Anfragen zur Barrierefreiheit unserer Produkte. Bei Fragen oder Bedarf an Barrierefreiheit kontaktieren Sie uns bitte unter accessibilitysupport@springernature.com.

    Bildnachweise
    AvePoint Deutschland GmbH/© AvePoint Deutschland GmbH, NTT Data/© NTT Data, Wildix/© Wildix, arvato Systems GmbH/© arvato Systems GmbH, Ninox Software GmbH/© Ninox Software GmbH, Nagarro GmbH/© Nagarro GmbH, GWS mbH/© GWS mbH, CELONIS Labs GmbH, USU GmbH/© USU GmbH, G Data CyberDefense/© G Data CyberDefense, Vendosoft/© Vendosoft, Kumavision/© Kumavision, Noriis Network AG/© Noriis Network AG, WSW Software GmbH/© WSW Software GmbH, tts GmbH/© tts GmbH, Asseco Solutions AG/© Asseco Solutions AG, AFB Gemeinnützige GmbH/© AFB Gemeinnützige GmbH, Ferrari electronic AG/© Ferrari electronic AG