Skip to main content
main-content

Über dieses Buch

Semantische Suchverfahren kombinieren Techniken der Textverarbeitung, des Information Retrievals und der Wissensverarbeitung, um Informationssuchenden bessere Suchergebnisse als reine Volltextsuchen zu liefern und die Sprachbarriere zu den Autoren zu überbrücken.
Dieses Buch zeigt, wie Komponenten intelligenter Suchverfahren mit diesen Techniken umgesetzt werden und zu unterschiedlichen Extra- und Intranet-Suchmaschinen kombiniert werden können. Hierbei wird der Schwerpunkt auf die Grundlagen und Konstruktionsprinzipien von Verfahren zur semantischen Suche in Texten gelegt.
Mit vielen Praxisbeispielen, praktischen Erfahrungen, Aufgaben und Lösungen ist das Buch sowohl für Studierende und Dozenten als auch für Entwickler, Produkt- und Projektmanager und Entscheider bestens geeignet.


Inhaltsverzeichnis

Frontmatter

1. Einführung

Suchmaschinen sind die globale Anwendung im WWW schlechthin. Über mehr als zwanzig Jahre hinweg ist ihre Technik verfeinert worden. Die Erwartungen der Benutzer an Geschwindigkeit, Einfachheit der Bedienung und Qualität der Treffer sind parallel dazu ständig gewachsen. Wer heute eine Suchmaschine konzipiert, wird automatisch mit Google verglichen. Was kann man da eigentlich noch besser machen?
Thomas Hoppe

2. Grundlagen der Textverarbeitung

Das zentrale Problem bei der Verarbeitung natürlichsprachlicher Texte ist das Verständnis der Inhalte. Will man dies erreichen, ist man gleich mit allen Herausforderungen des Verstehens natürlicher Sprache, der Linguistik und der Computerlinguistik konfrontiert. Sich diesen Herausforderungen zu stellen, wird wichtig, wenn Computer die „Inhalte verstehen“, „die Texte zusammenfassen oder übersetzen“ oder „Fragen beantworten“ sollen. Die intelligente Suche nach Textdokumenten gehört hierbei noch zu den einfacheren Problemen. Ziel dieses Kapitels ist es, einen Einblick in die wichtigsten Fragestellungen und Methoden der Verarbeitung deutschsprachiger Texte im Kontext von Suchfunktionen zu geben. Die Methoden, die in diesem Kapitel vorgestellt werden, dienen hierbei insbesondere der Aufbereitung von Dokumenten für die Indexierung und der Bearbeitung von Suchanfragen. Damit stellt dieses Kapitel keine eigenständige Einführung in die Verarbeitung natürlicher Sprache oder die Computerlinguistik dar, sondern lediglich eine Einführung und Zusammenstellung der für Suchverfahren wichtigsten Sprachtechnologien
Thomas Hoppe

3. Grundlagen des Information Retrievals

Im vorangegangenen Kapitel haben wir gelernt, wie Texte, seien dies Dokumente oder Anfragen, aufbereitet werden können, um sie in eine einheitliche, vereinfachte Menge von Termen zu überführen. Die verwendeten Transformationsschritte zielen einerseits darauf ab, die Dokumente nur noch durch bedeutungstragende Terme zu beschreiben und die Menge dieser Terme möglichst klein zu halten. Andererseits, werden durch diese Normierung die Texte bereits etwas intelligenter repräsentiert als durch eine einfache Sequenz von Wörtern. In diesem Kapitel gehen wir auf die Grundlagen der effizienten Speicherung und der Suche über invertierte Indexe ein.
Thomas Hoppe

4. Grundlagen der Wissensrepräsentation

von Bernhard G. Humm
Auf dem Weg zu einer semantischen Suche über Textdokumenten haben wir bisher erfahren, dass wir Hintergrundwissen über die Bedeutung von Begriffen benötigen, wie wir die Texte aufbereiten können und mit welchen Mechanismen wir sie effizient durchsuch- und findbar machen können. Wir hatten im letzten Kapitel auch einen ersten Ansatz für eine semantische Suche kennengelernt, der die semantische Ähnlichkeit von Begriffen nutzt. Wie aber können wir dieses Wissen überhaupt repräsentieren, um Begriffsähnlichkeiten ermitteln zu können?
Thomas Hoppe

5. Bausteine Semantischer Suche

In diesem Kapitel werden vier unterschiedliche Klassen von Bausteinen für semantische Suchfunktionen vorgestellt. Die erste Klasse sind semantische Komponenten, die quasi als Add-on für konventionelle Suchfunktionen verwendet werden können und eine intelligente Vor- bzw. Nachverarbeitung von Suchanfragen resp. Suchergebnissen realisieren. Die zweite Klasse beschreibt Komponenten zur Aufbereitung von Dokumentinhalten, die dritte Klasse umfasst Komponenten der Anfragebearbeitung und die vierte und letzte Klasse umfasst Komponenten, die die Ergebnisdarstellung unterstützen.
Thomas Hoppe

6. Konstruktionsprinzipien semantischer Suchverfahren

Im Vorwort hatten wir gesehen, dass der Begriff Semantische Suche oft missverständlich im Kontext von SEO verwendet wird. Ebenso haben wir dort bereits dargestellt, dass der Begriff sehr unterschiedlich interpretiert wird und darunter neben der Suche nach „inhaltlich ähnlichen“ Begriffen auch Verfahren verstanden werden, die mehrdeutige Suchanfragen disambiguieren, Schlüsse aus angefragten Begriffen ziehen, Fragen beantworten, natürlich-sprachlich gestellte Anfragen „verstehen“ oder SPARQL-Anfragen verarbeiten. In diesem Kapitel werden wir den Begriff Semantische Suche in Beziehung setzen zu anderen, verwandten Methoden des Information Retrievals. Für semantische Suche von Textdokumenten werden wir in diesem Kapitel darüber hinaus unterschiedliche Konstruktionsprinzipien kennen und beurteilen lernen.
Thomas Hoppe

7. Lösungen

Dieses Kapitel fasst die Lösungen der Übungsaufgaben der Kapitel 2 bis 6 zusammen. Bevor Sie die Lösungen nachschlagen, sollten Sie probieren die Übungsaufgaben zunächst selber zu lösen. Dies ergibt einen größeren Lerneffekt.
Thomas Hoppe

Backmatter

Weitere Informationen