Skip to main content

2020 | OriginalPaper | Buchkapitel

5. Bausteine Semantischer Suche

verfasst von : Thomas Hoppe

Erschienen in: Semantische Suche

Verlag: Springer Fachmedien Wiesbaden

Aktivieren Sie unsere intelligente Suche, um passende Fachinhalte oder Patente zu finden.

search-config
loading …

Zusammenfassung

In diesem Kapitel werden vier unterschiedliche Klassen von Bausteinen für semantische Suchfunktionen vorgestellt. Die erste Klasse sind semantische Komponenten, die quasi als Add-on für konventionelle Suchfunktionen verwendet werden können und eine intelligente Vor- bzw. Nachverarbeitung von Suchanfragen resp. Suchergebnissen realisieren. Die zweite Klasse beschreibt Komponenten zur Aufbereitung von Dokumentinhalten, die dritte Klasse umfasst Komponenten der Anfragebearbeitung und die vierte und letzte Klasse umfasst Komponenten, die die Ergebnisdarstellung unterstützen.

Sie haben noch keine Lizenz? Dann Informieren Sie sich jetzt über unsere Produkte:

Springer Professional "Wirtschaft+Technik"

Online-Abonnement

Mit Springer Professional "Wirtschaft+Technik" erhalten Sie Zugriff auf:

  • über 102.000 Bücher
  • über 537 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Maschinenbau + Werkstoffe
  • Versicherung + Risiko

Jetzt Wissensvorsprung sichern!

Springer Professional "Technik"

Online-Abonnement

Mit Springer Professional "Technik" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 390 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Maschinenbau + Werkstoffe




 

Jetzt Wissensvorsprung sichern!

Springer Professional "Wirtschaft"

Online-Abonnement

Mit Springer Professional "Wirtschaft" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 340 Zeitschriften

aus folgenden Fachgebieten:

  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Versicherung + Risiko




Jetzt Wissensvorsprung sichern!

Fußnoten
1
Hier mit SPARQL 1.1 Konstrukten realisiert. Das SPARQL 1.1 VALUES Keyword wird anschaulich beschrieben in: „SPARQL 1.1’s new VALUES keyword“, Bob DuCharme, 29.09.2012, 7 http://​www.​snee.​com/​bobdc.​blog/​2012/​09/​sparql-11s-new-values-keyword.​html, letzter Aufruf 12.03.2020.
 
2
Unter 7 https://​query.​wikidata.​org kann diese Anfrage direkt ausprobiert werden.
 
3
„20 of Google’s limits you may not know exist“, Patrick Stox, Search Engine Land, 06.09.2017, 7 https://​searchengineland​.​com/​20-googles-limits-may-not-know-exist-281387, letzter Aufruf 12.03.2020.
 
5
Basierend auf einer Unternehmenspräsentation im Rahmen des Projekts Qurator und 7 https://​www.​ubermetrics-technologies.​com/​wp-content/​uploads/​Ubermetrics-Faktenblatt.​pdf (Stand: 10.04.2020).
 
7
Abstrakt betrachtet, kann dies als die Ausgabe einer Suchmaschine zur Anfrage SAP betrachtet werden, die täglich die neuesten Stellenanzeigen durchsucht.
 
8
Zur Auswertung dieser „semantisch erweiterten regulären Ausdrücke“ wurde ein endlicher Automat entsprechend modifiziert.
 
9
‚Fingerprinting.ipynb‘ im Github Repository 7 https://​github.​com/​ThomasHoppe/​Buch-Semantische-Suche.
 
11
Natürlich ist heutzutage zu bezweifeln, ob eine Handelsschule allein für Mädchen überhaupt noch Sinn macht. Nichtsdestotrotz kann ein solcher Begriff immer mal wieder in historischen Dokumenten auftreten.
 
12
Ein sehr simpler Algorithmus, der nur drei Formen von Fugenelementen berücksichtigt und noch einige Schwächen hat, wird in 7 http://​textmining.​wp.​hs-hannover.​de/​Korrektur.​html#Ausflug:​-Komposita-erkennen (letzter Aufruf 10.04.2020) beschrieben.
 
13
Um auch in solchen Fällen noch Korrekturvorschläge generieren zu können, könnten Bayes’sche Verfahren wie Hidden-Markow-Modelle (HMM), Künstliche Neuronale Netze wie Long-Short-Term-Memories (LSTM) oder N-Gramm-basierte Word Embeddings wie FastText verwendet werden, auf die einzugehen jedoch den Rahmen dieses Buchs sprengen würde.
 
14
Da hierbei die Schlagworte nicht aus einem kontrollierten Vokabular stammen, müssten wir korrekterweise eigentlich von „Verstichwortung“ sprechen.
 
15
Mit dem Grad der Genauigkeit ist hierbei die Genauigkeit der Annotation bezüglich der Beschreibung des Dokuments gemeint; mit dem Grad der Reproduzierbarkeit die Eindeutigkeit mit der die gleichen Schlagworte bei Verschlagwortung durch unterschiedliche Autoren bzw. bei wiederholter Verschlagwortung gewählt werden.
 
16
In 7 Abschn. 4.​2.​1 hatten wird den Begriff kontrolliertes Vokabular für eine einfache Form von Ontologie genutzt, die im Wesentlichen aus einer Menge von Begriffen besteht. Diese Menge von Begriffen können wir natürlich auch aus anderen Formen von Wissensmodellen ableiten. In einem erweiterten Sinn, stellt damit jedes Wissensmodell auch immer ein kontrolliertes Vokabular bereit.
 
17
Siehe hierzu auch (d’Aquin et al. 2011), S. 288.
 
19
Auf die dargestellte Benutzeroberfläche kann unter 7 https://​www.​dbpedia-spotlight.​org/​demo/​ zugegriffen werden. Eine REST-basierte Schnittstelle ist für DBpedia Spotlight ebenfalls verfügbar. Mit ihr sind die Ergebnisse in Form von XML oder JSON jedoch nicht so anschaulich darstellbar.
 
20
Dieser Annotator ist nur für englischsprachige Texte ausgelegt. Da mir bisher kein öffentlich zugänglicher, gleichwertiger Annotationsdienst für deutschsprachige Texte bekannt ist, greifen wir an dieser Stelle auf ein englischsprachiges Beispiel zurück.
 
21
Einige zusätzliche Felder zur Beschränkung der zu verwendenden Ontologie, der UMLS-Typen und der Tiefe der Annotationen werden aus Gründen der Platzersparnis nicht dargestellt.
 
22
Dokumentiert unter 7 http://​data.​bioontology.​org/​documentation#nav_​annotator, letzter Aufruf 28.02.2020.
 
23
Vergleiche dies mit den Anforderungen an Wissensmodelle im Kontext semantischer Suche in 7 Abschn. 4.​2.​7.
 
24
Ober-/Unterbegriffsbeziehung können – je nach Wissensmodell – als logische Implikationen interpretiert werden, so dass ein Begriff auch all seine Oberbegriffe impliziert.
 
25
Auch andere Beziehungen zwischen Begriffen, wie ist_Symptom_von, ist_verwand_mit, arbeitet_in usw. können ebenfalls als logische Implikationen interpretiert werden.
 
27
Hierdurch können die Beschränkungen von Morphologielexika bei der Lemmatisierung der im Deutschen häufig auftretenden und beliebig konstruierbaren Komposita teilweise umgangen werden (siehe die in 7 Abschn. 2.​13.​1.​1 beschriebenen Nachteile von Morphologielexika).
 
28
(Jilek et al. 2018) beschreiben hierzu einen effizienten Erkennungsalgorithmus, der Präfix-Bäume sowohl auf Term-, als auch auf Termsequenz-Ebene verwendet. In (Hoppe et al. 2020) wurde dieser Algorithmus weiter vereinfacht.
 
29
Einen Trick, wie diese Gewichtungen allein über die Annotationen in die Relevanzbewertungen konventioneller Suchmaschinen einfließen können, werden wir in 7 Abschn. 6.​4.​3.​5 kennen lernen.
 
30
Eine ausführlichere Diskussion der Problematik und von Ansätzen zur Disambiguierung auf der Basis semantischen Hintergrundwissens in Form von Ontologien findet sich in (Kleb 2012).
 
31
Die Menge aller Begriffe, die zu einem gegebenen Begriff in direkter Beziehung stehen. Diese illustrierende Bezeichnung geht auf Frauke Weichhardt von der Semtation GmbH zurück
 
32
Wenn überhaupt, dann nur über ein Unternehmen, das z. B. in der Sahel-Zone ansässig ist.
 
34
Die semantische Suche im Empolis Service Express beispielsweise verknüpft ausgewählte Facetten unterschiedlicher Begriffskategorien konjunktiv, während Facetten innerhalb einer Kategorie disjunktiv verknüpft werden. Dies ist zwar plausibel, eine Auswahl mehrerer Unterbegriffe einer Kategorie hingegen müsste, wenn überhaupt, wiederum konjunktiv verknüpft werden.
 
36
In einer realen Implementierung, die RDFa korrekt benutzt, müssten noch weitere zusätzliche Deklarationen erfolgen, z. B. dass es sich um den DOCTYPE XHTML+RDFa 1.0 handelt. Zweckmäßig wäre es auch, den Namensraum des verwendeten Vokabulars und ein Präfix dafür zu deklarieren und den in den typeof-Attributen verwendeten Konzepten dieses Präfix voranzustellen. Details hierzu können in (Lewis & Moscovitz 09) nachgelesen werden.
 
37
Diese könnten z.B. in anderen Weisen hervorgehoben werden.
 
38
Was natürlich nicht heißen soll, dass diese tolerierbar sind. Dennoch gilt: wo kein Kläger, da kein Richter.
 
39
Die Empolis Information Management GmbH hat dankenswerterweise den Zugriff auf ihr Demonstrationssystem Heavy Tools ermöglicht, dem dieser Bildschirmauszug entstammt.
 
Literatur
Zurück zum Zitat (d’Aquin et al. 2011) “Semantic Web Search Engines”, Mathieu d’Aquin, Li Ding, Enrico Motta, in: “Handbook of Semantic Web Technologies - Semantic Web Applications”, John Domingue, Dieter Fensel, James A. Hendler (eds.), Volume 2, Springer-Verlag, Berlin, Heidelberg, 2011. (d’Aquin et al. 2011) “Semantic Web Search Engines”, Mathieu d’Aquin, Li Ding, Enrico Motta, in: “Handbook of Semantic Web Technologies - Semantic Web Applications”, John Domingue, Dieter Fensel, James A. Hendler (eds.), Volume 2, Springer-Verlag, Berlin, Heidelberg, 2011.
Zurück zum Zitat (Beez et al. 2015), “Semantic AutoSuggest for Electronic Health Records”, Ulrich Beez, Bernhard G. Humm, Paul Walsh, in: Hamid R. Arabnia, Leonidas Deligiannidis, Quoc-Nam Tran (Hrsg.): “Proceedings of the 2015 International Conference on Computational Science and Computational Intelligence”. Las Vegas, Nevada, USA, 7–9 December 2015. IEEE Conference Publishing Services 2015. ISBN 978-1-4673-9795-7/15, DOI 10.1109/CSCI.2015.85 (Beez et al. 2015), “Semantic AutoSuggest for Electronic Health Records”, Ulrich Beez, Bernhard G. Humm, Paul Walsh, in: Hamid R. Arabnia, Leonidas Deligiannidis, Quoc-Nam Tran (Hrsg.): “Proceedings of the 2015 International Conference on Computational Science and Computational Intelligence”. Las Vegas, Nevada, USA, 7–9 December 2015. IEEE Conference Publishing Services 2015. ISBN 978-1-4673-9795-7/15, DOI 10.1109/CSCI.2015.85
Zurück zum Zitat (Hoppe 2015) “Prinzip der Unwahrnehmbarkeit”, Thomas Hoppe, Rubrik: Zur Diskussion gestellt, Informatik Spektrum, Band 38, Heft 5, Oktober 2015. (Hoppe 2015) “Prinzip der Unwahrnehmbarkeit”, Thomas Hoppe, Rubrik: Zur Diskussion gestellt, Informatik Spektrum, Band 38, Heft 5, Oktober 2015.
Zurück zum Zitat (Hoppe et al. 2020) “Ontology-based Entity Recognition”, Thomas Hoppe, Jamal Al Qundus, Silvio Peikert, http://ceur-ws.org/Vol-2535/paper_4.pdf (letzter Aufruf: 10.4.2020), in: Adrian Paschke, Clemens Neudecker, Georg Rehm, Jamal Al Qundus, Lydia Pintscher (Hrsg.), “Proceedings of the Conference on Digital Curation Technologies (Qurator 2020)”, Berlin, Germany, CEUR Workshop Proceedings (http://ceur-ws.org/Vol-2535/), 2020. (Hoppe et al. 2020) “Ontology-based Entity Recognition”, Thomas Hoppe, Jamal Al Qundus, Silvio Peikert, http://​ceur-ws.​org/​Vol-2535/​paper_​4.​pdf (letzter Aufruf: 10.4.2020), in: Adrian Paschke, Clemens Neudecker, Georg Rehm, Jamal Al Qundus, Lydia Pintscher (Hrsg.), “Proceedings of the Conference on Digital Curation Technologies (Qurator 2020)”, Berlin, Germany, CEUR Workshop Proceedings (http://​ceur-ws.​org/​Vol-2535/​), 2020.
Zurück zum Zitat (Horch et al. 2013), “Semantische Suchsysteme für das Internet”, Andrea Horch, Holger Kett, Anette Weisbecker, Fraunhofer IAO, Fraunhofer Verlag, 2013. (Horch et al. 2013), “Semantische Suchsysteme für das Internet”, Andrea Horch, Holger Kett, Anette Weisbecker, Fraunhofer IAO, Fraunhofer Verlag, 2013.
Zurück zum Zitat (Humm & Ossanloo 2018) “Domain-Specific Semantic Search Applications: Example SoftwareFinder”, Bernhard Humm, Hesam Ossanloo, in: “Semantic Applications”, Thomas Hoppe, Bernhard Humm, Anatol Reibold (Hrsg.), Springer-Vieweg, 2018. (Humm & Ossanloo 2018) “Domain-Specific Semantic Search Applications: Example SoftwareFinder”, Bernhard Humm, Hesam Ossanloo, in: “Semantic Applications”, Thomas Hoppe, Bernhard Humm, Anatol Reibold (Hrsg.), Springer-Vieweg, 2018.
Zurück zum Zitat (Jilek et al. 2018) “Inflection-Tolerant Ontology-Based Named Entity Recognition for Real-Time Applications”, Christian Jilek, Markus Schröder, Rudolf Novik, Sven Schwarz, Heiko Maus, Andreas Dengel, 2nd Conference on Language, Data and Knowledge (LDK 2019), OpenAccess Series in Informatics (OASIcs), Vol. 70, pp. 11:1–11:14 https://arxiv.org/abs/1812.02119 (letzter Aufruf 10.4.2020) (Jilek et al. 2018) “Inflection-Tolerant Ontology-Based Named Entity Recognition for Real-Time Applications”, Christian Jilek, Markus Schröder, Rudolf Novik, Sven Schwarz, Heiko Maus, Andreas Dengel, 2nd Conference on Language, Data and Knowledge (LDK 2019), OpenAccess Series in Informatics (OASIcs), Vol. 70, pp. 11:1–11:14 https://​arxiv.​org/​abs/​1812.​02119 (letzter Aufruf 10.4.2020)
Zurück zum Zitat (Koehn & Knight 2003) “Empirical Methods for Compound Splitting”, Philipp Koehn, Kevin Knight, Proceedings of the 10th Conference of the European Chapter of the Association for Computational Linguistics, Budapest, Hungary, 2003. https://www.aclweb.org/anthology/E03-1076.pdf (letzter Aufruf 10.4.2020) (Koehn & Knight 2003) “Empirical Methods for Compound Splitting”, Philipp Koehn, Kevin Knight, Proceedings of the 10th Conference of the European Chapter of the Association for Computational Linguistics, Budapest, Hungary, 2003. https://​www.​aclweb.​org/​anthology/​E03-1076.​pdf (letzter Aufruf 10.4.2020)
Zurück zum Zitat (Schumacher et al. 2012) “Semantische Suche”, Kinga Schumacher, Björn Forcher, Thanh Tran, in: “Semantische Technologien”, Andreas Dengel (Hrsg.), Spektrum Akademischer Verlag Heidelberg, 2012. (Schumacher et al. 2012) “Semantische Suche”, Kinga Schumacher, Björn Forcher, Thanh Tran, in: “Semantische Technologien”, Andreas Dengel (Hrsg.), Spektrum Akademischer Verlag Heidelberg, 2012.
Metadaten
Titel
Bausteine Semantischer Suche
verfasst von
Thomas Hoppe
Copyright-Jahr
2020
DOI
https://doi.org/10.1007/978-3-658-30427-0_5

Neuer Inhalt