nach oben

Erschienen in:

2020 | OriginalPaper | Buchkapitel

5. Bausteine Semantischer Suche

verfasst von : Thomas Hoppe

Erschienen in: Semantische Suche

Verlag: Springer Fachmedien Wiesbaden

Einloggen

Aktivieren Sie unsere intelligente Suche, um passende Fachinhalte oder Patente zu finden.

search-config

KI-gestützte Suche

Aus

Zusammenfassung

In diesem Kapitel werden vier unterschiedliche Klassen von Bausteinen für semantische Suchfunktionen vorgestellt. Die erste Klasse sind semantische Komponenten, die quasi als Add-on für konventionelle Suchfunktionen verwendet werden können und eine intelligente Vor- bzw. Nachverarbeitung von Suchanfragen resp. Suchergebnissen realisieren. Die zweite Klasse beschreibt Komponenten zur Aufbereitung von Dokumentinhalten, die dritte Klasse umfasst Komponenten der Anfragebearbeitung und die vierte und letzte Klasse umfasst Komponenten, die die Ergebnisdarstellung unterstützen.

Sie haben noch keine Lizenz? Dann Informieren Sie sich jetzt über unsere Produkte:

Springer Professional "Wirtschaft+Technik"

Online-Abonnement

Mit Springer Professional "Wirtschaft+Technik" erhalten Sie Zugriff auf:

über 102.000 Bücher
über 537 Zeitschriften

aus folgenden Fachgebieten:

Automobil + Motoren
Bauwesen + Immobilien
Business IT + Informatik
Elektrotechnik + Elektronik
Energie + Nachhaltigkeit
Finance + Banking
Management + Führung
Marketing + Vertrieb
Maschinenbau + Werkstoffe
Versicherung + Risiko

Jetzt Wissensvorsprung sichern!

Jetzt informieren

Springer Professional "Technik"

Online-Abonnement

Mit Springer Professional "Technik" erhalten Sie Zugriff auf:

über 67.000 Bücher
über 390 Zeitschriften

aus folgenden Fachgebieten:

Automobil + Motoren
Bauwesen + Immobilien
Business IT + Informatik
Elektrotechnik + Elektronik
Energie + Nachhaltigkeit
Maschinenbau + Werkstoffe

Jetzt Wissensvorsprung sichern!

Jetzt informieren

Springer Professional "Wirtschaft"

Online-Abonnement

Mit Springer Professional "Wirtschaft" erhalten Sie Zugriff auf:

über 67.000 Bücher
über 340 Zeitschriften

aus folgenden Fachgebieten:

Bauwesen + Immobilien
Business IT + Informatik
Finance + Banking
Management + Führung
Marketing + Vertrieb
Versicherung + Risiko

Jetzt Wissensvorsprung sichern!

Jetzt informieren

Vorheriges Kapitel Grundlagen der Wissensrepräsentation

Nächstes Kapitel Konstruktionsprinzipien semantischer Suchverfahren

Hier mit SPARQL 1.1 Konstrukten realisiert. Das SPARQL 1.1 VALUES Keyword wird anschaulich beschrieben in: „SPARQL 1.1’s new VALUES keyword“, Bob DuCharme, 29.09.2012, 7 http://www.snee.com/bobdc.blog/2012/09/sparql-11s-new-values-keyword.html, letzter Aufruf 12.03.2020.

Unter 7 https://query.wikidata.org kann diese Anfrage direkt ausprobiert werden.

„20 of Google’s limits you may not know exist“, Patrick Stox, Search Engine Land, 06.09.2017, 7 https://searchengineland.com/20-googles-limits-may-not-know-exist-281387, letzter Aufruf 12.03.2020.

7 https://www.ubermetrics-technologies.com/de/, letzter Aufruf 12.03.2020.

Basierend auf einer Unternehmenspräsentation im Rahmen des Projekts Qurator und 7 https://www.ubermetrics-technologies.com/wp-content/uploads/Ubermetrics-Faktenblatt.pdf (Stand: 10.04.2020).

7 https://www.ubermetrics-technologies.com/de/blog/medienbeobachtung-mit-neuen-features-schneller-effektive-suchagenten-erstellen/ (Stand: 10.04.2020).

Abstrakt betrachtet, kann dies als die Ausgabe einer Suchmaschine zur Anfrage SAP betrachtet werden, die täglich die neuesten Stellenanzeigen durchsucht.

Zur Auswertung dieser „semantisch erweiterten regulären Ausdrücke“ wurde ein endlicher Automat entsprechend modifiziert.

‚Fingerprinting.ipynb‘ im Github Repository 7 https://github.com/ThomasHoppe/Buch-Semantische-Suche.

7 https://deutschegrammatik20.de/wortbildung/fugenelemente/, letzter Aufruf 10.04.2020.

Natürlich ist heutzutage zu bezweifeln, ob eine Handelsschule allein für Mädchen überhaupt noch Sinn macht. Nichtsdestotrotz kann ein solcher Begriff immer mal wieder in historischen Dokumenten auftreten.

Ein sehr simpler Algorithmus, der nur drei Formen von Fugenelementen berücksichtigt und noch einige Schwächen hat, wird in 7 http://textmining.wp.hs-hannover.de/Korrektur.html#Ausflug:-Komposita-erkennen (letzter Aufruf 10.04.2020) beschrieben.

Um auch in solchen Fällen noch Korrekturvorschläge generieren zu können, könnten Bayes’sche Verfahren wie Hidden-Markow-Modelle (HMM), Künstliche Neuronale Netze wie Long-Short-Term-Memories (LSTM) oder N-Gramm-basierte Word Embeddings wie FastText verwendet werden, auf die einzugehen jedoch den Rahmen dieses Buchs sprengen würde.

Da hierbei die Schlagworte nicht aus einem kontrollierten Vokabular stammen, müssten wir korrekterweise eigentlich von „Verstichwortung“ sprechen.

Mit dem Grad der Genauigkeit ist hierbei die Genauigkeit der Annotation bezüglich der Beschreibung des Dokuments gemeint; mit dem Grad der Reproduzierbarkeit die Eindeutigkeit mit der die gleichen Schlagworte bei Verschlagwortung durch unterschiedliche Autoren bzw. bei wiederholter Verschlagwortung gewählt werden.

In 7 Abschn. 4.2.1 hatten wird den Begriff kontrolliertes Vokabular für eine einfache Form von Ontologie genutzt, die im Wesentlichen aus einer Menge von Begriffen besteht. Diese Menge von Begriffen können wir natürlich auch aus anderen Formen von Wissensmodellen ableiten. In einem erweiterten Sinn, stellt damit jedes Wissensmodell auch immer ein kontrolliertes Vokabular bereit.

Siehe hierzu auch (d’Aquin et al. 2011), S. 288.

7 https://www.berlin.de/polizei/polizeimeldungen/pressemitteilung.834177.php, letzter Aufruf 28.02.2020.

Auf die dargestellte Benutzeroberfläche kann unter 7 https://www.dbpedia-spotlight.org/demo/ zugegriffen werden. Eine REST-basierte Schnittstelle ist für DBpedia Spotlight ebenfalls verfügbar. Mit ihr sind die Ergebnisse in Form von XML oder JSON jedoch nicht so anschaulich darstellbar.

Dieser Annotator ist nur für englischsprachige Texte ausgelegt. Da mir bisher kein öffentlich zugänglicher, gleichwertiger Annotationsdienst für deutschsprachige Texte bekannt ist, greifen wir an dieser Stelle auf ein englischsprachiges Beispiel zurück.

Einige zusätzliche Felder zur Beschränkung der zu verwendenden Ontologie, der UMLS-Typen und der Tiefe der Annotationen werden aus Gründen der Platzersparnis nicht dargestellt.

Dokumentiert unter 7 http://data.bioontology.org/documentation#nav_annotator, letzter Aufruf 28.02.2020.

Vergleiche dies mit den Anforderungen an Wissensmodelle im Kontext semantischer Suche in 7 Abschn. 4.2.7.

Ober-/Unterbegriffsbeziehung können – je nach Wissensmodell – als logische Implikationen interpretiert werden, so dass ein Begriff auch all seine Oberbegriffe impliziert.

Auch andere Beziehungen zwischen Begriffen, wie ist_Symptom_von, ist_verwand_mit, arbeitet_in usw. können ebenfalls als logische Implikationen interpretiert werden.

7 https://www.dimdi.de/static/de/klassifikationen/icd/icd-10-who/kode-suche/htmlamtl2019/block-t08-t14.htm unter T14.0, letzter Aufruf 28.02.2020.

Hierdurch können die Beschränkungen von Morphologielexika bei der Lemmatisierung der im Deutschen häufig auftretenden und beliebig konstruierbaren Komposita teilweise umgangen werden (siehe die in 7 Abschn. 2.13.1.1 beschriebenen Nachteile von Morphologielexika).

(Jilek et al. 2018) beschreiben hierzu einen effizienten Erkennungsalgorithmus, der Präfix-Bäume sowohl auf Term-, als auch auf Termsequenz-Ebene verwendet. In (Hoppe et al. 2020) wurde dieser Algorithmus weiter vereinfacht.

Einen Trick, wie diese Gewichtungen allein über die Annotationen in die Relevanzbewertungen konventioneller Suchmaschinen einfließen können, werden wir in 7 Abschn. 6.4.3.5 kennen lernen.

Eine ausführlichere Diskussion der Problematik und von Ansätzen zur Disambiguierung auf der Basis semantischen Hintergrundwissens in Form von Ontologien findet sich in (Kleb 2012).

Die Menge aller Begriffe, die zu einem gegebenen Begriff in direkter Beziehung stehen. Diese illustrierende Bezeichnung geht auf Frauke Weichhardt von der Semtation GmbH zurück

Wenn überhaupt, dann nur über ein Unternehmen, das z. B. in der Sahel-Zone ansässig ist.

7 https://hds.hebis.de/hda/Search/Results?lookfor=semantic+search&trackSearchEvent=Einfache+Suche&type=allfields&search=new&submit=Suchen, besucht am 10.04.2020.

Die semantische Suche im Empolis Service Express beispielsweise verknüpft ausgewählte Facetten unterschiedlicher Begriffskategorien konjunktiv, während Facetten innerhalb einer Kategorie disjunktiv verknüpft werden. Dies ist zwar plausibel, eine Auswahl mehrerer Unterbegriffe einer Kategorie hingegen müsste, wenn überhaupt, wiederum konjunktiv verknüpft werden.

7 https://de.wikipedia.org/wiki/Gesundheits-_und_Krankenpfleger, letzter Aufruf 28.02.2020.

In einer realen Implementierung, die RDFa korrekt benutzt, müssten noch weitere zusätzliche Deklarationen erfolgen, z. B. dass es sich um den DOCTYPE XHTML+RDFa 1.0 handelt. Zweckmäßig wäre es auch, den Namensraum des verwendeten Vokabulars und ein Präfix dafür zu deklarieren und den in den typeof-Attributen verwendeten Konzepten dieses Präfix voranzustellen. Details hierzu können in (Lewis & Moscovitz 09) nachgelesen werden.

Diese könnten z.B. in anderen Weisen hervorgehoben werden.

Was natürlich nicht heißen soll, dass diese tolerierbar sind. Dennoch gilt: wo kein Kläger, da kein Richter.

Die Empolis Information Management GmbH hat dankenswerterweise den Zugriff auf ihr Demonstrationssystem Heavy Tools ermöglicht, dem dieser Bildschirmauszug entstammt.

(d’Aquin et al. 2011) “Semantic Web Search Engines”, Mathieu d’Aquin, Li Ding, Enrico Motta, in: “Handbook of Semantic Web Technologies - Semantic Web Applications”, John Domingue, Dieter Fensel, James A. Hendler (eds.), Volume 2, Springer-Verlag, Berlin, Heidelberg, 2011.

(Bast 2013) “Semantische Suche”, Hannah Bast, Informatik Spektrum, Vol. 36/2 (2013): 136–143, Springer Verlag 2013. https://link.springer.com/article/10.1007/s00287-013-0678-z (letzter Aufruf 10.4.2020)

(Beez et al. 2015), “Semantic AutoSuggest for Electronic Health Records”, Ulrich Beez, Bernhard G. Humm, Paul Walsh, in: Hamid R. Arabnia, Leonidas Deligiannidis, Quoc-Nam Tran (Hrsg.): “Proceedings of the 2015 International Conference on Computational Science and Computational Intelligence”. Las Vegas, Nevada, USA, 7–9 December 2015. IEEE Conference Publishing Services 2015. ISBN 978-1-4673-9795-7/15, DOI 10.1109/CSCI.2015.85

(Ewert et al. 2000) “Verfahren zur Relevanzbewertung bei der Indexierung von Hypertext-Dokumenten mittels Suchmaschine”, Marc Ewert, Thomas Hoppe, Helmut Oertel, Oliver Kai Paulus, DE000010029644, https://depatisnet.dpma.de/DepatisNet/depatisnet?action=pdf&docid=DE000010029644B4 (letzter Aufruf 10.4.2020)

(Hoppe 2013) “Semantische Filterung – Ein Werkzeug zur Steigerung der Effizienz im Wissensmanagement”, Thomas Hoppe, Open Journal of Knowledge Management, Ausgabe VII/2013, http://www.community-of-knowledge.de/beitrag/semantische-filterung-ein-werkzeug-zur-steigerung-der-effizienz-im-wissensmanagement/ (letzter Aufruf 10.4.2020)

(Hoppe 2015) “Prinzip der Unwahrnehmbarkeit”, Thomas Hoppe, Rubrik: Zur Diskussion gestellt, Informatik Spektrum, Band 38, Heft 5, Oktober 2015.

(Hoppe et al. 2020) “Ontology-based Entity Recognition”, Thomas Hoppe, Jamal Al Qundus, Silvio Peikert, http://ceur-ws.org/Vol-2535/paper_4.pdf (letzter Aufruf: 10.4.2020), in: Adrian Paschke, Clemens Neudecker, Georg Rehm, Jamal Al Qundus, Lydia Pintscher (Hrsg.), “Proceedings of the Conference on Digital Curation Technologies (Qurator 2020)”, Berlin, Germany, CEUR Workshop Proceedings (http://ceur-ws.org/Vol-2535/), 2020.

(Horch et al. 2013), “Semantische Suchsysteme für das Internet”, Andrea Horch, Holger Kett, Anette Weisbecker, Fraunhofer IAO, Fraunhofer Verlag, 2013.

(Humm 2020) “Fascinating with Open Data: openArtBrowser”, Bernhard G Humm, http://ceur-ws.org/Vol-2535/paper_2.pdf (letzter Aufruf: 10.4.2020), in: Adrian Paschke, Clemens Neudecker, Georg Rehm, Jamal Al Qundus, Lydia Pintscher (Hrsg.), “Proceedings of the Conference on Digital Curation Technologies (Qurator 2020)”, Berlin, Germany, CEUR Workshop Proceedings (http://ceur-ws.org/Vol-2535/), 2020.

(Humm & Ossanloo 2018) “Domain-Specific Semantic Search Applications: Example SoftwareFinder”, Bernhard Humm, Hesam Ossanloo, in: “Semantic Applications”, Thomas Hoppe, Bernhard Humm, Anatol Reibold (Hrsg.), Springer-Vieweg, 2018.

(Jilek et al. 2018) “Inflection-Tolerant Ontology-Based Named Entity Recognition for Real-Time Applications”, Christian Jilek, Markus Schröder, Rudolf Novik, Sven Schwarz, Heiko Maus, Andreas Dengel, 2nd Conference on Language, Data and Knowledge (LDK 2019), OpenAccess Series in Informatics (OASIcs), Vol. 70, pp. 11:1–11:14 https://arxiv.org/abs/1812.02119 (letzter Aufruf 10.4.2020)

(Jonquet et al. 2009) “The Open Biomedical Annotator”, Clement Jonquet, Nigam H. Shah, Mark A. Musen, https://www.researchgate.net/publication/49967845_The_Open_Biomedical_Annotator (letzter Aufruf 10.4.2020)

(Jonquet et al. 2009) “NCBO Annotator: Semantic Annotation of Biomedical Data”, Clement Jonquet, Nigam H. Shah, Cherie H. Youn, Mark A. Musen, Chris Callendar, Margaret-Anne Storey, 8th International Semantic Web Conference (ISWC 2009) Posters and Demonstrations, October 25-29 2009, Washington DC, USA, https://www.researchgate.net/publication/228837476_NCBO_Annotator_Semantic_Annotation_of_Biomedical_Data (letzter Aufruf 10.4.2020)

(Kleb 2012) “Ontologie-basierte Monoseminierung”, Joachim Kleb, Dissertation, Fakultät für Wirtschaftswissensschaften, Karlsruher Institut für Technologie, KIT, Scientific Publishing, 2012, https://pdfs.semanticscholar.org/4ed5/fedd3c1987ec608266c9a8117622f5b11b36.pdf und https://books.google.de/books?isbn=3866449585 (letzter Aufruf 10.4.2020)

(Koehn & Knight 2003) “Empirical Methods for Compound Splitting”, Philipp Koehn, Kevin Knight, Proceedings of the 10^th Conference of the European Chapter of the Association for Computational Linguistics, Budapest, Hungary, 2003. https://www.aclweb.org/anthology/E03-1076.pdf (letzter Aufruf 10.4.2020)

(Mendes et al. 2011) “DBpedia Spotlight: Shedding Light on the Web of Documents, Pablo N. Mendes, Max Jakob, Andrés García-Silva, Christian Bizer, I-SEMANTICS 2011, 7th International Conference on Semantic Systems, Sept. 7-9, 2011,Graz, Austria, https://www.dbpedia-spotlight.org/docs/spotlight.pdf (letzter Aufruf 10.4.2020)

(Mihalcea & Tarau 2004) “TextRank:Bringing Order into Texts”, Rada Mihalcea, Paul Tarau, Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing, p.404–411, Barcelona, Spain, 2004, https://web.eecs.umich.edu/~mihalcea/papers/mihalcea.emnlp04.pdf (letzter Aufruf 10.4.2020)

(Oren et al. 2006) “What are Semantic Annotations?” Eyal Oren, Knud Hinnerk Möller, Simon Scerri, Siegfried Handschuh, Michael Sintek, http://www.siegfried-handschuh.net/pub/2006/whatissemannot2006.pdf (letzter Aufruf 10.4.2020)

(Sack 2010) “Semantische Suche - Theorie und Praxis am Beispiel der Videosuchmaschine yovisto.com“, Harald Sack, in: U. Hentgartner, A. Meier (Hrsg.): Web 3.0 & Semantic Web, HMD - Praxis der Wirtschaftsinformatik, Nr. 271, dpunkt Verlag. Heidelberg, 2010, pp. 13–25, https://hpi.de/fileadmin/user_upload/fachgebiete/meinel/papers/Web_3.0/2010_Sack_HMD.pdf (letzter Aufruf 10.4.2020)

(Schumacher et al. 2012) “Semantische Suche”, Kinga Schumacher, Björn Forcher, Thanh Tran, in: “Semantische Technologien”, Andreas Dengel (Hrsg.), Spektrum Akademischer Verlag Heidelberg, 2012.

Titel: Bausteine Semantischer Suche
verfasst von: Thomas Hoppe
Verlag: Springer Fachmedien Wiesbaden
Buch: Semantische Suche
Print ISBN: 978-3-658-30426-3

Electronic ISBN: 978-3-658-30427-0

Copyright-Jahr: 2020
DOI: https://doi.org/10.1007/978-3-658-30427-0_5

Neuer Inhalt

Bildnachweise

VDI-Icon, Profil Icon, inhalt2, Springer Professional Modul/© Springer Fachmedien Wiesbaden GmbH, Nachhaltigkeitsaward Key Visual/© Cometis AG/Global ESG Monitor | Daniel Rupp | Generiert mit KI, Search Icon, Banner Hanser, Jonas Klose/© Pine Valley Capital GmbH, Carina Kießling von der Strategieberatung Roland Berger/© Monika Walther Fotografie | ATZ, Beijing Auto Show 2024: Deutsche Hersteller wollen angreifen./© EKH-Pictures / Generated with AI / Stock.adobe.com, Zeitschrift Wissensmanagement Cover, PatentFit-Logo/© Springer Fachmedien Wiesbaden GmbH, Zukunftswerkstatt Sales Excellence 2024/© AndreyPopov / Getty Images / iStock, 2023_Antrieb/© supervisuell, ATZ-Webinar: Prototypenfreie Entwicklung durch Offline- und Driver-in-the-Loop-HiL-Tests /© (c) VI-grade

Springer Professional

Zusammenfassung

Bitte loggen Sie sich ein, um Zugang zu Ihrer Lizenz zu erhalten.

Sie haben noch keine Lizenz? Dann Informieren Sie sich jetzt über unsere Produkte:

Springer Professional "Wirtschaft+Technik"

Springer Professional "Technik"

Springer Professional "Wirtschaft"

Neuer Inhalt

Bitte loggen Sie sich ein, um Zugang zu Ihrer Lizenz zu erhalten.

Bitte loggen Sie sich ein, um Zugang zu Ihrer Lizenz zu erhalten.