Skip to main content
Erschienen in:

Open Access 2025 | OriginalPaper | Buchkapitel

4. Durchführung der quantitativ-empirischen Studie

Aktivieren Sie unsere intelligente Suche, um passende Fachinhalte oder Patente zu finden.

search-config
insite
INHALT
download
DOWNLOAD
print
DRUCKEN
insite
SUCHEN
loading …

Zusammenfassung

Das Kapitel widmet sich der empirischen Überprüfung eines Hypothesensystems im Kontext der Logistikdienstleisterauswahl. Es beginnt mit der Dokumentation der Datenerhebung, -bereinigung und -beschreibung, wobei besondere Aufmerksamkeit auf die Kontrolle potenzieller Verzerrungen gerichtet wird. Die Datenerhebung erfolgte über drei verschiedene Sub-Samples, die jeweils unterschiedliche Erhebungsmedien und -methoden nutzten. Die Datenbereinigung umfasste die Kontrolle des Informant Bias, Antworttendenzen, Ausreißer und Missing Values, um eine hohe Datenqualität zu gewährleisten. Die statistische Datenanalyse wurde mittels PLS-SEM durchgeführt, wobei die Güte der Messmodelle und Strukturmodelle umfassend überprüft wurde. Die Ergebnisse zeigen, dass die Markensensibilität einen signifikanten Einfluss auf die Markenwichtigkeit hat, während individuelle Charakteristika wie individuelle Risikoneigung und Need for Cognition keinen signifikanten Einfluss auf die Markensensibilität ausüben. Die Analyse der Mediation und Moderation liefert wertvolle Einblicke in die komplexen Zusammenhänge zwischen den untersuchten Variablen. Insgesamt bietet das Kapitel eine tiefgehende und methodisch fundierte Analyse, die sowohl für Praktiker als auch für Forscher im Bereich der Logistik und Beschaffung von großem Interesse ist.
Hinweise

Ergänzende Information

Die elektronische Version dieses Kapitels enthält Zusatzmaterial, auf das über folgenden Link zugegriffen werden kann https://​doi.​org/​10.​1007/​978-3-658-47777-6_​4.
Im folgenden Kapitelabschnitt wird das endgültige Hypothesensystem1 mit Hilfe der entwickelten Messmodelle2 empirisch überprüft. Demnach erfolgen in diesem Kapitel die Dokumentation der Datenerhebung, -bereinigung und -beschreibung (Kapitelabschnitt 4.1), die Einführung in das statistische Datenanalyseverfahren (Kapitelabschnitt 4.2) und die Darlegung der Datenanalyse mit ihren Ergebnissen (Kapitelabschnitt 4.3).

4.1 Datenerhebung, -bereinigung und -beschreibung, und ex-ante Checks zur Kontrolle potenzieller Verzerrungen

In den nachfolgenden Kapitelabschnitten werden die Datenerhebung (Kapitelabschnitt 4.1.1), die Datenbereinigung (Kapitelabschnitt 4.1.2) und die Datenbeschreibung (Kapitelabschnitt 4.1.3), gemäß dem Ablauf aus Kapitelabschnitt 2.​1.​4, geschildert. Das detaillierte Vorgehen für die vierte Phase illustriert Abbildung 4.1.
Abbildung 4.1
Vorgehen der Datenerhebung, -bereinigung und -beschreibung3
Dabei wird auch auf die in Kapitelabschnitt 3.​2 vorgestellten ex-ante Kontrollmechanismen der potenziellen Verzerrungen eingegangen. So werden im Rahmen der Datenbereinigung der Informant Bias, Antworttendenzen, Ausreißer und Missing Values kontrolliert, und entschieden wie mit diesen Problemen verfahren wird. Die Generierung von drei Samples erfordert zudem eine Prüfung auf signifikante Unterschiede, bevor diese zu einem Gesamtsample zusammengeführt werden können. Schließlich erfolgt die Datenbeschreibung vor dem Hintergrund der Repräsentativität, weshalb hierin die Kontrollmöglichkeiten des Non-Sampling Bias und Non-Response Bias aufgegriffen werden. Alles in allem wird in diesem Kapitelabschnitt versucht die methodische Strenge, insbesondere die Beurteilungskriterien MS 1, MS 2, MS 3 sicherzustellen.

4.1.1 Datenerhebung

Zur Gewährleistung der Repräsentativität der effektiven Stichprobe sollte vor der Datenerhebung, wie bereits in Kapitelabschnitt 3.​2.​1 erörtert, die Grundgesamtheit, sowie das grundlegende Erhebungsverfahren transparent gemacht werden. Zuvor wurden mehrere Spezifikationen für die Untersuchung festgelegt.4 Unter anderem lassen sich hierzu auch Indizien für die Definition der Grundgesamtheit entnehmen. Die Grundgesamtheit umfasst all jene Personen, die aus der Beschaffungsperspektive Erfahrungen mit der strategischen Logistikdienstleisterauswahl gesammelt haben. Dies inkludiert sowohl Personen, die solche Entscheidungen treffen oder getroffen haben, als auch Personen, die an diesen involviert sind oder involviert waren, demnach nicht die Entscheidung tragen. Eine Quantifizierung und vollständige Erfassung der Grundgesamtheit scheinen angesichts des Aufwands und der damit verbundenen Kosten weder sinnvoll noch möglich. So wird für die vorliegende Untersuchung gemäß der Kategorisierung von Homburg (2020) eine nicht-zufällige, bewusste Teilerhebung mit typischer Auswahl umgesetzt. Demnach wird versucht die Grundgesamtheit über typische Merkmalsträger in der Stichprobe widerzuspiegeln.5 Hierfür bietet sich insbesondere das Merkmal „Berufsbezeichnung“ an. Zur Bestimmung relevanter Berufsbezeichnungen kann auf LTE 21 referenziert werden.6 Hierin wurden primär Repräsentanten der Abteilungen Beschaffung und Logistik als relevant eingestuft. Ergänzend wurde in Vorbereitung auf die Datenerhebung die professionelle Einschätzung von Managern auf Seiten der Logistikdienstleister eingeholt.7 Diese gaben an, dass neben Logistik- und Beschaffungsmanager, auch Supply Chain Manager an der Auswahl beteiligt seien.8 Insofern sollten die Respondenten der Erhebung, überwiegend aus den drei Funktionsbereichen „Logistik“, „Beschaffung“ und „Supply Chain Management“ stammen.9 Die Datengenerierung erfolgte sodann auf drei verschiedene Arten mit Hilfe zweier Erhebungsmedien:
Sub-Sample 1
Zunächst konnte auf eine bestehende Stichprobe in LinkedIn, welche ursprünglich zur Analyse von Lieferanten-Abnehmer Beziehungen aufgebaut wurde, zurückgegriffen werden. Die Respondenten hierin sind vorwiegend Repräsentanten des Funktionsbereichs Beschaffung. Typische Berufsbezeichnungen, die der Plattform LinkedIn zu entnehmen sind, lauten: „Head of Purchasing“; „Purchasing Manager“; „Procurement Manager“; „Project Procurement Manager“, „Commodity Procurement Manager“; „Strategischer Einkäufer“; „Einkäufer“; „Leiter Einkauf“. Des Weiteren ist für das Untersuchungssample charakteristisch, dass die Personen unterschiedliche Hierarchiestufen bekleiden, in verschiedenen Branchen tätig und deutschsprachig sind. Entsprechend der zuvor getätigten Offenlegung der Grundgesamtheit, erscheint eine Verwendung des Samples sinnvoll, geeignet und repräsentativ, obwohl nur selten logistikspezifische Jobbezeichnungen vorhanden sind. Das Untersuchungssample umfasst insgesamt 976 Personen. Diese wurden zu Beginn des Untersuchungszeitraums über LinkedIn angeschrieben. Das Versenden von Kontaktanfragen in einem ersten Schritt war nicht notwendig, da diese Personen bereits in der ersten Erhebung die Kontaktanfrage angenommen hatten. Das Anschreiben enthielt eine persönliche Anrede, den Umfragelink, eine Datenschutzbelehrung, sowie eine Beschreibung des Forschungsvorhabens und der Incentives.10 Innerhalb von 3 Tagen konnte das gesamte Sample angeschrieben werden. Startdatum war der 05.10.2021. Nach 3 Wochen erfolgte ein Erinnerungsschreiben11 (27.10.2021 bis 29.10.2021). Am 23.12.2021 wurde die Erhebung für das Sub-Sample 1 beendet – die Gesamterhebungszeit beträgt somit ca. 11 Wochen. Letztendlich haben 142 Personen an der Umfrage teilgenommen. Dies entspricht einer Brutto-Rücklaufquote von 14,55 %. Die geringe Brutto-Rücklaufquote lässt vermuten, dass nicht genügend Personen im Sample vorhanden waren, die spezifische Erfahrungen mit der Auswahl von Logistikdienstleistern gemacht haben. Dies ist jedoch nicht verwunderlich, da das Sample trotz Überschneidungen in der Untersuchungseinheit ursprünglich für einen anderen Forschungsschwerpunkt generiert wurde. Nicht auszuschließen ist aber auch, dass die Teilnahmebereitschaft in LinkedIn auch von der individuellen Kontaktpflege und vergangenen Interaktionen beeinflusst wird. Von den ursprünglichen 142 Teilnahmen, haben 69 Personen die Befragung abgebrochen. So liegen dem Forschenden im Sub-Sample 1 insgesamt 73 beendete Fragebögen zur weiteren Datenbereinigung vor – dies entspricht einer Beendigungsquote von 51,41 %.
Sub-Sample 2
Die zweite Stichprobe wurde ebenfalls über die Plattform LinkedIn gebildet. In diesem Fall wurde nicht auf bestehende Kontakte zurückgegriffen, sondern Neue aufgebaut. Dies hat den Vorteil, dass dem Untersuchungsgegenstand und der vordefinierten Grundgesamtheit entsprechend, geeignete Personen mit spezifischen Erfahrungen und Wissen akquiriert werden können.12 Zu diesem Zweck wurde ein dreistufiges Vorgehen erarbeitet und umgesetzt: 1) Zunächst galt es geeignete Probanden zu identifizieren. Hierfür wurden Berufsbezeichnungen verwendet, die eine Erfahrung mit der Auswahl von Logistikdienstleistern suggerieren lassen und mit der Definition der Grundgesamtheit übereinstimmen.13 Die Berufsbezeichnungen aus Sample 1 wurden insbesondere um Berufe in der Logistik, Supply Chain Management und generell um Begriffe, die die Schnittstelle zwischen Beschaffung und Logistik reflektieren sollen, ergänzt.14 Dies geschah unter anderem vor dem Hintergrund der Repräsentativität, da in Sub-Sample 1 bereits festgestellt werden musste, dass Logistik- und Supply Chain Manager vergleichsweise unterrepräsentiert waren. Folgende Suchbegriffe fanden daher Verwendung: „Head of Logistics“; „Leiter Logistik“; „Director Logistics“; „Head of Supply Chain*“; „Leiter Supply Chain*“; „Head of Purchasing“; „Leiter Einkauf“; „Purchasing & Logistics“; „Einkauf & Logistik“; „Procurement & Logistics“. 2) Den potenziell-relevanten Teilnehmern wurde dann über LinkedIn eine Kontaktanfrage geschickt.15 Im Rahmen dieser wurden die Personen zur Teilnahme an der Umfrage eingeladen.16 3) Unmittelbar nach Annahme der Kontaktanfrage erfolgte die Versendung des Anschreibens mit dem Umfragelink wie bereits bei Sub-Sample 1 erläutert.17 Weitere Überschneidungen zu Sub-Sample 1 sind in den Charakteristiken des Untersuchungssamples zu erkennen. Die Personen bekleiden unterschiedliche Hierarchiestufen, sind in verschiedenen Branchen tätig und deutschsprachig. Insgesamt konnte an 1829 Personen innerhalb von ca. 9 Wochen (20.10.2021 – 23.12.2021) eine Kontaktanfrage versendet werden. Da die Plattform LinkedIn Kontaktanfragen auf 200 per Woche limitiert, wurden die Anfragen und Anschreiben in Sub-Sample 2 ununterbrochen über den 9-wöchigen Zeitraum verschickt.18 Schließlich nahmen 795 Personen die Kontaktanfrage an und erhielten den Umfragelink. Dies entspricht einem prozentualen Anteil von 43,47 %. Grundsätzlich 3 Wochen nach Kontaktannahme/Versenden des Anschreibens erhielten jene Personen eine Teilnahmeerinnerung.19 Von insgesamt 431 Teilnehmern (Brutto-Rücklaufquote: 23,56 %), brachen 177 Personen die Befragung ab. Diese stehen fortan nicht mehr für die statistische Analyse bereit. Damit können 254 beendete Fragebögen verzeichnet werden. Die Beendigungsquote liegt bei 58,93 %.
Sub-Sample 3
Zur Generierung eines dritten Sub-Samples wurde das Datenerhebungsmedium „E-Mail“ eingesetzt. Die Abteilung für ABWL, Logistik- und Beschaffungsmanagement verfügt über eine jahrelang bewährte Stichprobe mit Personen aus den Bereichen Beschaffung, Supply-Chain Management, Logistik und Geschäftsführung.20 Die vorzufindenden Funktionsbereiche lassen ebenso Relevanz und Repräsentativität für das Forschungsprojekt erkennen, wie bereits die bei den vorherigen Sub-Samples. Deckungsgleichheit besteht auch in den Merkmalen: 1) unterschiedliche Hierarchiestufen 2) verschiedene Branchen 3) deutschsprachig.21 Beginn des Erhebungszeitraums war der 19.11.2021. Zu diesem Zeitpunkt wurden 990 Personen erstmals per E-Mail angeschrieben und gleichzeitig zur Umfrageteilnahme aufgefordert. Das Anschreiben beinhaltete dieselben wesentlichen Elemente, wie auch zuvor bei den Anschreiben über die Plattform LinkedIn.22 284 E-Mails konnten aus unterschiedlichen Gründen (ungültige E-Mail-Adresse, Ruhestand, Elternzeit) nicht zugestellt werden. Die 706 potenziellen Teilnehmer wurden ebenfalls nach 3 Wochen zur Teilnahme erinnert. Nach Ende des Erhebungszeitraums am 23.12.2021 konnten 321 Teilnahmen notiert werden. Daraus folgt eine Brutto-Rücklaufquote von 45,5 %. Diese ist annähernd vergleichbar mit vorherigen Untersuchungen, bei denen derselben Datensatz verwendet wurde.23 Allerdings haben 233 Personen die Befragung abgebrochen, weshalb letztendlich nur 88 beendete Fragebögen für die weiteren Schritte der Datenbereinigung zur Verfügung standen. Die schlechte Beendigungsquote (27,41 %) ist vor allem auf häufige Abbrüche zu Beginn und in der Mitte der Umfrage zurückzuführen.24 Im Vergleich zu den LinkedIn Umfragen, lässt dies ein geringes Commitment zur Umfrage und zum Forschenden erahnen. Der persönlichere Kontakt und die Profiltransparenz bei LinkedIn scheinen von Vorteil zu sein.
Über die drei Sub-Samples hinweg, ergeben sich somit 894 Teilnehmer bei einer Stichprobe von 3795.25 Dies entspricht einer Brutto-Rücklaufquote von 25,5 %. Von den 894 Teilnehmern beendeten 415 Personen die Befragung (Beendigungsquote: 46,42 %). Grundsätzlich wurde versucht die Selektionskriterien zur Identifikation geeigneter Probanden stets in Übereinstimmung mit der Grundgesamtheit zu treffen, um eine Repräsentativität der Stichproben zu gewährleisten und die Gefahr eines Non-Sampling Bias zu minimieren. Um nun neben der Brutto-Rücklaufquote, auch die Netto-Rücklaufquote für die drei Sub-Samples bestimmen und die potenziellen Fehler der Repräsentativität final kontrollieren26 zu können, müssen der Datensatz zunächst aufbereitet und die effektive Stichprobe herausgearbeitet werden.

4.1.2 Datenbereinigung

Zur Sicherstellung einer hohen Datenqualität ist es unerlässlich die Daten im Vorgang an die Datenanalyse zu sichten und zu bereinigen.27 Im Rahmen dessen galt es zunächst den Informant Bias zu kontrollieren. Dies geschah über die Auswertung der Filterfragen. Da hierdurch die Umfrage bei einem Teil der Teilnehmer direkt zu Beginn beendet wurde und somit für diese keine weiteren Daten erfasst werden konnten, war es auch erst nach der Auswertung der Filterfrage möglich die Sub-Samples zusammenzuführen (Kapitelabschnitt 4.1.2.1). Nach erfolgter Zusammenführung wurde der gesamte Datensatz dann auf Antworttendenzen, Missing Values und Ausreißer kontrolliert (Kapitelabschnitt 4.1.2.2).

4.1.2.1 Kontrolle des Informant Bias und Zusammenführung der Sub-Samples

Obwohl der Untersuchungseinheit entsprechende Probanden zur Teilnahme an der Umfrage angeschrieben werden, ist nicht sichergestellt, dass diese auch tatsächlich Erfahrungen mit der Auswahl von Logistikdienstleistern haben. Es kann nur bedingt davon ausgegangen werden, dass nur jene den Fragebogen beantworten werden, die sich durch das Thema angesprochen fühlen. Daher wurde zu Beginn der Umfrage eine Filterfrage eingebaut, die diese Erfahrungen der Teilnehmer abfragt. Wenn eine Person keine Erfahrungen nachweisen konnte, wurde die Befragung beendet und es wurden keine Daten zur statistischen Analyse generiert. Jedoch zählen diese ebenfalls zu den 415 beendeten Fragebögen. In insgesamt 66 Fällen (Sub-Sample 1: 24, Sub-Sample 2: 23, Sub-Sample 3: 19) konnte keine Erfahrungen mit der Auswahl von Logistikdienstleistern verzeichnet werden. Diese wurden in Folge exkludiert. Ein weiterer Fragebogen aus Sub-Sample 3 wurde nach Ablehnung der Datenschutzrichtlinien ebenfalls aussortiert; auch hier wurde die Befragung direkt zu Beginn beendet. Damit stehen in Sub-Sample 1 49 Datensätze, in Sub-Sample 2 231 Datensätze und in Sub-Sample 3 68 Datensätze bereit.
Zur Gewährleistung einer einheitlichen und vollständigen Datenbereinigung wurden im Anschluss daran die drei Sub-Samples auf ihre Differenzen mit dem Ziel der Zusammenführung untersucht.28 Hierzu wurde ein Wilks-Lambda-Test für alle Modellvariablen inklusive formativer MSE-Messung29 durchgeführt. Der Wilks-Lambda-Test erwies sich als nicht signifikant (p = 0,153). Demzufolge liegen keine signifikanten Gruppenunterschiede vor. Ergänzend wurden die einzelnen Indikatoren über die drei Gruppen verglichen. Lediglich für fünf Indikatoren konnten signifikante Unterschiede (p<0,05) festgestellt werden [IRN 07 (p = 0,025), MSE 01 (p = 0,038), NFC 04 (p = 0,038), MSE MAB 06 (p = 0,025), MSE MAA 05 (p = 0,034)]30. Die geringe Anzahl an signifikanten Indikatoren unterstreicht noch einmal die aufgestellte Annahme, dass zwischen den drei Samples keine nennenswerten Unterschiede auftreten. Vor dem Zusammenführen der Datensätze allerdings soll noch einmal verdeutlicht werden, dass nicht nur keine erheblichen Unterschiede zwischen den drei Samples auftreten, sondern insbesondere auch keine zwischen den beiden eingesetzten Datenerhebungsmedien (LinkedIn und E-Mail). Daher wurden die Sub-Samples 1 und 2 im Rahmen einer zweiten Analyse als eine gemeinsame Teilstichprobe behandelt. Die Mittelwerttests erwiesen sich, wie zu erwarten, weitestgehend als nicht signifikant. Lediglich bei fünf Indikatoren [IRN 04 (p = 0,037), IRN 06 (p = 0,024), IRN 07 (p = 0,007), NFC 04 (p = 0,019), MSE MAA 05 (p = 0,009)] kann von Differenzen (p<0,05) zwischen den beiden Gruppen ausgegangen werden.31 Daher werden die 3 Sub-Samples im Folgenden zusammengeführt und als eine Gesamtstichprobe behandelt.32 Die nachfolgenden Schritte der Datenbereinigung erfolgen somit auf Grundlage des gesamten Datensatzes mit 348 Fällen.

4.1.2.2 Kontrolle und Umgang mit Antworttendenzen, Ausreißern und Missing Values

Zur Überprüfung des Datensatzes auf flüchtige Antworten können die Antwortzeiten der Teilnehmer herangezogen werden. Hierzu wurde die mittlere Antwortzeit (18,4 Minuten33), sowie der Median (15,033 Minuten) bestimmt und ausgehend von diesem all jene Fragebögen im Detail gesichtet, die unterhalb des Medians liegen. Dies waren insgesamt 164 Fälle. Hinzukamen weitere 21 Datensätze, bei denen eine Unterbrechung registriert wurde und daher keine systemseitig verlässliche Antwortzeitbestimmung möglich war und weitere drei Datensätze, die durch sehr lange Antwortzeiten herausstachen.34 Bei drei Fällen konnte eine häufige Verwendung von Extremwerten, bei einem Fall ein gleichbleibendes Antwortmuster für die individuellen Markenattribute registriert werden. Insbesondere der letzte Fall lässt den Schluss zu, dass der Proband zum Ende des Fragebogens die Motivation verloren hat und die Fragen systematisch angekreuzt hat. Eine Beantwortung scheint aber auch in weniger als 15 Minuten möglich zu sein. Die drei Fälle, die durch eine häufige Verwendung von Extremwerten aufgefallen waren, wurden zunächst bis zur detaillierten Analyse der Häufigkeiten beibehalten, aber als kritisch vermerkt. Der weitere Fall, der aufgrund des gleichbleibenden Antwortmuster als kritisch eingestuft wurde, wurde exkludiert. Damit beläuft sich der Datensatz nunmehr auf 347 Fälle.
In einem nächsten Schritt wurden die Häufigkeiten der Likert-skalierten Werte (1–7) analysiert. Die meisten Häufigkeiten konnten für die Werte 5 und 7 identifiziert werden. Mit einer Häufigkeit von 40 liegen die jeweiligen beiden Werte bei ca. 50 % aller Fragen. Es wurden anschließend alle Datensätze analysiert, die für eine der sieben Ausprägungen einen hohe Häufigkeitswert aufwiesen. Bis auf die zuvor durch die Zeitdauer bereits vermerkten drei Fälle konnten keine weiteren als auffällig deklariert werden. Diese zeigten aber sehr hohe Ausprägungen in den Extremwerten und wurden daher exkludiert. Demnach reduziert sich die Stichprobe auf 344 Datensätze.
Als nächstes wurden die offenen Fragen zur Erfassung der Buying-Center Größe (BCG), der Zeitdauer der Auswahlentscheidung (DLA) und dem Zurückliegen der Auswahlentscheidung (ZLA) nach der Plausibilität ihrer höchsten und niedrigsten Werte gesichtet. In vier Fällen wurden hier vereinzelt oder bei allen Variablen Werte mit 0 angegeben. Hieraus lässt sich beispielsweise schlussfolgern, dass die Entscheidung kürzer als einen Monat zurückliegt bzw. die Auswahlentscheidung weniger als eine Woche andauerte. Auch denkbar wäre, dass den Probanden die Erinnerung fehlt und mit der Errechnung der Wochen/Monate überfordert waren. In zwei Fällen gaben die Respondenten an, dass keine Person an der Auswahlentscheidung partizipiert hat (BCG), obwohl die Beantwortung der Entscheidungsbefugnis auf mindestens zwei Buying-Center Mitglieder hindeutet. Da bei diesen Fällen aber keine weiteren Auffälligkeiten nachweisbar waren, werden die Angaben für die Buying-Center Größe als Missing Values behandelt. Für die Variablen ZLA und DLA wurden die Werte 0 beibehalten. Es kann nämlich nicht ausgeschlossen werden, dass die Probanden hier bewusst darlegen wollten, dass die Entscheidung weniger als einen Monat zurückliegt und die Entscheidung weniger als eine Woche andauerte. Zudem waren auch hier die Angaben zu den Modellvariablen der Befragung plausibel. Dasselbe galt für die sehr hohen Ausprägungen bei den offenen Fragen. Auch hier stachen zwei Datensätze bei der Dauer der Auswahlentscheidung (DLA) hervor – mit Angaben von 836 und 610 Wochen. Das entspricht 11 bzw. 16 Jahren. Damit sind sie das 10-fache des nächst-höheren Wertes. Daher wurden die beiden Antworten im Weiteren als Missing Values behandelt. Neben den offenen Fragen wurden auch die weiteren demografischen Angaben, wie zu den Funktionsbereichen (FKB) und der Branchenzugehörigkeit (BZG) im Detail analysiert. Hinsichtlich der Branchenzugehörigkeit fiel ein weiterer Fall auf – dieser hatte als Branche die „Öffentliche Verwaltung, Verteidigung; Sozialversicherung“ angegeben. Bei diesem Fall war nicht auszuschließen, dass der Respondent sich auf eine in der Vergangenheit stattgefundene öffentliche Beschaffungstätigkeit35 bezieht. Da der Untersuchungsgegenstand der Studie zuvor innerhalb der (privatwirtschaftlichen) organisationalen Beschaffung verortet wurde, wurde dieser Fall von der weiteren Analyse exkludiert. Weitere Fälle fielen durch fehlende Angaben bei UMS (4), EKV (3), GES (1), BZG (8) und BEF (1) auf. Die Einzelangaben wurden folglich als Missing Values deklariert.
Nach der Identifikation der Missing Values soll in Anlehnung an Kapitelabschnitt 3.​2.​1.​2 an dieser Stelle der Umgang mit diesen erörtert werden. Zum einen kann festgehalten werden, dass die Anzahl fehlender Werte sehr gering ist. Zum anderen umfassen die identifizierten Missing Values weder die Modellvariablen noch die indirekte Messung der Markensensibilität. Lediglich die demografischen Abfragen, sowie die Kontrollvariablen sind betroffen. Angesichts eines zu erwartenden Informationsverlustes bei Löschen der mit Missing Values betroffenen Datensätze, wird auf das Verfahren der listenweisen Exklusion abgesehen. Hingegen soll gemäß den Empfehlungen von Hair et al. (2022) für die später folgende Stabilitätsprüfung36 als Imputationsverfahren der Mittelwertersatz (Mean Replacement) umgesetzt werden.37 Eine Verzerrung durch den Mittelwertersatz, wie von einigen Autoren befürchtet38, ist aufgrund der geringen Anzahl (<5 % je Indikator), sowie der geringen Bedeutung der betroffenen Indikatoren für die Hauptanalyse nicht zu erwarten.39 Damit sind nach dem Datenbereinigungsschritt und nach der Klärung zum Umgang mit Item-Non-Responses noch 343 Datensätze vorhanden.
Ein weiterer wichtiger Schritt in der Datenbereinigung bildet die Identifikation von Ausreißern. Gemäß den Empfehlungen von Sarstedt und Mooi (2019) wurden zur Analyse von Ausreißern zunächst für jeden einzelnen Indikator der Modellvariablen inklusive der indirekten MSE-Messung die Mittelwerte, Standardabweichungen und Boxplots generiert40. Diese univariate Analyse zeigte für mehrere Indikatorvariablen potenziell milde41 und extreme Ausreißer42 an. Insbesondere fiel ein Fall durch sehr hohe Ausprägungen bei dem Wert MWI Marke auf – im Vergleich zu den nächst-folgenden Datensätzen lag er 200 % höher. Nichtsdestotrotz wurden zunächst alle als extreme Ausreißer zu deklarierende Werte beibehalten und weiteren Methoden zur Prüfung von Ausreißern unterzogen.
Ebenfalls empfehlen Sarstedt und Mooi (2019), sowie Hair et al. (2019a) die Identifikation von Ausreißern mittels bivariater Verfahren (bspw. Screeplots). So wurden zunächst Composite-Variablen generiert und diese dann in Verbindung mit den entsprechenden Variablen aus dem Hypothesenmodell in Screeplots43 überführt. So lassen sich Datensätze bestimmen, die vor allem durch die Kombination von Variablen als Ausreißer auffallen. Diese sind dann im Screeplot als isolierte Punkte wahrnehmbar.44 Basierend auf den Ergebnissen der bivariaten Analyse konnten ebenfalls kritische Ausreißer vermerkt werden.
Zur Identifikation multivariater Ausreißer wurden verschiedene Verfahren angewendet.45 Zum einen wurden die Modellvariablen mittels Single-Linkage Clustering untersucht.46 Die grafische Analyse des Dendogramms lässt somit einen Rückschluss auf mögliche Ausreißer zu. Ebenfalls wurde die Mahalanobis Distanz berechnet.47 Hierbei wurden alle Fälle markiert, die gemäß Tabachnick und Fidell (2019) einen berechneten p-Value <0,00148 oder nach Hair et al. (2019a) einen D2/df-Wert > 2,549 haben. Zur Verifikation der in SPSS generierten Ergebnisse, wurde der Mahalanobis-Wert ebenfalls mit AMOS berechnet. Auch hier wurde das Kriterium D2/df-Wert > 2,5 zur Bestimmung kritischer Fälle angewendet.50
Nach Durchführung der uni-, bi-, und multivariaten Analyse lagen mehrere potenziell kritische Ausreißer vor. Die meisten Datensätze traten hierbei jedoch einmalig auf. Allerdings gab es insgesamt acht Datensätze, die wiederholt bei den verschiedenen Analyseverfahren als Ausreißer auftraten und demnach als besonders kritisch eingestuft wurden.51 Aufgrund dessen wurden diese aus dem Sample exkludiert.52 Somit verbleibt nach der Datenbereinigung eine effektive Stichprobe mit final 335 Fällen.

4.1.3 Datenbeschreibung und Kontrolle potenzieller Fehler der Repräsentativität

Mit dem Herausarbeiten der effektiven Stichprobe nach der Datenbereinigung können nun auch die Fehler der Repräsentativität (Non-Sampling Bias, Non-Response Bias) und die Netto-Rücklaufquote für die Sub-Samples53 als auch für das Gesamtsample kontrolliert und berechnet werden. Letztere liegt für das Gesamtsample bei 9,5 % (siehe Abbildung 4.2). Diese ist vergleichbar mit vorherigen Arbeiten im Bereich der Logistikforschung,54 sowie der Beschaffungsforschung.55 Auch Griffis et al. (2003) stellen fest, dass in der Logistikforschung Rücklaufquoten von 20 % nur noch selten zu erreichen sind.56 Überdies beobachten Wagner und Kemmerling (2010) eine Abnahme der Rücklaufquoten im Zeitverlauf, sowie eine Abnahme der Rücklaufquote mit steigender Anzahl an versendeten Umfragen.57 Angesichts der hohen Zahl an versendeten Fragebögen im vorliegenden Fall, scheint die erreichte Netto-Rücklaufquote gemäß den Erkenntnissen von Wagner und Kemmerling (2010) wenig überraschend.
Abbildung 4.2
Berechnung der Netto-Rücklaufquote58
Auffällig ist hingegen die geringe Netto-Rücklaufquote für Sub-Sample 1 mit 4,7 %59, während Sub-Sample 2 mit 12,2 % eine vergleichsweise gute Netto-Rücklaufquote vorweisen kann. Sub-Sample 3 liegt indessen auf dem Niveau des Gesamtsamples (9,2 %). Die Größe der effektiven Stichproben von Sub-Sample 2 und 3, sowie das Gesamtsample können als vergleichbar mit vorherigen Forschungsarbeiten eingeordnet werden.60 Auch die Größe der effektiven Stichprobe von Sub-Sample 1 mit 46 Datensätzen ist nicht ungewöhnlich für web-basierte Befragungen im Bereich der Logistik.61 Jedoch spricht beispielsweise Homburg (2020) davon, dass eine effektive Stichprobe mindestens 50 Objekte umfassen sollte.62 Angesichts dessen und auch aufgrund der geringen Netto-Rücklaufquote kann bei Sub-Sample 1 von einer Gefahr für Non-Response Bias ausgegangen werden. Die beiden anderen Sub-Samples sind nach Diskussion der Netto-Rücklaufquote und Größe der effektiven Stichprobe als eher unkritisch einzustufen.
Da allerdings bei hohen bzw. angemessenen Rücklaufquoten nur bedingt das Auftreten eines Non-Response Bias ausgeschlossen werden sollte, ist es angebracht weitere Kontrollen zu unternehmen.63 Eine weitere zuvor erarbeitete Möglichkeit zur Prüfung des Non-Response Bias, liefert beispielsweise der Ansatz von Armstrong und Overton (1977). Grundsätzlich besteht der Verdacht, dass die Nicht-Respondenten nicht zufällig fehlen, sondern aufgrund ihrer Charakteristika von den Respondenten abweichen und deshalb nicht teilgenommen haben.64 Da ein statistischer Strukturvergleich zwischen den Antwortenden und Nicht-Antwortenden für die vorliegende Untersuchung aufgrund fehlender Daten der Nicht-Antwortenden nicht möglich ist, empfiehlt es sich die spät Antwortenden als Nicht-Antwortende zu behandeln. Es wird davon ausgegangen, dass sich diese in ihren Charakteristiken und Antwortverhalten ähnlicher sind als die früh Antwortenden.65 Zu diesem Zweck wurde das Sub-Sample 1 mit Hilfe des Stichtages der Erinnerungsnachricht in zwei Gruppen geteilt.66 In diesem Sinne entsprechen all jene, die nach der Erinnerungsnachricht geantwortet haben, den späten Antwortenden, und alle jene die davor geantwortet haben, den frühen Antwortenden. Für die folgenden Indikatoren konnte ein Gruppenunterschied (p<0,05) identifiziert werden: WAR 04, MSE 03, MSE MAB 04, MSE MAB 06, MSE MAB 10, MSE MAA 04, MSE MAA 10.67 Es scheint, dass sich die frühen und späten Antwortenden in Sub-Sample 1 vorwiegend bei der Markenwahrnehmung unterscheiden. Dies bestätigt den ersten Eindruck nach der Analyse der Nettorücklaufquote und Größe der effektiven Stichprobe, dass die Gefahr für einen Non-Response Bias für Sub-Sample 1 besteht. Angesichts der geringen Anzahl an signifikanten Gruppenunterschieden kann allerdings von einem geringen Non-Response Bias ausgegangen werden. Dasselbe Verfahren konnte ebenfalls für Sub-Sample 3 durchgeführt werden. Für alle Indikatoren der Modellvariablen und der indirekten Messung der Markensensibilität konnte kein Gruppenunterschied festgestellt werden.68 Demnach scheint eine Verzerrung durch Non-Response Bias für das Sub-Sample 3 als sehr unwahrscheinlich. Für Sub-Sample 2 konnte keine Prüfung des Non-Response Bias mittels der „Wave“-Analyse durchgeführt werden. Grund hierfür ist das fortlaufende Anschreiben der Probanden im Wochenrhythmus. Somit kann weder ein Stichtag zum Gruppieren der Probanden festgelegt noch generell frühe und späte Antwortende identifiziert werden. Auch eine Prüfung des Non-Response Bias mittels der sogenannten „Incentive“-Analyse69 musste aufgrund der Datenschutzrichtlinien verworfen werden. Somit kann der Non-Response Bias für das Sub-Sample 2 nur entlang der Netto-Rücklaufquote und der Größe der effektiven Stichprobe beurteilt werden. Hier ist allerdings ein geringes Risiko für Non-Response Bias zu erkennen.
Als weitere Kontrollmöglichkeit sowohl des Non-Sampling Bias als auch des Non-Response Bias schlagen verschiedene Autoren einen Strukturvergleich vor – zum einen zwischen der Grundgesamtheit und der Stichprobe, zum anderen zwischen der Stichprobe und der effektiven Stichprobe.70 Da kaum Daten für die Stichprobe als auch die Grundgesamtheit erhoben werden konnten und die Beschaffung dieser äußerst zeit- und kostenintensiv gewesen wäre71, konnten auch keine interferenzstatistischen Tests zur Überprüfung durchgeführt werden. Insofern ist auch eine Trennung zwischen Non-Sampling und Non-Response Bias bei der Kontrolle der Strukturgleichheit nicht möglich. Diesem Umstand geschuldet, wird nun versucht die Repräsentativität der effektiven Stichprobe und damit die Generalisierbarkeit deskriptiv anhand zentraler Merkmale zu beurteilen.72 Zu diesem Zweck sollen vergleichbare Studien und relevante Statistiken als Referenz für die effektive Stichprobe herangezogen werden. Als solche zentralen Merkmale wurden die persönlichen Charakteristiken der Teilnehmenden (Hierarchische Position, Berufserfahrung, Funktionsbereich, Geschlecht), die Unternehmensmerkmale (Branchenzugehörigkeit, Mitarbeiterzahl, Gesamtumsatz), als auch die Merkmale der Einkaufsabteilung (Einkaufsvolumen) erhoben.
Nach Auswertung der hierarchischen Position kann festgehalten werden, dass die Respondenten die erste Führungsebene überproportional häufig (209) besetzen, gefolgt von der zweiten Führungsebene (87). Dagegen sind die Respondenten eher selten auf der operativen Ebene (23) und im Top-Management (16) tätig (siehe Abbildung 4.3).
Abbildung 4.3
Datenbeschreibung – persönliche Merkmale73
Die effektive Stichprobe kann insofern als aussagekräftig eingestuft werden, als dass primär die Mitglieder der ersten und zweiten Führungsebene einen Überblick über die Logistikdienstleisterauswahl haben und stark im Entscheidungsprozess involviert sind. Dies bestätigt auch Large (2017) in dem er zeigen konnte, dass vor allem der Chief Purchasing Officer als auch der Chief Logistics Officer, welche diesen Ebenen zuzuordnen sind, die häufigste Kommunikation zu den Logistikdienstleistern während einer Auswahlentscheidung aufweisen.74 Eine vergleichbare Verteilung zeigt sich auch in der Studie von Kaufmann et al. (2012a) zum Entscheidungsverhalten bei der Lieferantenauswahl. Hier wurden ebenfalls überwiegend Personen aus der Hierarchiestufe „department head/purchasing director“ als relevant eingestuft und letztendlich befragt.75
Die Berufserfahrung der Respondenten ist dagegen nahezu ausgeglichen. Die meisten Befragten geben eine Berufserfahrung von 16 bis 20 Jahren an (79). Auf einem annährend gleichen Niveau umfasst die effektive Stichprobe Respondenten mit 6 bis 10 Jahren. Absteigend liegen Berufserfahrungen von 11 bis 15 Jahren (62), 21 bis 35 Jahren (58) und weniger als 5 Jahre (53) vor. In seltenen Fällen zeigen die Befragten eine Berufserfahrung über 35 Jahren (7). Zum Vergleich weisen die Probanden bei Tsai et al. (2012) im Kontext des Logistik-Outsourcings im Schnitt eine Berufserfahrung von 13,2 Jahren auf.76 Vor diesem Hintergrund scheint die vorliegende Verteilung der Berufserfahrung durchaus plausibel. Alles in allem kann den Befragten eine hinreichende Berufserfahrung unterstellt werden.
Hinsichtlich des Geschlechts der Befragten präsentiert sich eine ungleiche Verteilung: 88 % der Teilnehmer (296) sind männlich, 11 % sind weiblich (38). Aber auch andere Studien in der Beschaffungsforschung sind mit der ungleichen Verteilung der Geschlechter konfrontiert.77 So sehen beispielsweise Zinn et al. (2018) das Supply Chain Management und die Logistik aufgrund des Image-Problems als vorwiegend Männerdominiert. Die Autoren machen dies exemplarisch an den Teilnehmern des Council of Supply Chain Management fest, wonach der Anteil der Frauen im Jahr 2016 bei rund 15 % lag.78 Die vorliegende effektive Stichprobe erreicht demnach einen vergleichbaren Prozentsatz.
Bei Betrachtung der Funktionsbereiche (siehe Abbildung 4.4), in denen die Befragten tätig sind, zeigt sich ein vielfältiges Bild; wobei drei Funktionsbereiche dominieren. Diese sind wenig überraschend79 Logistik (135), Einkauf (103) und Supply Chain Management (73). Weniger häufig dagegen treten die Funktionsbereiche General Management (6), Produktion (2), Berater/Consultant (6) und Controlling/Finanzen (3) in der effektiven Stichprobe auf. In Übereinstimmung mit den Erkenntnissen von Large (2017), Large und Kovács (2001) und Sink und Langley (1997) ist für die folgende statistische Auswertung damit sichergestellt, dass die an einer Logistikdienstleisterauswahl beteiligten Funktionsbereiche zuverlässig in der Umfrage erfasst wurden und die Befragten demnach aussagefähig sind.80
Abbildung 4.4
Datenbeschreibung – Funktionsbereich81
Gemäß des Untersuchungsgegenstandes und der Untersuchungsebene wurde keine Restriktion bei der Branche vorgenommen.82 Die effektive Stichprobe deckt daher ein breites Spektrum ab (siehe Abbildung 4.5).83 Am stärksten repräsentiert sind die Branchen Maschinen- und Anlagenbau (60), Handel (48), Fahrzeugbau (36), Chemie/Pharmaindustrie (33), Verkehr und Lagerei84 (32), Metallindustrie (27), Elektroindustrie (20) und sonstiges verarbeitendes Gewerbe (26). Nach der Definition des Deutschen Statistischen Bundesamts können somit 64 % (213) dem Wirtschaftszweig „Verarbeitendes Gewerbe (WZ08-C)“ zugeordnet werden. Zur Prüfung, inwiefern die vorliegende effektive Stichprobe die Abnehmer logistischer Dienstleistungen zuverlässig abdeckt, kann die Studie „TOP 100 der Logistik“ von Schwemmer und Klaus (2021) herangezogen werden. Auch hier wird deutlich, dass eine Vielzahl unterschiedlicher Branchen als Abnehmer logistischer Dienstleistungen auftreten. Überwiegend sind das der Lebensmittelhandel, die Dienstleistungsbranche, die Automobilbranche, die Metall- und Maschinenbranche, die Chemiebranche und das Baugewerbe. All jene sind auch in der vorliegenden effektiven Stichprobe vertreten.85 Schließlich kann argumentiert werden, dass die vielfältigen Abnehmer logistischer Dienstleistungen durch die effektive Stichprobe angemessen erfasst wurden.
Abbildung 4.5
Datenbeschreibung – Branchenzugehörigkeit86
Die Unternehmen, in denen die Teilnehmer tätig sind, können beispielhaft über den Gesamtumsatz (GU) und die Mitarbeiterzahl des letzten Jahres (2020) beschrieben werden (siehe Abbildung 4.6). Hinsichtlich der beiden Indikatoren zeigt sich annährend eine Normalverteilung entlang der vorgegebenen Ausprägungen. Gemäß dem Gesamtumsatz können 2 % als Kleinstunternehmen, 7 % als kleine Unternehmen, 14 % als mittlere Unternehmen und 77 % als Großunternehmen deklariert werden. Das Ergebnis spiegelt sich auch bei der Mitarbeiterzahl wider. Hier können ebenfalls 2 % als Kleinstunternehmen, 4 % als kleine Unternehmen, 12 % als mittlere Unternehmen und 82 % als Großunternehmen bezeichnet werden.87 Als Vergleich kann exemplarisch die in Deutschland vorzufindende Verteilung der im Verarbeitenden Gewerbe88 tätigen Personen auf die verschiedenen Unternehmensgrößen herangezogen werden. Demzufolge waren im Jahre 2020 63 % der im Verarbeitenden Gewerbe tätigen Personen in Großunternehmen, 18 % in mittleren Unternehmen, 13 % in kleinen Unternehmen und 6 % in Kleinstunternehmen angestellt.89 Zwar ist der prozentuale Anteil der in Großunternehmen tätigen Personen in der vorliegenden effektiven Stichprobe höher, dennoch wird eine abnehmende Tendenz entlang der Unternehmensgrößen auch hier deutlich – gravierende Abweichungen sind nicht zu erkennen. Schließlich spiegelt die effektive Stichprobe die im deutschen Verarbeitenden Gewerbe vorzufindenden Unternehmensstrukturen zur Zufriedenheit wider.
Abbildung 4.6
Datenbeschreibung – Unternehmensmerkmale90
Die Einkaufsvolumina (EV) ist mit Blick auf ein Histogramm annähernd normalverteilt (siehe Abbildung 4.7). Der größte Anteil wird durch Unternehmen mit einem Einkaufsvolumen zwischen 50 Mio. und 500 Mio. (106) abgedeckt, gefolgt von Unternehmen mit einem Einkaufvolumen zwischen 10 Mio. und 50 Mio. (66) und Unternehmen mit einem Einkaufsvolumen zwischen 500 Mio. und 5 Mrd. (58). In gleichem Umfang vertreten sind Unternehmen mit einem Einkaufsvolumen zwischen 2 Mio. und 5 Mio. (26), 5 Mio. und 10 Mio. (28) und 5 Mrd. bis 20 Mrd. (24). Weniger häufig sind dagegen Unternehmen mit sehr hohem (17) und sehr geringem Einkaufsvolumen (7) vertreten. Wie auch schon im Rahmen der Mitarbeiter- und Gesamtumsatzanalyse kann festgehalten werden, dass die effektive Stichprobe ein breites Spektrum an Einkaufsabteilungsgrößen abdeckt.
Abbildung 4.7
Datenbeschreibung – Einkaufsvolumen91
Schließlich zeigt sich anhand der verschiedenen Merkmale, dass die effektive Stichprobe keine ungewöhnlichen Ausprägungen aufweist. Die Probanden scheinen für die Analyse des Untersuchungsgegenstands ebenso relevant wie auch aussagekräftig zu sein. Zwar konnten die Fehler der Repräsentativität nicht final mittels Strukturvergleichen überprüft werden, jedoch kann auf Basis der verschiedenen anderen Kontrollmaßnahmen davon ausgegangen werden, dass das Risiko für einen Non-Sampling und Non-Response Bias sehr gering ist. Die effektive Stichprobe wird infolgedessen als repräsentativ für die Grundgesamtheit beurteilt, womit letztendlich auch die Generalisierbarkeit der Ergebnisse gegeben zu sein scheint.

4.2 Einführung in das statistische Datenanalyseverfahren

In diesem Kapitelabschnitt wird zunächst die Normalverteilungsannahme für die Modellvariablen diskutiert (Kapitelabschnitt 4.2.1). Diese dient im Anschluss zur Argumentation für PLS-SEM als geeignetes statistisches Datenanalyseverfahren (Kapitelabschnitt 4.2.2), bevor abschließend die Gütekriterien zur Auswertung von PLS-SEM Ergebnissen vorgestellt werden (Kapitelabschnitt 4.2.3). Das Vorgehen zur Bestimmung des Datenanalyseverfahrens fasst Abbildung 4.8 zusammen.
Abbildung 4.8
Vorgehen bei der Bestimmung des Datenanalyseverfahrens92

4.2.1 Diskussion der Normalverteilungsannahme

Vor der Bestimmung des Datenanalyseverfahrens muss zunächst die Normalverteilungsannahme der Daten geprüft werden.93 Dies sollte bei multivariaten Analysemethoden sowohl univariat, als auch multivariat geschehen.94 Im Rahmen der univariaten Normalverteilungsprüfung95 wurde der Kolmogorov-Smirnov- und der Shapiro-Wilk-Test96 verwendet. Die Annahme normalverteilter Daten kann dann angenommen werden, wenn die Tests Signifikanzwerte >0.05 liefert. Dies ist weder bei den Modellvariablen, noch bei den Indikatoren der formativen MSE-Messung der Fall. Daher muss die univariate Normalverteilungsannahme basierend auf den beiden Tests abgelehnt werden. Da dies aber für eine verhaltenswissenschaftliche Studie, sowie für große Samplegrößen wenig überraschend ist,97 sollten ergänzend zu den Tests, die Schiefe und Kurtosis auch mittels Grenzwerte beurteilt werden.98 Homburg und Klarmann (2006) sprechen sich bei den Schiefe- und Kurtosismaßen für Grenzwerte von – 1 und 1 aus.99 Finch et al. (1997) dagegen bezeichnen eine Schiefe von 2 und eine Wölbung von 7 noch als „moderat“.100 Vereinzelte Indikatorvariablen (19) weisen Schiefe- und Wölbungsmaße <−1 oder >1 auf, jedoch sind sie stets unter den nach Finch et al. (1997) als „moderat“ geltenden Grenzwerten. Die Maximalwerte liegen für die Modellvariablen bei −1,640 (Schiefe), bzw. 5,562 (Wölbung). Bei den Indikatoren zur formativen MSE-Messung können Maximalwerte von −1,298 (Schiefe), bzw. 3,352 (Wölbung) verzeichnet werden. Damit können extrem nicht-verteilte Daten ausgeschlossen werden.
Ebenfalls wurden die Indikatorvariablen grafisch mittels Histogramms, Q-Q-Diagramm und trendbereinigtem Q-Q-Diagramm geprüft.101 Wie auch bei der Beurteilung der Schiefe- und Wölbungsmaße weichen einige Indikatorvariablen von einer Normalverteilung ab. Somit liegt für die meisten Modellvariablen und die Indikatoren der formativen MSE-Messung keine univariate Normalverteilung vor, aber eine für das Gesamtmodell als kritisch anzusehende Verzerrung ist nicht zu erwarten.
Aufgrund der oben angeführten Indizien für nicht-normalverteilte Indikatoren ist davon auszugehen, dass auch eine multivariate Normalverteilung für den Datensatz auszuschließen ist.102 Dennoch soll dies im vorliegenden Fall mit Hilfe des Mardia-Koeffizienten103 kontrolliert werden. Der Mardia-Koeffizient der multivariaten Kurtosis liegt bei 97 mit einem t-Wert von 17. Aufgrund der Signifikanz des Mardia-Koeffizienten muss von einer multivariaten Nicht-Normalverteilung ausgegangen werden.

4.2.2 PLS-SEM – Begründung und Hintergrund des statistischen Datenanalyseverfahrens

Basierend auf den zuvor aufgrund des Forschungsbedarfs getroffenen Entscheidungen und Schritte hinsichtlich der Entwicklung des Hypothesensystems104 und der Messmodelle,105 soll an dieser Stelle ein angemessenes statistisches Analyseverfahren bestimmt werden (MS 4), damit die nun bereinigten Daten analysiert werden können. Die erste Anforderung an das Analyseverfahren wird durch das Hypothesensystem gestellt. Dieses erfordert die gleichzeitige Analyse mehrerer Variablen und Kausalzusammenhänge. Demzufolge kommen prinzipiell die multivariaten Analyseverfahren, insbesondere aber die multiple Regressionsanalyse und die Strukturgleichungsmodellierung, in Frage.106 Da die multiple Regressionsanalyse allerdings keine Untersuchung komplexer Kausalketten zulässt, keine Messfehler miteinbezieht und für die Berücksichtigung latenter Variablen wenig geeignet ist,107 wird die Strukturgleichungsmodellierung im vorliegenden Fall für zweckmäßiger befunden und umgesetzt.
Zentrales Charakteristikum der Strukturgleichungsmodellierung ist die Trennung in ein Strukturmodell und ein Messmodell.108 Unter dem Strukturmodell werden dabei die theoretisch hergeleiteten, gerichteten Wirkungszusammenhänge zwischen den latenten exogenen und latenten endogenen Variablen zusammengefasst.109 Insofern bildet das bereits entwickelte Hypothesensystem das Strukturmodell. Formal betrachtet ist das Strukturmodell ein System linearer Gleichungen.110 Demgegenüber werden auf der Messmodellebene die Beziehung zwischen den latenten Variablen und den ihnen zugeteilten manifesten Indikatoren betrachtet.111 Die Überprüfung eines Strukturgleichungsmodells beginnt auf der 1) Messmodellebene und geht dann zur 2) Strukturmodellebene über.112
Nach der Bestimmung der Strukturgleichungsmodellierung als multivariates Analyseverfahren, ist es erforderlich einen geeigneten Ansatz zur Modellschätzung zu definieren. Die Methodenliteratur unterscheidet grundsätzlich zwischen der Kovarianzstrukturanalyse (LISREL-Ansatz) und der Varianzstrukturanalyse (PLS-SEM Ansatz).113 Der kovarianzanalytische Ansatz schätzt die Modellparameter mit Hilfe einer empirischen Varianz-Kovarianzmatrix unter Einsatz der Maximium-Likelihood-Methode. Das Ziel dieses Ansatzes ist es, die empirische Varianz-Kovarianzmatrix mit dem geschätzten Modell möglichst genau zu reproduzieren.114 Den Kern der varianzanalytischen Verfahren dagegen bildet die Kleinste-Quadrate-Schätzung (PLS), wodurch die erklärte Varianz bei den endogenen Variablen und den reflektiven Messmodellen maximiert werden soll.115 Der PLS-SEM Ansatz ist durchaus mit einer PLS-Regression vergleichbar, da die Indikatoren eines Messmodells zu gewichteten Composite-Variablen zusammengefasst werden. Die Gewichtung allerdings bringt dem PLS-Ansatz den entscheidenden Vorteil gegenüber der Regression116 – die Berücksichtigung von Messfehlern.117 Dem PLS-SEM Ansatz wird ein explorativer, theorieentdeckender Charakter, dem LISREL-Ansatz ein konfirmatorischer, theoriebestätigender Charakter unterstellt.118 Insofern gilt es nicht wahllos einem Ansatz zu folgen, sondern diesen dem Untersuchungsziel und dessen Modellkonzeption entsprechend auszuwählen und zu begründen:119
Der PLS-SEM Ansatz hat sich in den letzten Jahren als adäquate Methode in der betriebswirtschaftlichen Forschung, insbesondere auch in den Disziplinen Beschaffung, Supply Chain Management und Operations Management etabliert.120 Einer der Gründe, der für den Einsatz von PLS-SEM spricht, ist die zuvor festgestellte multivariate Nicht-Normalverteilung. Denn der varianzanalytische Ansatz setzt entgegen dem kovarianzanalytischen Ansatz keine normalverteilten Daten voraus.121 Des Weiteren kann der PLS-SEM Ansatz auch bei kleinen Samplegrößen angewendet werden.122 Zur Berechnung der notwendigen Samplegröße gibt es unterschiedliche Empfehlungen. Bei PLS-SEM ergibt sich die Minimalanforderung aus der 10-fach-Regel. Demnach soll die Stichprobe mindestens das 10-fache der höchsten Anzahl an formativen Indikatoren oder mindestens das 10-fache der höchsten Anzahl an Pfaden zu einer endogenen Variablen umfassen.123 Für das vorliegende Modell bedeutet dies eine Mindest-Stichprobe für den PLS-Ansatz von 10*13 formativen Indikatoren. Damit sollte die Stichprobe mindestens 130 Datensätze umfassen. Beim LISREL-Ansatz werden unter anderem „weiche“ Grenzwerte von mindestens 100 Fällen, besser jedoch 200 Fällen diskutiert.124 Eine konkretere Empfehlung orientiert sich an den zu schätzenden Parametern.125 Für das vorliegende Modell müssen 68 Parameter geschätzt werden, was eine Mindest-Stichprobe von 340 erfordert. Damit liegt der zuvor bereinigte Datensatz mit 335 nur knapp unter dem Schwellenwert des kovarianzanalytischen Ansatzes, aber deutlich über dem geforderten Mindestwert des varianzanalytischen Ansatzes.
Hinsichtlich des Charakters der Untersuchung gilt festzuhalten, dass einzelne Wirkungsbeziehungen der Beschaffungsmerkmale zwar bereits untersucht wurden, jedoch weder gemeinsam noch als Kausalkette. Überdies fand bisher keine umfassende Integration individueller Charakteristiken im Zusammenhang mit der Markensensibilität statt, was der Studie prinzipiell einen explorativen Charakter verleiht. Angesichts der Größe des Strukturmodells mit 7 Variablen und 8 Hypothesen kann dieses als komplex eingestuft werden. Zusätzlich beinhaltet die Studie eine Untersuchung von Mediationen und Multi-Gruppenvergleichen. Damit spricht die Komplexität des Modells, sowie der teilweise explorative Studiencharakter für eine Anwendung des PLS-SEM Ansatzes.126 Zwar wird der varianzanalytische Ansatz häufig aufgrund seiner fehlenden globalen Goodness-of-fit“ Kriterien zur Beurteilung der Modellgüte kritisiert,127 jedoch konnten Simulationsstudien dem PLS-SEM Ansatz ebenfalls eine gute Performance128 – vor allem bei Studien mit dem Ziel der Theorieentdeckung – bestätigen.129 Diesbezüglich weist Huber et al. (2007) darauf hin, dass der PLS-SEM Ansatz die Pfadkoeffizienten tendenziell unterschätzt, was seine Ergebnisse auf Strukturmodellebene konservativer erscheinen lassen. Insofern sind übereilte Schlüsse hinsichtlich der Signifikanzen der Wirkungsbeziehungen nicht zu erwarten.130 Trotz einzelner Schwächen soll der PLS-SEM Ansatz unter Verwendung der Smart PLS 3 Software aufgrund der oben angeführten Argumente131 als statistische Datenanalysemethode eingesetzt werden.

4.2.3 Gütebeurteilung von PLS-SEM Ergebnissen

Im Rahmen der Messmodellentwicklung wurden sowohl reflektive als auch formative Messmodelle und Single Items bestimmt.132 Diese Vielfalt erfordert auch die Offenlegung der verschiedenen Vorgehensweisen zur Güteprüfung im Rahmen des PLS-SEM Ansatzes. Ausgehend von der vorherrschenden, reflektiven Messung (Kapitelabschnitt 4.2.3.1) werden im Anschluss die Gütebeurteilungen der formativen Messung (Kapitelabschnitt 4.2.3.2) und Single Items (Kapitelabschnitt 4.2.3.3) geschildert. Nach der Gütebeurteilung auf Messmodellebene, erfolgt die Gütebeurteilung auf Strukturebene (Kapitelabschnitt 4.2.3.4). Zur Überprüfung der Robustheit des Strukturmodells werden anschließend eine Reihe von Tests durchgeführt, die ebenfalls eine vorherige Festlegung von Gütekriterien erfordern (Kapitelabschnitt 4.2.3.5). Im Anschluss wird ein besonderes Augenmerk auf die im Hypothesensystem hergeleitete Mediation gelegt (Kapitelabschnitt 4.2.3.6). Schließlich bedingen die ex-post Checks zur Kontrolle der potenziellen Messfehler den Einsatz von Multigruppenanalysen.133 Demzufolge werden im letzten Kapitelabschnitt 4.2.3.7 die Gütekriterien zur Beurteilung von Multigruppenanalysen vorgestellt.

4.2.3.1 Gütebeurteilung reflektiver Messmodelle

Da das Strukturmodell in einer Strukturgleichungsmodellierung die Beziehungen zwischen mehreren hypothetischen Konstrukten abbildet, sind die Güte des Strukturmodells und damit deren Parameterschätzungen maßgeblich auch von der Güte der Messmodelle abhängig. Anders ausgedrückt: Fehler in den Messmodellen bedingen Fehler in der Parameterschätzung.134 Damit sollte vor der Güteprüfung des Strukturmodells, die Güte der Messmodelle sichergestellt werden. Hierbei ist grundsätzlich ein differenziertes Vorgehen bei reflektiven und formativen Messmodellen zu beachten. Eine Übertragung der Gütekriterien reflektiver Messmodelle auf formative Messmodelle ist ausdrücklich nicht möglich.135
Übergreifend ist es das Ziel der Güteprüfung von Messmodellen die Reliabilität und Validität dieser zu beurteilen. Demnach sollen die Messmodelle zum einen unter wiederholter Messung reproduzierbar sein (Reliabilität) und zum anderen das messen, was sie messen sollen (Validität). Als reliabel und valide gelten Messmodelle also dann, wenn zufällige Fehler als auch systematische Fehler ausgeschlossen werden können.136
Die Güteprüfung reflektiver Messmodelle im Kontext des PLS-Ansatzes wird auch als konfirmatorische Compositenalyse zusammengefasst.137 Hierin erfolgt die Reliabilitätsprüfung anhand der Internen-Konsistenz-Reliabilität, der Indikatorreliabilität und der Faktorreliabilität, wobei die letzten beiden auch als Gütemaße gelten. Für die Validität werden die Konvergenzvalidität, die Diskriminanzvalidität, die Inhaltsvalidität und die nomologische Validität kontrolliert (siehe Tabelle 4.1). Bevor die konfirmatorische Compositeanalyse durchgeführt wird, bietet sich eine erste Beurteilung der Konvergenzvalidität – aber auch der Diskriminanzvalidität – mittels explorativer Faktorenanalyse oder Hauptkomponentenanalyse an. Mittels dieser kann die Faktorstruktur und damit die Eindimensionalität der Messmodelle überprüft werden. Zum Feststellen der Konvergenzvalidität und Diskriminanzvalidität sollten die Faktoren also unidimensional sein und die jeweils zugehörigen Indikatoren Ladungen von ≥ 0,4 aufweisen.138
Die Indikatorreliabilität beschreibt den Varianzanteil eines Indikators, der durch das ihm zugeordnete Konstrukt erklärt wird. Er prüft also inwiefern ein einzelner Indikator zur Messung des ihm zugeordneten Konstrukt geeignet ist. Berechnen lässt sich die Indikatorreliabilität als die quadrierte äußere Ladung des Indikators. Gemäß der Definition der Indikatorreliabilität ergibt sich auch der Grenzwert. Dieser sollte bei 0,5 liegen. Das heißt das theoretische Konstrukt sollte mehr als 50 % der Varianz des Indikators erklären, um gleichzeitig sicherzustellen, dass die Messfehler weniger als 50 % der Varianz erklären.139 Vereinzelt wird in der Literatur aber auch eine Indikatorreliabilität ≥ 0,4 als akzeptabel diskutiert.140 Entsprechend der oben angeführten Berechnung ergibt sich für die äußeren Ladungen der Indikatoren ein Anspruchsniveau von 0,708.141 Entgegen der Logik werden aber bereits Ladungen ≥ 0,4 als akzeptabel diskutiert.142 Oftmals sehen sich die Forschenden vor allem bei sozial- und verhaltenswissenschaftlichen Themen, neu entwickelten Messmodellen oder bei einem explorativem Charakter der Forschung geringeren Ladungen ausgesetzt.143 Indikatoren mit Ladungen zwischen 0,4 und 0,7 sollten daher vor der Elimination beispielsweise auf ihre Inhaltsvalidität überprüft werden; Indikatoren mit Ladungen ≤ 0,4 sollten aber stets eliminiert werden.144 Ferner sollten die Ladungen über das Bootstrapping145 auf ihre Signifikanz untersucht werden. Anzustreben sind t-Werte ≥ 1,96, also ein Signifikanzniveau von 5 %.146
Tabelle 4.1
Gütekriterien reflektiver Messmodelle147
Gütekriterium/Gütemaß
Ebene
Grenzwerte
diskutabel
konservativ
Konvergenzvalidität
…beschreibt das Ausmaß, in dem die verschiedenen Messungen eines Konstruktes miteinander korrelieren.148
Explorative Faktorenanalyse/Hauptkomponentenanalyse
Indikatorebene
Eindimensionalität;
Ladungen ≥ 0,4
Indikatorreliabilität:
beschreibt den Varianzanteil eines Indikators, der durch das ihm zugeordneten Konstrukt erklärt wird.149
 ≥ 0,4
 ≥ 0,5
Ladungen und Signifikanzen der Indikatoren
Ladungen 0,4 bis 0,7
Ladungen ≥ 0,708
t-Wert ≥ 1,96/ p ≤ 0,05
Durchschnittlich erfasste Varianz (DEV)
Konstrukt-ebene
n. a.
 ≥ 0,5
Interne-Konsistenz-Reliabilität
…beschreibt wie gut die einem Konstrukt zugeordneten Indikatoren übereinstimmen.150
Cronbach alpha (α)
 ≥ 0,6
 ≥ 0,7; <0,95
Faktorreliabilität (CR)
…beschreibt den Varianzanteil, den die Indikatoren an einem ihnen zugeordneten Faktor erklären.151
 ≥ 0,6
 ≥ 0,7; <0,95
Diskriminanzvalidität
…beschreibt das Ausmaß, in dem sich die Messungen der verschiedenen Konstrukte voneinander unterscheiden.152
Fornell-Larcker-Kriterium
DEV > Korrelationen2
Heterotrait-Monotrait Ratio of Correlations (HTMT)
<0,9
<0,8
95 %-Konfidenzintervall enthält nicht…
1
0,9 oder 0,85
Kreuzladungen
Indikatorebene
Ladung des zugeordneten Konstrukts >
Kreuzladungen
Inhaltsvalidität
…beschreibt das Ausmaß, zu dem die Indikatoren eines Messmodells dem Konstrukt in dessen inhaltlich-semantischen Bereich angehören.153
Sicherstellung der Inhaltsvalidität bei der Herleitung und Diskussion der Messmodelle sowie mittels Sorting-Pre-Tests154
Nomologische Validität
…beschreibt das Ausmaß, in dem sich Aussagen eines Konzepts im Rahmen einer übergeordneten Theorie widerspiegeln.155
Herleitung und Prüfung des Hypothesensystems
Gleichzeitig dienen die Ladungen und die Signifikanzen der Indikatoren zur Beurteilung der Konvergenzvalidität. Damit helfen sie zu gewährleisten, dass die verschiedenen Messungen eines Konstruktes in Beziehung zueinanderstehen, bzw. miteinander korrelieren.156 Ein weiteres Gütemaß der Konvergenzvalidität stellt die durchschnittlich erfasste Varianz (DEV) dar. Diese beurteilt die Konvergenzvalidität auf Konstruktebene und prüft den Varianzanteil den die latente Variable über all ihre zugehörigen Indikatoren erklärt.157 Wie bereits bei der Indikatorreliabilität kennengelernt, wird auch für die DEV ein Grenzwert von 0,5 gefordert, wonach mehr als 50 % der Varianz der Indikatoren von ihrer zugehörigen Variablen erklärt werden sollen.158
Weiterhin auf Konstruktebene kann die Interne-Konsistenz-Reliabilität anhand der beiden Gütemaße Cronbach alpha (α) und Faktorreliabilität (CR) beurteilt werden.159 Die Interne-Konsistenz-Reliabilität beschreibt wie gut die einem Konstrukt zugeordneten Indikatoren übereinstimmen.160 Für beide wird in der Literatur ein Grenzwert von ≥ 0,7 gefordert161, wobei wiederum Werte >0,95 als kritisch gesehen werden.162 Hier besteht der Verdacht, dass bei zu hohen Werten der Faktorreliabilität und des Cronbach alphas, die Indikatoren zu ähnlich sind und faktisch das Gleiche messen.163 Bagozzi und Yi (1988) und Hair et al. (2017) sehen aber auch bereits Werte ≥ 0,6 als akzeptabel.164 Die Diskriminanzvalidität hingegen beschreibt das Ausmaß, in dem sich die Messungen der verschiedenen Konstrukte voneinander unterscheiden.165 Ein Kriterium, das hierbei sehr häufig angewendet wird, sind Kreuzladungen. Hierzu werden die Korrelationen der Indikatoren zu den anderen, ihnen nicht zugeordneten Konstrukten berechnet. Diese sollten dabei stets geringer sein als die Ladungen zu ihrem theoretisch verknüpften Konstrukt.166 Zur Beurteilung der Diskriminanzvalidität auf Konstruktebene kann das Fornell-Larker-Kriterium herangezogen werden. Gefordert wird hier, dass bei zwei betrachteten Variablen, deren jeweilige durchschnittlich erfasste Varianz (DEV) größer ist als die quadrierte Korrelation der beiden Variablen zueinander.167 Zudem präsentieren Henseler et al. (2015) in Reaktion auf Kritik am Fornell-Larcker Kriterium bei Verwendung des PLS-Ansatzes168 die Prüfung des HTMT-Verhältnisses der Korrelationen.169 Somit werden die Korrelationen zwischen Indikatoren, die unterschiedliche Konstrukte messen ins Verhältnis zu den Korrelationen, die zwischen den Indikatoren des eigenen Konstruktes vorliegen, gesetzt.170 Das Anspruchsniveau definieren Henseler et al. (2015) bei <0,85, diskutieren aber auch Werte ab <0,9 als akzeptabel.171 Als Erweiterung dieses Kriteriums sollte auch untersucht werden, inwiefern der wahre HTMT-Wert in ein Konfidenzintervall fällt. Ist der Wert 1,172 oder konservativer die Werte 0,9 oder 0,85,173 in einem 95 %-Konfidenzintervall zu finden, liegt keine Diskriminanzvalidität vor und die Messmodelle scheinen sich nicht zu unterscheiden.
Ferner beschreibt die Inhaltsvalidität das Ausmaß zu dem die Indikatoren eines Messmodells dem Konstrukt in dessen inhaltlich-semantischen Bereich angehören.174 Überwiegend wird die Inhaltsvalidität in der Phase der Konstruktdefinition und Messmodellentwicklung sichergestellt und bei der Diskussion der Ergebnisse argumentatorisch überprüft.175 Nichtsdestotrotz scheint auch das Hinzuziehen der Indikatorreliabilität, insbesondere die Signifikanzen der Indikatorladungen, zulässig.176 Zuletzt beschreibt die nomologische Validität das Ausmaß, in dem sich Aussagen eines Konzepts im Rahmen einer übergeordneten Theorie widerspiegeln.177 Sichergestellt werden kann die nomologische Validität durch eine begründete und sorgfältige Herleitung und Prüfung des Hypothesensystems.178

4.2.3.2 Gütebeurteilung formativer Messmodelle

Angesichts der angestrebten Prüfung der indirekten Messung der Markensensibilität über verschiedene Markenattribute und damit verknüpft der Spezifikation als formatives Messmodell, soll nun im Folgenden auch die Gütebeurteilung formativer Messmodelle behandelt werden. Da die Indikatoren bei formativen Messmodellen nicht notwendigerweise untereinander korrelieren, können auch folglich keine auf Korrelationen basierende Gütekriterien, wie die Interne-Konsistenz-Reliabilität herangezogen werden.179 Stattdessen schlagen Hair et al. (2022) eine dreistufige Prüfung über die Konvergenzvalidität, die Multikollinearität sowie die Relevanz und Signifikanz der formativen Indikatoren vor (siehe Tabelle 4.2).180 Die Konvergenzvalidität kann in SmartPLS mittels einer Redundanzanalyse181 kontrolliert werden. Hierbei wird überprüft, inwiefern die formative Messung eines Konstruktes mit einer alternativen reflektiven oder Single-Item Messung182 desselben Konstruktes miteinander korreliert. Eine hohe Korrelation zwischen den verschiedenen Messungen deutet daraufhin, dass die Informationen des reflektiven Messmodells sich auch im formativen Messmodell widerspiegeln. Als Gütemaß dient dabei die Korrelation bzw. der Pfadkoeffizient zwischen dem formativen Messmodell und dem reflektiven Messmodell.183 Dieser sollte bei 0,7, bzw. 0,708 liegen, sodass auf ein R2 von mindestens 50 % geschlussfolgert werden kann. Das formative Messmodell sollte also mehr als 50 % der Varianz des reflektiven Messmodells erklären, dann wird von Konvergenzvalidität gesprochen.184 Als konservativer Grenzwert wird sogar ein Pfadkoeffizient von ≥ 0,8 gefordert.185 Indessen gelten bei Cohen (1988) aber bereits Korrelationen >0,5 als „stark“.186 Problematisch für ein formatives Messmodell ist Multikollinearität, da bei den Indikatoren nicht von einer gegenseitigen Austauschbarkeit ausgegangen wird. Jeder formative Indikator sollte einen eigenen Sachverhalt erklären und keine redundanten Informationen beinhalten.187 Hohe Multikollinearität zwischen den Indikatoren sorgt letztendlich dafür, dass der Einfluss jedes einzelnen Indikators auf das latente Konstrukt nicht mehr eindeutig bestimmt werden kann.188
Tabelle 4.2
Gütekriterien formativer Messmodelle189
Gütekriterium
Gütemaß
Grenzwert
diskutabel
konservativ
Konvergenzvalidität
…beschreibt das Ausmaß, in dem die verschiedenen Messungen eines Konstruktes miteinander korrelieren.190
Redundanzanalyse mit Single-Item oder reflektivem Messmodell.
Pfadkoeffizient
Y1formative →Y2reflective
 ≥ 0,7 (0,708)
nach Cohen (1988) >0,5 „starke“ Korrelation
 ≥ 0,8
Multikollinearität
VIF
<5
<3
bivariate Korrelationen
<0,6
Signifikanz und Relevanz der formativen Indikatoren
Indikatorgewicht
>0,1
t-Wert/ Signifikanzniveau der Indikatorgewichte
t-Wert: 1,96 / p ≤ 0,05
Inhaltsvalidität
…beschreibt das Ausmaß, zu dem die Indikatoren eines Messmodells dem Konstrukt in dessen inhaltlich-semantischen Bereich angehören.191
Sicherstellung der Inhaltsvalidität bei der Herleitung und Diskussion der formativen Indikatoren unter Einsatz qualitativer Methoden (e.g. Literaturrecherche)192
Zur Prüfung der Multikollinearität zwischen den formativen Indikatoren wird im Allgemeinen auf den Variance-Inflation-Factor (VIF) zurückgegriffen.193 Ab einem VIF-Wert von >5 kann die Multikollinearität als kritisch angesehen werden,194 VIF-Werte <3 dagegen gelten als ideal.195 Zudem weisen Hair et al. (2022) daraufhin, dass auch bivariate Korrelationen >0,6 zu Problemen mit Multikollinearität führen können.196 Daher werden zusätzlich zum Variance-Inflation-Factor auch die bivariaten Korrelationen zwischen den formativen Indikatoren separat überprüft.197
Um zu bestimmen, inwiefern die formativen Indikatoren tatsächlich zur Erklärung des latenten Konstruktes beitragen, können die äußeren Gewichte der Indikatoren beurteilt werden. Sie geben die relative Wichtigkeit der Indikatoren an und können als Regressionskoeffizient zwischen der latenten Variablen als abhängige Variable und dem formativen Indikator als unabhängige Variable aufgefasst werden.198 Demnach ist es das Ziel bei der Güteprüfung formativer Messmodelle zu kontrollieren, inwiefern die einzelnen Indikatoren tatsächlich zur inhaltlichen Bestimmung des latenten Konstruktes beitragen. Als Gütemaß kann hierzu in erster Linie die Signifikanz der Indikatorgewichte herangezogen werden. Bei Signifikanz trägt der Indikator maßgeblich zur inhaltlichen Bestimmung des Konstruktes bei.199 Sofern die Signifikanz nicht gegeben ist, schlagen Hair et al. (2022) zusätzlich die Prüfung der Indikatorladungen vor. Wenn diese über 0,5 liegt und signifikant ist, kann noch von einer Relevanz des Indikators ausgegangen werden und der Indikator sollte aus messtheoretischen Überlegungen beibehalten werden.200 Zusätzlich schlagen Autoren zur Prüfung der Indikatorrelevanz die Sichtung der Höhe der Indikatorgewichte vor und fordern hierbei einen unteren Grenzwert von 0,1. Erfüllt ein formativer Indikator diese Anforderungen nicht, sollte ein Ausschluss des Indikators in Betracht gezogen werden.201 Allerdings ist die Exklusion formativer Indikatoren aufgrund messtheoretischer Überlegungen als kritisch zu sehen, da in der Konzeption davon ausgegangen wird, dass alle formativen Indikatoren zur Bestimmung des Konstruktes inhaltlich relevant sind und damit darauf abzielen alle Facetten des Konstruktes wiederzugeben.202 Der Ausschluss würde folglich den Inhalt des latenten Konstruktes verändern.203 Zudem ist die Signifikanz und die Höhe der Indikatorgewichte sowohl von der Anzahl der formativen Indikatoren als auch von den anderen Kausalbeziehungen im Strukturmodell abhängig.204 Die Indikatorgewichte sollten demnach mit Vorsicht behandelt werden, und Eliminationen nicht voreilig aufgrund messtheoretischer Überlegungen vollzogen werden, sondern immer auch mit Blick auf die Inhaltsvalidität.205 Die Inhaltsvalidität an sich wird dagegen vor allem im Rahmen der Messmodellentwicklung, beispielsweise mithilfe qualitativer Methoden, sichergestellt.206 Ähnlich wie bei den reflektiven Messmodellen kann die Prüfung der nomologischen Validität anhand der theoretisch abgeleiteten Hypothesen im Rahmen des Strukturmodells und mittels eines Vergleichs der Pfadkoeffizienten mit früheren Arbeiten erfolgen.207 Für die Sicherstellung der Diskriminanzvalidität bei formativen Messmodellen liefern Klein und Rai (2009) einen Ansatz bei dem die Intra-Konstrukt Indikator Korrelationen mit Inter-Konstrukt Indikator Korrelationen verglichen werden.208 Da zum einen der Ansatz von Klein und Rai (2009) hinsichtlich seiner Anwendbarkeit und Aussagegehalts noch nicht ausreichend beurteilt wurde209 und zum anderen keine vergleichbaren Arbeiten zur indirekten Messung der Markensensibilität vorhanden sind, ist die Prüfung der Diskriminanzvalidität und nomologischen Validität für die vorliegende Arbeit nicht zufriedenstellend möglich.210

4.2.3.3 Gütebeurteilung von Single-Items

Angesichts der Konzeptualisierung der Markenwichtigkeit als Konstantsummenskala, soll im Folgenden die Güteprüfung von Single-Item Messungen thematisiert werden.211 Wie auch zuvor bei den formativen Messmodellen, kann auch bei den Single-Item Messungen nicht die Interne-Konsistenz-Reliabilität bestimmt werden. Stattdessen schlagen Wanous und Reichers (1996) eine Prüfung der Reliabilität über die von Nunnally und Bernstein (1994) aufgestellte Formel zur „Correction for Attenuation“ (\({\widehat{r}}_{xy}= \frac{{r}_{xy}}{\sqrt{{r}_{xx}{r}_{yy}}}\)) vor.212 Demnach kann die Reliabilität des Single Items \({r}_{xx}\) aus dem Quotienten der quadrierten Korrelation zwischen Single-Item und Multi-Item Messung \({r}_{xy}\) und dem Produkt aus der Reliabilität der Multi-Item Messung desselben Konstruktes \({r}_{yy}\) und der quadrierten angenommenen „wahren“ Korrelation zwischen Single Item und Multi-Item Messung \({\widehat{r}}_{xy}\) bestimmt werden.213 Die Autoren argumentieren bei der Reliabilität der Single Item Messungen für ein Anspruchsniveau von >0,7, allerdings unter der Annahme einer „wahren“ Korrelation zwischen Single-Item und Multi-Item Messung in Höhe von 0,9 und nicht 1,0 (siehe Tabelle 4.3).214 Ergänzend kann, wie im Rahmen der formativen Messmodellprüfung, allein die Korrelation zwischen den beiden Messungen im Sinne einer Redundanzanalyse betrachtet und so Schlussfolgerungen für die Konvergenzvalidität gezogen werden. Entsprechend gelten dieselben Grenzwerte, bzw. Interpretationen wie zuvor.215
Tabelle 4.3
Gütekriterien von Single-Item Messungen216
Gütekriterium
Gütemaß
Grenzwert
diskutabel
konservativ
Reliabilität
Correction for Attenuation:
\({\widehat{r}}_{xy}= \frac{{r}_{xy}}{\sqrt{{r}_{xx}{r}_{yy}}}\)
\({r}_{xx}\)>0,57
unter Annahme \({\widehat{r}}_{xy}\)=1,0
\({r}_{xx}\)>0,7
unter Annahme \({\widehat{r}}_{xy}\)=0,9
Konvergenzvalidität
…beschreibt das Ausmaß, in dem die verschiedenen Messungen eines Konstruktes miteinander korrelieren.217
Redundanzanalyse mit reflektivem Messmodell.
Pfadkoeffizient
Y1Single Item → Y2reflective
 ≥ 0,7 (0,708)
nach Cohen (1988) >0,5 „starke“ Korrelation
 ≥ 0,8
Plausibilität
Überprüfung des Messmodells anhand früherer Arbeiten.
Inhaltsvalidität
…beschreibt das Ausmaß, zu dem die Indikatoren eines Messmodells dem Konstrukt in dessen inhaltlich-semantischen Bereich angehören.218
Sicherstellung der Inhaltsvalidität bei der Herleitung und Diskussion des Single-Items219
Dieses Vorgehen erfordert jedoch erneut, dass zu jedem Single-Item eine alternative reflektive Multi-Item Messung abgefragt wird, was wiederum zu Redundanzen und einer Verlängerung des Fragebogens führt. Zudem muss eine solche alternative reflektive Messung des Single-Items auch konzeptionell möglich und verfügbar sein.
Schließlich kann ein Single-Item, wie für den Fall einer Konstantsummenskala, auf Plausibilität geprüft werden. Hierzu können frühere Arbeiten, die ebenfalls eine Abfrage des Single-Items angestrebt haben, herangezogen werden. Die Inhaltsvalidität dagegen sollte ähnlich wie bei den formativen und reflektiven Messmodellen im Zuge der Herleitung und Diskussion der Messung erfolgen.

4.2.3.4 Gütebeurteilung von Strukturmodellen

Zur Beurteilung der Güte von Strukturmodellen können im PLS-Ansatz die übergeordneten Kriterien der Multikollinearität, Signifikanz und Relevanz der Pfadkoeffizienten, Erklärungskraft und Prognosekraft des Strukturmodells herangezogen werden (siehe Tabelle 4.4). Bevor die eigentliche Hypothesenprüfung erfolgen kann, sollte das Strukturmodell zunächst auf Multikollinearität untersucht werden.220 Diese tritt auf, wenn zwei oder mehrere exogene Variablen, die gemeinsam eine endogene Variable erklären sollen, hohe Korrelationen untereinander aufweisen. Als Folge können Verzerrungen bei der Schätzung der Pfadkoeffizienten auftreten und generell die Interpretationsfähigkeit des Strukturmodells gefährden.221 Daher werden alle exogenen Variablen mit hypothetisiertem Zusammenhang zu derselben endogenen Variablen auf Multikollinearität überprüft. In Übereinstimmung mit den Ausführungen zur Multikollinearität bei formativen Messmodellen wird hierzu das Gütemaß des Variance Inflation Factors (VIF) verwendet. Der VIF-Wert sollte dabei <5,222 bestenfalls jedoch <3 sein,223 dann kann von einem unkritischen Maß an Multikollinearität ausgegangen werden.
Sofern die Multikollinearität als unkritisch eingestuft wurde, können die Relevanz und Signifikanz der Pfadkoeffizienten beurteilt werden. Maßgeblich wird die Relevanz durch die Höhe der Pfadkoeffizienten bestimmt. Diese beschreibt die Stärke der hypothetisierten Beziehung zwischen einer exogenen und endogenen Variablen. Grundsätzlich können die Pfadkoeffizienten im Strukturmodell Ausprägungen zwischen −1 und 1 annehmen. Je näher die Werte an 0 heranreichen, desto schwächer ist der Einfluss einer exogenen auf eine endogene Variable. Eine relative Interpretation der verschiedenen Pfadkoeffizienten in einem Strukturmodell ist aufgrund deren Standardisierung zulässig. Als unteres Anspruchsniveau schlägt Lohmöller (1989) eine Höhe von −0,1/0,1224 und Chin (1998) eine Höhe von −0,2/0,2225 vor, damit noch von einem bedeutsamen Einfluss und damit von Relevanz ausgegangen werden kann. Allerdings sollte zur Relevanz auch die Signifikanz des Pfadkoeffizienten vorliegen. Diese ist wiederum an die Höhe des Pfadkoeffizienten geknüpft – die Wahrscheinlichkeit eines signifikanten Pfadkoeffizienten steigt mit dessen Höhe. Zur Bestimmung der Signifikanz wird in SmartPLS das Bootstrapping durchgeführt. Im Folgenden wird die Signifikanz eines Pfadkoeffizienten ab einem t-Wert von 1,96 (Signifikanzniveau 5 %) unterstellt. Schließlich basiert hierauf maßgeblich die Beurteilung bzw. die Annahme/Ablehnung der Alternativhypothesen.
Mit Hilfe des R2-Bestimmtheitsmaßes der endogenen Variablen kann die Erklärungskraft des Strukturmodells überprüft werden. Das R2 drückt aus, welchen Varianzanteil die exogenen Variablen an der endogenen Variablen erklären. Es kann Werte zwischen 0 und 1 annehmen. Die Höhe des R2 hängt dabei von der Anzahl der exogenen Variablen und deren Einflussstärke auf die endogene Variable ab.226 Zur Bewertung des R2 suggerieren Hair et al. (2011) eine konservative Abstufung in schwach (R2 = 0,25), moderat (R2 = 0,5) und stark (R2 = 0,75).227 Ein generell gültiges Anspruchsniveau ist allerdings nicht zu finden.228 Deshalb schlagen beispielsweise Hair et al. (2020) bei der Beurteilung des R2 vor, den Forschungskontext miteinzubeziehen und mit Werten aus ähnlichen Studien zu vergleichen.229 So kann auch ein R2 mit 0,1 oder darunter als zufriedenstellend gelten.230 Aufgrund des verhaltenswissenschaftlichen Charakters der Studie ist tendenziell davon auszugehen, dass die erzielbaren R2-Bestimmtheitsmaße der endogenen Variablen im unteren Spektrum liegen dürften.231
Des Weiteren können die Effektstärken f2 und q2 zur Beurteilung der Erklärungskraft des Strukturmodells herangezogen werden. Sie beschreiben, wie stark der Einfluss einer einzelnen exogenen Variable auf eine endogene Variable ist. Die Berechnung der Effektstärke f2 erfolgt auf Basis des R2-Bestimmtheitsmaßes, während die Effektstärke q2 mit Hilfe des Stone-Geisser Kriteriums Q2 ermittelt wird. Insofern werden die Veränderungen des R2 bzw. des Q2, einmal inklusive und einmal exklusive des Einflusses der zu betrachtenden exogenen Variable, beurteilt. Spezifischer wird also jeweils der Beitrag errechnet den die exogene Variable zum R2/Q2-Wertes der endogenen Variablen liefert.232 Cohen (1988) zufolge können Effektstärken >0,02 als „schwach“, >0.15 als „moderat“ und >0.35 als „stark“ interpretiert werden.233
Tabelle 4.4
Gütekriterien zur Beurteilung von Strukturmodellen234
Gütekriterium
Gütemaß
Grenzwerte
diskutabel
konservativ
Multikollinearität
VIF
<5
<3
Signifikanz und Relevanz der Pfadkoeffizienten
Stärke der Pfadkoeffizienten
 ≥ 0,1/−0,1
 ≥ 0,2/−0,2
t-Wert / Signifikanzniveau
t-Wert: 1,96 / p ≤ 0,05
Erklärungskraft des
Strukturmodells
Bestimmtheitsmaß R2
>0,1 zufriedenstellend; je nach Untersuchungskontext
0,25 schwach
0,5 moderat
0,75 stark
Effektstärken
f2
>0,02 schwach
>0,15 moderat
>0,35 stark
q2
Prognoserekraft des Strukturmodells
Stone-Geisser-Kriterium Q2
>0
PLSpredict
PLS-SEM Werte (RMSE) < LM-Werte (RMSE):
gilt für alle Indikatoren: hohe Prognosekraft
gilt für Mehrheit „“: moderate Prognosekraft
gilt für wenige „“: geringe Prognosekraft
gilt für keine „“: keine Prognosekraft
Das angesprochene Stone-Geisser-Kriterium Q2235 kann indessen selber zur Evaluation der Prognosekraft eingesetzt werden.236 Der Q2-Wert wird hierbei durch die Blindfolding-Prozedur237 generiert und beschreibt, inwiefern die erhobenen Daten durch das Modell und dessen Parameter rekonstruiert werden können.238 Grundsätzlich wird von einer Prognosekraft des Modells ausgegangen sobald der Q2-Wert der endogenen Variablen >0 ist.239 Anwendung findet das Stone-Geisser Kriterium jedoch nur bei reflektiven Multi-Item und Single-Item Messungen.240 In den letzten Jahren wurde aber Kritik am Stone-Geisser-Kriterium geäußert, weshalb immer häufiger das von Shmueli et al. (2016) vorgeschlagene PLSpredict-Verfahren zur Evaluation der Prognosekraft angewendet wird.241 Dabei wird das Modell anhand einer Teststichprobe geschätzt und die Prognosekraft mittels einer Validierungsstichprobe bewertet.242 Für die Güteprüfung schließlich werden die generierten Prognosewerte von PLS mit den LM (Linear Regression Model)-Benchmarks verglichen.243 Häufig wird zum Vergleich der RMSE (Root Mean Squared Error)-Wert eingesetzt.244 Für eine „hohe Prognosekraft“ sollten alle Indikatoren eines endogenen Konstruktes höhere RMSE-Werte für das LM im Vergleich zum PLS-SEM Modell aufweisen. Gilt dies nicht für alle, aber dennoch für die Mehrheit der Indikatoren, so hat das Strukturmodell eine „moderate Prognosekraft“. Zeigen nur wenige Indikatoren einen höheren RMSE-Wert für das LM-Modell, dann liegt eine „geringe Prognosekraft“ vor. Schließlich besitzt das Strukturmodell „keine Prognosekraft“, wenn kein einziger Indikator einen höheren RMSE-Wert für das LM im Vergleich zum PLS-SEM Modell aufweist.245

4.2.3.5 Beurteilung der Stabilität eines Strukturmodells

Nach erfolgter Gütebeurteilung des Strukturmodells sollte nach Ansicht führender PLS-Forscher die Stabilität des Modells festgestellt werden.246 Denn die Kausalanalyse wird von einer Reihe von Kontextfaktoren, wie z. B. der Effektstruktur, der Modellgröße oder der Stichprobengröße beeinflusst. Es soll also geprüft werden, inwiefern solche Kontextfaktoren die Ergebnisse in Frage stellen, bzw. zu instabilen Ergebnissen führen.247
Die Prüfung der Effekte zwischen zwei Variablen in einem Strukturgleichungsmodell basiert grundlegend auf der Annahme von Linearität.248 Da aber nicht ausgeschlossen werden kann, dass zwei Variablen auch in einer nicht-linearen Beziehung zueinander stehen, schlagen beispielsweise Hair et al. (2019b) die Modellprüfung unter Einbezug von nicht-linearen Effekten (e.g. quadratischen Effekten) vor.249 Zu diesem Zweck können in SmartPLS Interaktionsvariablen generiert werden. Anders als bei klassischen Moderationen jedoch berechnet sich die Interaktionsvariable nicht aus der exogenen Variablen und einer anderen Moderatorvariable, sondern als Produkt mit sich selbst. In diesem Sinne tritt die exogene Variable also gleichzeitig als exogene Variable und Moderator auf.250 Wie für die Prüfung der Signifikanz und Relevanz von Pfadkoeffizienten üblich können der t-Wert als auch die Stärke des Pfadkoeffizienten als Gütemaße herangezogen werden (siehe Tabelle 4.5). Für die Stabilität des Strukturmodells und damit des linearen Effekts sollten die nicht-linearen Effekte nicht signifikant sein, daher einen t-Wert kleiner 1,96 aufweisen.251 Sollten die nicht-linearen Effekte dennoch signifikant sein, so kann auch die Effektstärke f2 berechnet und interpretiert werden.252 Zusätzlich können Veränderungen der Erklärungskraft über das Bestimmtheitsmaß R2 im Vergleich zum Ausgangsmodell analysiert werden. Ein Anstieg des R2 ist zu erwarten, da mit jeder weiteren exogenen Variable mehr Varianz der endogenen Variable erklärt werden kann. Ein Grenzwert für die Veränderung des Bestimmtheitsmaßes konnte hierfür allerdings nicht identifiziert werden.
Tabelle 4.5
Kriterien zur Beurteilung der Stabilität eines Strukturmodells253
Art der Stabilitätsprüfung
Gütekriterium
Gütemaße
Grenzwerte
diskutabel
konservativ
Modellprüfung unter Einbezug von nicht-linearen Effekten
Signifikanz und Relevanz der Pfadkoeffizienten
Stärke der Pfadkoeffizienten
<0,2/−0,2
<,1/−0,1
t-Wert / Signifikanzniveau
t-Wert: 1,96 / p>0,05
Erklärungskraft des Strukturmodells
Δ Bestimmtheitsmaß R2
n. a.
Modellprüfung unter Einbezug von Kontrollvariablen
Signifikanz und Relevanz der Pfadkoeffizienten
Stärke der Pfadkoeffizienten
<0,2/−0,2
<,1/−0,1
t-Wert / Signifikanzniveau
t-Wert: 1,96 / p>0,05
Erklärungskraft des Strukturmodells
Δ Bestimmtheitsmaß R2
n. a.
Des Weiteren inkludieren Nakata et al. (2011) im Rahmen ihrer Stabilitätsprüfung Kontrollvariablen und testen so, inwiefern sich die Pfadkoeffizienten des Ausgangsmodells in ihrer Signifikanz verändern und inwiefern der Einfluss der Kontrollvariablen signifikant ist. Kontrollvariablen werden generell eingesetzt, um alternative Erklärungen für die eigenen Ergebnisse ausschließen, genauere Schätzungen von Beziehungen unter den interessierenden Variablen erzielen und damit die statistische Power des Modells erhöhen zu können.254 Verändern sich die Höhe und Signifikanz der Pfadkoeffizienten des Ausgangsmodells demnach kaum und ist der Einfluss der Kontrollvariablen weitestgehend nicht signifikant, so kann Modellstabilität unterstellt werden.255 Wie auch bei den nicht-linearen Effekten können dieselben Gütemaße zur Beurteilung angewendet werden.

4.2.3.6 Gütebeurteilung von Mediationen

Angesichts des hypothetisierten mediierenden Effekts H4med soll ergänzend zur Prüfung des Strukturmodells auch die Mediation auf deren Güte beurteilt werden. Hierfür stehen Forschenden eine Reihe unterschiedlicher Methoden zur Verfügung, von denen nach neuesten Erkenntnissen nicht alle – darunter auch sehr häufig angewendete Methoden – ohne Einschränkungen zu empfehlen sind.256 Daher wird für es die vorliegende Untersuchung als sinnvoll erachtet, einen kurzen Überblick über die Methoden zu geben und anschließend relevante Kriterien zur Güteprüfung von Mediationen zu bestimmen.
Rasoolimanesh et al. (2021) unterscheiden die vorhandenen Methoden zur Mediationsanalyse in implizite und explizite Verfahren.257 Bei den impliziten Verfahren werden verschiedene Analyseschritte hinsichtlich der Beziehung zwischen einer exogenen und einer endogenen Variablen durchgeführt, um letztendlich auf eine Mediation schließen zu können. Werden die Vorgaben nicht in ihrer Vollständigkeit erreicht, wird eine Mediation nicht unterstützt. Eines der bekanntesten impliziten Verfahren ist das „causal step model“ von Baron und Kenny (1986). Grundlage für eine Mediation bildet bei ihnen die Signifikanz des direkten Effekts zwischen einer abhängigen und unabhängigen Variablen, welcher als Resultat der Mediation reduziert (partielle Mediation) oder im besten Fall nicht-signifikant und gegen null gehen sollte (vollständige Mediation).258 Allerdings wird diese restriktive Sichtweise von vielen Forschenden kritisiert, da nicht nur kompetitive Mediationen bedingt erkannt werden können, sondern auch grundsätzlich nicht die Signifikanz des indirekten Pfades untersucht wird.259 Diese wird dagegen bei den expliziten Verfahren, wie dem Sobel-Test, berechnet. Hierbei wird der indirekte Effekt ins Verhältnis zu seinem Standardfehler260 gesetzt. Das Vorliegen einer Signifikanz unterstützt die Annahme einer Mediation. Der Sobel-Test gilt als parametrischer Test, da davon ausgegangen wird, dass das Produkt der Pfadkoeffizienten normalverteilt ist.261 Da generell Zweifel an der Normalverteilung des Produktes der Pfadkoeffizienten besteht,262 schlagen Preacher und Hayes (2008) den Ansatz des Bootstrapping vor, um die Signifikanz des indirekten Effektes zu prüfen.263 Umsetzbar ist das Bootstrapping dabei sowohl in SPSS mittels des PROCESS-Makros als auch in SmartPLS.264 Angesichts der Verwendung von SmartPLS zur Überprüfung der Messmodelle und des Strukturmodells scheint die Anwendung des Bootstrapping-Ansatzes in SmartPLS prädestiniert. Zudem hat sich gezeigt, dass die beiden bekannten Ansätze zur Mediationsanalyse von Baron und Kenny (1986), sowie Sobel (1982) Probleme und Restriktionen aufweisen. Hinsichtlich der Verwendung von PROCESS oder SmartPLS für das Bootstrapping-Verfahren raten Sarstedt et al. (2020a) strikt von einer Tandem-Analyse, also dem Wechsel von SmartPLS zu PROCESS, ab.265 Mit dem Festlegen des Bootstrapping in SmartPLS als Methode zur Prüfung der Mediation, können nun die Gütekriterien vorgestellt werden.
Wie auch für die Beurteilung der Pfadkoeffizienten im Strukturmodell können also die Mediationen über die Signifikanz und Relevanz des Pfadkoeffizienten evaluiert werden. So ergeben sich, wie in Tabelle 4.6 illustriert, als Anspruchsniveau ein t-Wert von mindestens 1,96, damit von einer Signifikanz der Mediation gesprochen werden kann.266 Allerdings weisen Hayes und Scharkow (2013) daraufhin, dass bei Mediationen primär das BCa (Bias-corrected and accelerated)-Konfidenzintervall zur Erkennung von Mediationen eingesetzt werden sollte. Wenn das 95 %-Konfidenzintervall nicht den Wert 0 enthält, kann eine Mediation unterstützt werden.267 Über die Höhe des Pfadkoeffizienten gibt es dagegen keine genauen Angaben, jedoch kann aufgrund der Berechnung des Pfadkoeffizienten davon ausgegangen werden, dass dieser im Allgemeinen geringer als die Pfadkoeffizienten der direkten Effekte eines Strukturmodells ausfallen dürfte.268 Als Orientierung kann hier der Grenzwert −0,1/0,1 von Lohmöller (1989) hinzugezogen werden.269
In einem zweiten Schritt kann dann der Typ der Mediation abgeleitet werden. Hierzu liefern Zhao et al. (2010) einen Entscheidungsbaum. Konnte mit Hilfe der Bootstrapping Methode kein signifikanter indirekter Effekt festgestellt werden, so handelt es sich entweder um einen „rein direkten Effekt“ oder „keinen Effekt“. Es konnte also keine Mediation nachgewiesen werden. Sofern der indirekte Effekt signifikant ist, gilt es den direkten Effekt zu studieren. Ist dieser nicht-signifikant, so lässt sich die Mediation als „vollständige Mediation“ bezeichnen. Für den Fall, dass der direkte Effekt ebenfalls signifikant ist, können zwei weitere Typen unterschieden werden – die „komplementäre Mediation“ und die „kompetitive Mediation“. Diese unterscheiden sich dahingehend ob der indirekte und direkte Effekt sich ergänzen oder entgegenlaufen. Wenn das Produkt aus direktem und indirektem Effekt also positiv ist, spricht man von der „komplementären Mediation“, ist das Produkt negativ, von der „kompetitiven Mediation“.270
Tabelle 4.6
Gütekriterien zur Beurteilung von Mediationen271
Gütekriterium
Gütemaß
Grenzwerte
Signifikanz und Relevanz der Pfadkoeffizienten
Stärke der Pfadkoeffizienten
 ≥ 0,1/−0,1
t-Wert / Signifikanzniveau
t-Wert: 1,96 / p ≤ 0,05
95 %-Konfidenzintervall
enthält keine 0
Stärke der Mediation
Variance accounted for (VAF)\(=\frac{{indirect}{\,}{effect}}{total{\,}effect}\)
n. a.
Effektstärke \(v={a}^{2}* {b}^{2}\)
n. a.
Typ der Mediation
Baron und Kenny (1986)
Zhao et al. (2010)
Partielle Mediation
Vollständige Mediation
Komplementäre Mediation
Kompetitive Mediation
Rein indirekte Mediation
Rein direkter Effekt (keine Mediation)
Kein Effekt (keine Mediation)
Allerdings gibt es auch Kritik an derartigen Unterscheidungen, da der Typ der Mediation effektiv nicht am indirekten Effekt festgemacht wird, sondern wiederum am direkten Effekt.272 Ferner basiert diese Einordnung auf den Signifikanzen und vernachlässigt damit die Effektstärken der Mediation. So könnte die naheliegende Schlussfolgerung getroffen werden, dass es sich bei einer vollständigen Mediation um einen stärkeren Effekt als beispielsweise bei einer komplementären Mediation handelt, was nicht stimmen muss.273 Daher empfehlen immer mehr Autoren die zusätzliche Berechnung der Effektstärken von Mediationen.274
Eine Möglichkeit zur Berechnung der Effektstärken besteht darin den indirekten Effekt in das Verhältnis zum totalen Effekt zu setzten. Diese Formel geht zurück auf Alwin und Hauser (1975) und wird auch als „Variance accounted for“ (VAF) bezeichnet. Allerdings ist die Anwendbarkeit des Ansatzes auf komplementäre Mediationen begrenzt. Die Interpretierbarkeit des VAF erfordert ein positives Vorzeichen beim Produkt aus direktem und indirektem Effekt.275 Eine Alternative liefern Lachowicz et al. (2018) mit der Effektstärke \(v\). Diese kann als die Varianz der endogenen Variablen, die gemeinsam vom Mediator und der exogenen Variablen zur Anpassung an die Reihenfolge der Variablen erklärt wird, interpretiert werden. Für standardisierte Regressionskoeffizienten entspricht dies dem quadrierten standardisierten indirekten Effekt.276 Vorteile des Ansatzes nach Lachowicz et al. (2018) ist die eindrückliche und nachvollziehbare Logik zur Berechnung von Effektstärken basierend auf dem Anteil der erklärten Varianz, und die Unabhängigkeit von Samplegrößen.277 Die Evaluation des \(v\)-Wertes wird jedoch dadurch erschwert, dass bisher keine gültigen Anspruchsniveaus definiert wurden. Lachowicz et al. (2018) empfehlen zwar die Verwendung der Grenzwerte von Cohen (1988), jedoch unter der Prämisse der Sorgfalt.278

4.2.3.7 Gütebeurteilung von Multigruppenanalysen

Die Multigruppenanalyse wurde in Kapitelabschnitt 3.​2.​2 als Methode zur ex-post Kontrolle von Messfehlern, insbesondere des Informant Bias und des Recall Bias, eingeführt. Da aus diesen Kontrollen nicht nur Schlüsse auf forschungspraktischer, sondern auch auf inhaltlicher Ebene gezogen werden können, sollen auch die Multigruppenanalysen den Anspruch der methodischen Strenge (MS 4, MS 5, MS 6) entsprechen, weshalb ebenso eine Einführung in die Gütebeurteilung von Multigruppenanalysen als notwendig erachtet wird.
Im Vorgang an eine Multigruppenanalyse sollte stets die Messinvarianz sichergestellt werden. Dadurch kann verhindert werden, dass Schlussfolgerungen der Multigruppenanalyse nicht aufgrund abweichender inhaltlicher Interpretationen der Konstrukte getroffen werden, sondern nur solche, die tatsächlich auf die Strukturbeziehungen zurückzuführen sind. Liegt also keine Messinvarianz vor, können die Interpretationen der Multigruppenanalyse fehlerhaft sein.279 Um die Messinvarianz für PLS-Modelle prüfen zu können, führten Henseler et al. (2016) das sogenannte MICOM-Verfahren (measurement invariance of composite models) ein. Dieses sieht folgende Schritte im nicht-parametrischen Sinne vor.280 Zunächst gilt es die konfigurale Invarianz zu gewährleisten. Insofern müssen die verwendeten Indikatoren, die Behandlung der Daten, als auch die Einstellungen des Algorithmus über die Gruppen hinweg identisch sein.281 Dies ist hauptsächlich bei Studien zu kulturellen Unterschieden zu beachten.282 Bei den meisten Studien dagegen ist die konfigurale Invarianz mit den Einstellungen in SmartPLS zu gewährleisten.283 Erst wenn die konfigurale Invarianz vorliegt, kann in einem zweiten Schritt die kompositionelle Invarianz geprüft werden. Diese liegt dann vor, wenn die Werte der Composite-Variablen zwischen den Gruppen in gleicher Weise generiert wurden.284 Mittels des Konzepts der Permutation285 kann letztendlich getestet werden, ob signifikante Unterschiede für die Composite Variablen zwischen den Gruppen vorherrschen. Eine Beurteilung der Signifikanz erfolgt entweder über die Berechnung der Korrelationen zwischen den Composite-Werten der Gruppen (\(c\)) und den Vergleich dieser mit den 5 %-Quantilen der Permutation oder über die in SmartPLS berechneten p-Werte (siehe Tabelle 4.7). Kompositionelle Invarianz liegt dann vor, wenn keine signifikanten Unterschiede zwischen den Composite-Variablen auftreten.286 Zu beachten gilt, dass der Test für Single-Items nicht aussagefähig ist.287 Konnte aber für alle im Modell berücksichtigten latenten Konstrukte die kompositionelle Invarianz bestimmt werden, ist es möglich die Pfadkoeffizienten der beiden Gruppen miteinander zu vergleichen. Damit ist an dieser Stelle der Einsatz einer Multigruppenanalyse gerechtfertigt. In der Forschungsliteratur wird hierbei auch vom Vorliegen einer partiellen Messinvarianz gesprochen.288 Hingegen wird eine vollständige Messinvarianz dann erreicht, wenn in einem dritten Schritt der MICOM-Prozedur ebenfalls die Gleichheit der Mittelwerte und Varianzen aller Composite-Variablen festgestellt werden konnte. Die vollständige Messinvarianz ermöglicht dem Forschenden eine zusammengefasste Datenanalyse.289 Besonders relevant ist dieser dritte Schritt beim Vorliegen mehrerer Stichproben, beispielsweise aus unterschiedlichen Kulturen.
Tabelle 4.7
Gütekriterien zur Beurteilung von Multigruppenanalysen290
Gütekriterium
Gütemaß
Grenzwerte
Test auf Messinvarianz
(MICOM)
Konfigurale Invarianz
1) gleiche Indikatoren für die Messmodelle
2) gleiche Behandlung der Daten (Ausreißer etc.)
3) gleiche Algorithmen und Optimierungskriterien
n. a.
Kompositionelle Invarianz
p-Wert
p>0,05
95 %-Konfidenzintervall
Korrelation der Composite-Werte ≥ 5 %-Quantil
Gleichheit der Mittelwerte und Varianzen
p-Wert
p>0,05
95 %-Konfidenzintervall
Mittelwert- und Varianzunterschiede innerhalb des 95 %-Konfidenzintervall
Permutations-Test
p-Wert
p ≤ 0,05
95 %-Konfidenzintervall
Differenz zwischen den Pfadkoeffizienten (\(d\)) liegt nicht innerhalb des Konfidenzintervalls
Nachdem die konfigurale und kompositionelle Messinvarianz bestimmt werden konnten, kann eine Multigruppenanalyse umgesetzt werden. In der Methodenliteratur werden dazu verschiedene Möglichkeiten, wie der parametrische Test, die PLS-MGA oder der Permutations-Test, diskutiert.291 Die Anwendung des parametrischen Tests scheint vor dem Hintergrund nicht-normalverteilter Daten292 und der Argumentation für den Einsatz von PLS-SEM als Datenanalyse-Methode fragwürdig. Demnach stehen noch die beiden nicht-parametrischen Tests zur Auswahl.293 Der PLS-MGA Ansatz basiert auf dem bekannten Bootstrapping-Verfahren. Jedoch erlaubt dieser Ansatz lediglich das einseitige Testen von Hypothesen.294 Aufgrund dessen wird den Empfehlungen von Hair et al. (2018) und Klesel et al. (2022) gefolgt, wonach der Permutations-Test für die Multigruppenanalysen durchgeführt werden soll.295 Die Ergebnisse des Permutations-Tests geben darüber Aufschluss, ob signifikante Unterschiede für die Pfadkoeffizienten zwischen den Gruppen vorliegen.296 Zur Beurteilung der Signifikanz dienen das 95 %-Konfidenzintervall, sowie die in SmartPLS berechneten p-Werte.297 Ferner können die mittels Bootstrapping berechneten Größen und Signifikanzen der Pfadkoeffizienten für die einzelnen Gruppen betrachtet und diskutiert werden.

4.3 Durchführung der Datenanalyse – Ergebnisse

Gemäß den Forschungsinteressen und den hierin definierten Forschungsbedarfen gliedert sich die Datenanalyse in drei Unterkapitel. So wird zunächst die relative Wichtigkeit der Marke im Sinne von FB 1 durch Auswertung der Konstantsummenskala „Markenwichtigkeit“ bestimmt (Kapitelabschnitt 4.3.1), bevor im Anschluss das neu-entwickelte formative Messmodell der „Markensensibilität“ gemäß FB 2b statistisch überprüft wird (Kapitelabschnitt 4.3.2). In Kapitelabschnitt 4.3.3 folgt dann die Auswertung des PLS-SEM hinsichtlich FB 2a (Kapitelabschnitt 4.3.3.1) und FB 3a/b (Kapitelabschnitt 4.3.3.2). Es wurde hierbei darauf geachtet, dass die Ergebnisse den Beurteilungskriterien der methodischen Strenge entsprechend erarbeitet (MS 6) und präsentiert (MS 5) werden.

4.3.1 Die relative Wichtigkeit der Marke in der Auswahlentscheidung von Logistikdienstleistern – Überprüfung der Konstantsummenskala Markenwichtigkeit

Die Messmodellentwicklung der Markenwichtigkeit resultierte anders als bei den anderen Variablen des Strukturmodells in keiner reflektiven Multi-Item-Messung. Stattdessen wurde auf eine Konstantsummenskala zurückgegriffen. Mit Hilfe derer kann folglich die relative Wichtigkeit der Marke in der Auswahlentscheidung von Logistikdienstleistern bestimmt werden. Insofern wird die Markenwichtigkeit als Single-Item in das Strukturmodell integriert, weshalb eine Güteprüfung im Sinne reflektiver oder formativer Messmodelle nicht möglich ist. Nichtsdestotrotz ermöglicht die Konstantsummenskala eine deskriptive Analyse der Auswahlkriterien und kann basierend hierauf auf Plausibilität beurteilt werden. Hierzu können frühere Arbeiten als Vergleich herangezogen werden. Ferner können im vorliegenden Fall auch Conjoint-Studien berücksichtigt werden, da auch diese einen Rückschluss auf die relative Wichtigkeit von Entscheidungskriterien zulassen.298 Wie Abbildung 4.9 illustriert, bewerten die Respondenten die Marke als Entscheidungskriterium am schwächsten. Nur zu 6 % wird die Marke bei der Auswahl von Logistikdienstleistern berücksichtigt. Vorwiegend werden die Auswahlentscheidungen anhand der Kriterien Kosten (26 %) und Qualität (22 %) getätigt. Auch relationale Aspekte spielen in der Auswahlentscheidung eine entscheidende Rolle (18 %). Die Kriterien Service, sowie Technologie des Logistikdienstleisters folgen auf vergleichbarem Niveau (14 %). Die Marke nimmt insgesamt gesehen eine sekundäre Rolle als Selektionskriterium ein.
Abbildung 4.9
Auswertung der Markenwichtigkeit – Konstantsummenskala299
Eine Prüfung der Reliabilität gemäß dem Vorgehen von Wanous und Reichers (1996) als auch die Durchführung einer Redundanzanalyse zur Beurteilung der Konvergenzvalidität waren indessen nicht möglich, da keine alternative reflektive Messung der Markenwichtigkeit vorlag und abgefragt werden konnte.

4.3.2 Der Beitrag von Markenattributen zur Bestimmung der Markensensibilität – Überprüfung des formativen Messmodells der Markensensibilität

Im Sinne der Konzeptualisierung der formativen Markensensibilitätsmessung wurde sowohl der Grad der Berücksichtigung als auch der Grad der Assoziationen für die aus der Literaturanalyse identifizierten Markenattribute abgefragt und anschließend je Datensatz multipliziert.300 Die deskriptiven Ergebnisse für die Berücksichtigung der Attribute in der strategischen Lieferantenauswahl legen nahe, dass vor allem die Attribute Leistungsfähigkeit, Zuverlässigkeit, Qualitätsfähigkeit und Vertrauenswürdigkeit in der Auswahlentscheidung berücksichtigt wurden. Gleichzeitig sind auch die Markenassoziationen der vier Attribute sehr hoch ausgeprägt. Weniger stark berücksichtigt dagegen werden Attribute, wie Marktführerschaft, Reputation und Unternehmenshistorie. Ebenfalls nur in geringem Umfang wird die soziale und ökologisch nachhaltige Orientierung der Logistikdienstleister berücksichtigt.
Abbildung 4.10
Beurteilung des formativen Messmodells der Markensensibilität – Redundanzanalyse301
Zunächst erfordert die Güteprüfung formativer Messmodelle die Durchführung einer Redundanzanalye. Hierzu wird, wie in Abbildung 4.10 dargestellt, das reflektive Messmodell302 als abhängige Variable und das formative Messmodell der Markensensibilität als unabhängige Variable in SmartPLS modelliert. Der Pfadkoeffizient liegt bei 0,515 und ist nach erfolgtem Bootstrapping mit 3000 Wiederholungen signifikant. Zwar gilt eine Korrelation >0,5 bei Cohen (1988) als „stark“303, jedoch erreicht der Pfadkoeffizient nicht ganz das von Hair et al. (2022) geforderte Anspruchsniveau für Redundanzanalysen von 0,7.304 Dies manifestiert sich auch in einem moderaten R2 = 0,265. Angesichts des explorativen Charakters und des Neuartigkeitsgrades des Messmodells kann trotz Unterschreiten des Grenzwertes noch von einer akzeptablen Konvergenzvalidität ausgegangen werden.
Tabelle 4.8
Beurteilung des formativen Messmodells der Markensensibilität – Überprüfung der Indikatoren305
 
Multikollinearität
Signifikanz und Relevanz der formativen Indikatoren
VIF
<3
Gewicht
>0,1
t-Wert
>1,96
Ladung
>0,5
t-Wert
>1,96
Zuverlässigkeit
2,406
−0,214
1,609
−0,254
2,285
Leistungsfähigkeit
2,100
0,046
0,334
0,002
0,017
Qualitätsfähigkeit
2,293
−0,001
0,008
0,008
0,073
Reputation
1,861
0,500
3,711
0,724
6,847
Unternehmenshistorie
1,743
0,071
0,548
0,564
5,092
Preis
1,077
−0,167
1,787
−0,172
1,549
Innovationsfähigkeit
2,576
−0,178
1,235
0,164
1,555
Vertrauenswürdigkeit
2,174
−0,077
0,566
−0,062
0,578
Kundenservice
1,755
−0,021
0,181
0,031
0,285
Marktführerschaft
1,913
0,636
4,411
0,861
7,634
Kooperationsfähigkeit
2,197
−0,027
0,196
−0,008
0,077
Technologische Fähigkeiten
2,186
0,032
0,250
0,142
1,348
Soziale und ökologisch nachhaltige Orientierung
1,408
−0,088
0,822
0,149
1,434
Indessen lassen die VIF-Werte der formativen Indikatoren auf keine Probleme mit Multikollinearität schließen. Diese liegen durchgehend unter dem Grenzwert von 3. Der höchste VIF-Wert (2,6) wird für den Indikator „Innovationsfähigkeit“ verzeichnet (siehe Tabelle 4.8). Ursächlich für den erhöhten VIF-Wert des Indikators „Innovationsfähigkeit“ ist die starke bivariate Korrelation (r = 0,726) zum Indikator „Technologische Fähigkeiten“. Weitere Überschreitungen des Anspruchsniveaus für bivariate Korrelationen sind für die Indikatorpaare „Zuverlässigkeit“ und „Qualitätsfähigkeit“ (r = 0,649), „Leistungsfähigkeit“ und „Qualitätsfähigkeit“ (r = 0,634), Vertrauenswürdigkeit“ und „Kooperationsfähigkeit“ (r = 0,645) zu verzeichnen. Trotz einzelner Überschreitungen des Grenzwerts für bivariate Korrelationen kann dennoch weiterhin von einer geringen Gefahr für Multikollinearität ausgegangen werden.
Die Indikatoren „Reputation“ und „Marktführerschaft“ haben für die Bestimmung der Markensensibilität den bedeutendsten Einfluss. Beide Indikatorgewichte sind signifikant und größer 0,1. Anhand der Faktorladungen lässt sich ebenfalls ablesen, dass auch der Indikator „Unternehmenshistorie“ einen relevanten Einfluss auf die Bestimmung des Konstruktes ausübt. Angesichts der Vielzahl an verwendeten formativen Indikatoren zur Bestimmung der Markensensibilität ist es nicht verwunderlich, dass die weiteren formativen Indikatoren nicht-signifikante Gewichte <0,1 aufweisen.306 Eine Exklusion einzelner nicht-signifikanter Indikatoren ist zu diesem Zeitpunkt nicht sinnvoll, da der Einfluss auf die Inhaltsvalidität noch nicht ausreichend abgeschätzt werden kann. Auch ist davon auszugehen, dass die Indikatorgewichte je nach abhängiger Variablen unterschiedlich ausgeprägt sind. Die Methodenliteratur spricht bei diesem Phänomen vom „Interpretational Confounding“.307 Hinsichtlich der Relevanz und Signifikanz der formativen Indikatoren muss daher festgehalten werden, dass für das formative Messmodell der Markensensibilität noch Verbesserungspotenziale bestehen. Das neu-entwickelte Messmodell kann aber nach seiner ersten Güteprüfung vorerst als zufriedenstellend beurteilt werden.

4.3.3 Der Einfluss von organisationalen und individuellen Charakteristiken auf die Markensensibilität – Durchführung der PLS-SEM

In diesem Kapitelabschnitt erfolgt die Überprüfung des hergeleiteten endgültigen Hypothesensystems308 und die Dokumentation der Ergebnisse.309 Zu diesem Zweck werden die reflektiven Messmodelle (Kapitelabschnitt 4.3.3.1), das Strukturmodell (Kapitelabschnitt 4.3.3.2), die Stabilität des Strukturmodells (Kapitelabschnitt 4.3.3.3) und die Mediation (Kapitelabschnitt 4.3.3.4) anhand der zuvor festgelegten Gütekriterien und Anspruchsniveaus310 beurteilt. Im Anschluss werden die ex-post Checks zur Kontrolle potenzieller Messfehler durchgeführt (Kapitelabschnitt 4.3.3.5). Abschließend werden dann alternative Strukturmodelle erkundet (Kapitelabschnitt 4.3.3.6). Abbildung 4.11 vertieft das Vorgehen bei der Durchführung der Datenanalyse.
Abbildung 4.11
Vorgehen bei der Durchführung der Datenanalyse311

4.3.3.1 Überprüfung der reflektiven Messmodelle

Im Vorgang an die konfirmatorische Compositeanalyse wurde für die reflektiven Messmodelle eine Hauptkomponentenanalyse312 gerechnet. Wie in Tabelle 4.9 dargestellt, deuten die Ergebnisse bei den Konstrukten wahrgenommene Logistikdienstleistungskomplexität und individuelle Risikoneigung auf eine Mehrdimensionalität hin. Die Zwei-Komponenten-Lösung bei WLK ergibt sich aus den Indikatoren WLK 02 und WLK 06, die beide die Komplexität der Logistikdienstleistung mittels ihrer Teilleistungen zu beschreiben versuchen. Demnach legen die Ergebnisse nahe, dass die Anzahl und Varietät der Teilleistungen nur bedingt die Komplexität von Logistikdienstleistungen reflektieren. Bei der individuellen Risikoneigung ergibt sich sogar eine Drei-Faktoren-Lösung. Dies deutet auf Probleme bei der Inhaltsvalidität hin und muss in der späteren konfirmatorischen Compositeanalyse anhand weiterer Gütemaße genauer untersucht werden.
Tabelle 4.9
Hauptkomponentenanalyse – Test auf Eindimensionalität I313
 
Indikator
Formulierung
K1*
K2*
K3*
Individuelle Risikoneigung
IRN 01
Sicherheit geht vor.
−0,181
0,776
0,038
IRN 02
Ich gehe kein Risiko mit meiner Gesundheit ein.
0,100
0,600
−0,372
IRN 03
Ich bevorzuge es Risiken zu vermeiden.
0,458
0,650
0,110
IRN 04
Ich gehe regelmäßig Risiken ein.
0,770
−0,208
−0,047
IRN 05
Ich mag es, nicht zu wissen, was passieren wird.
0,206
−0,056
0,823
IRN 06
Für gewöhnlich sehe ich Risiken als Herausforderung.
0,797
0,115
0,165
IRN 07
Ich sehe mich selber als …
0,734
−0,200
0,091
Wahrgenommene Logistikdienstleistungskomplexität
WLK 01
Die Inhalte der Logistikdienstleistung waren schwierig zu verstehen.
0,666
−0,078
 
WLK 02
Die Logistikdienstleistung bestand aus mehreren Teilleistungen.
0,100
0,883
 
WLK 03
Ich hatte das Gefühl, dass eine Person, die diese Art von Logistikdienstleistung verkauft, über sehr spezifisches Wissen verfügen muss, um einen guten Job machen zu können.
0,493
0,195
 
WLK 04
Die Logistikdienstleistung war ohne Expertise schwierig zu bewerten.
0,596
0,053
 
WLK 05
Ich hatte das Gefühl, dass diese Art von Logistikdienstleistung von Natur aus kompliziert ist.
0,764
0,050
 
WLK 06
Die Logistikdienstleistung bestand aus unterschiedlichen Teilleistungen
0,142
0,885
 
WLK 07
Ich hatte das Gefühl, dass diese Art von Logistikdienstleistung von Natur aus komplex ist.
0,760
0,056
 
*K = Komponente
Für die anderen Konstrukte (WAR, MSE, FII, NFC) konnten dagegen Eindimensionalität und hinreichend hohe Ladungen (≥ 0,4) festgestellt werden (siehe Tabelle 4.10). Damit suggeriert die Hauptkomponentenanalyse für diese vier Variablen eine zufriedenstellende Inhaltsvalidität.
Im Anschluss daran erfolgte die Evaluation der reflektiven Messmodelle in SmartPLS gemäß dem Vorgehen der konfirmatorischen Compositeanalyse.314 Zu diesem Zweck wurde das Bootstrapping mit 3000 Wiederholungen durchgeführt. Zur Überprüfung der Konvergenzvalidität können die Ladungen als auch die durchschnittliche erfasst Varianz (DEV) herangezogen werden. Demnach wird kontrolliert, in welchem Ausmaß eine Messung mit einer alternativen Messung des gleichen Konstruktes korreliert.315 Bei einer ersten Analyse der Ladungen wurden die bekannten Probleme aus der Hauptkomponentenanalyse bestätigt. Deshalb wurde ein iteratives Vorgehen zum Aufdecken von problembehafteten Indikatoren implementiert. Die Indikatoren eines Konstruktes, die eine Ladung unter dem Grenzwert von 0,707 aufwiesen, wurden zunächst inhaltlich begutachtet und in einem nächsten Schritt, sofern nicht maßgeblich inhaltlich relevant, eliminiert. Dies erfolgte für jedes Konstrukt.
Tabelle 4.10
Hauptkomponentenanalyse – Test auf Eindimensionalität II316
 
Indikator
Formulierung
K1*
Wahrgenommenes Risiko
WAR 01
Die strategische LogistikDL-Auswahl empfand ich als riskant.
0,758
WAR 02
Ich hatte die Befürchtung, dass es in Folge der strategischen LogistikDL-Auswahl zu Problemen kommen wird.
0,803
WAR 03
Die strategische LogistikDL-Auswahl war von Unsicherheiten geprägt.
0,756
WAR 04
Die strategische LogistikDL-Auswahl hat mich nervös gemacht.
0,804
WAR 05
Die strategische LogistikDL-Auswahl hat mir Sorgen bereitet.
0,824
Markensensibilität
MSE 01
Bei der strategischen LogistikDL-Auswahl habe ich die Marken der Logistikdienstleister wahrgenommen.
0,577
MSE 02
Bei der strategischen LogistikDL-Auswahl habe ich die Marken der Logistikdienstleister berücksichtigt.
0,844
MSE 03
Bei der strategischen LogistikDL-Auswahl waren mir die Marken der Logistikdienstleister wichtig.
0,887
MSE 04
Bei einer strategischen LogistikDL-Auswahl, wie dieser, bevorzuge ich es bekannte Marken auszuwählen.
0,854
MSE 05
Eine strategische LogistikDL-Auswahl, wie diese, treffe ich anhand der Marke.
0,787
MSE 06
Bei einer strategischen LogistikDL-Auswahl, wie dieser, bevorzuge ich es bekannte Marken zu empfehlen.
0,856
Faith in Intuition
FII 01
Ich vertraue meinen anfänglichen Gefühlen gegenüber Menschen.
0,737
FII 02
Ich glaube daran, dass ich meinen Ahnungen vertrauen kann.
0,779
FII 03
Mein erster Eindruck von Menschen ist fast immer richtig.
0,765
FII 04
Wenn es darum geht, Menschen zu vertrauen, kann ich mich meist auf mein „Bauchgefühl“ verlassen.
0,849
FII 05
Ich spüre normalerweise, ob eine Person richtig oder falsch liegt, auch wenn ich nicht erklären kann, woher ich das weiß.
0,711
Need for Cognition
NFC 01
Ich mag es, viel nachdenken zu müssen
0,840
NFC 02
Ich suche Situationen, in denen gründlich nachgedacht werden muss.
0,820
NFC 03
Ich mache lieber etwas, das meine Denkfähigkeiten herausfordert, als etwas, das wenig Nachdenken erfordert.
0,669
NFC 04
Ich ziehe komplexe Probleme einfachen vor.
0,653
NFC 05
Langes und intensives Nachdenken über etwas stellt mich sehr zufrieden.
0,832
*K = Komponente
Die finalen Messmodelle können der Tabelle 4.11 entnommen werden. Zu den beiden Indikatoren WLK 02 und WLK 06, musste auch der Indikator WLK 03 eliminiert werden. WLK 04 wurde trotz Unterschreiten des Grenzwerts aufgrund seiner inhaltlichen Relevanz beibehalten.317 Das Konstrukt WAR zeigte durchgehend verlässliche Ladungen über dem Grenzwert. Bei der MSE-Messung im Sinne von FB 2a musste lediglich MSE 01 exkludiert werden. Dieser reflektiert offensichtlich weniger die Markensensibilität, sondern eher die Wahrnehmung der Marke und kann insofern als Voraussetzung für die Markensensibilität interpretiert werden. Bei Need for Cognition wurde NFC 05 eliminiert, bei Faith in Intuition zeigten die Indikatoren FII 01, FII 03 und FII 05 kritische Werte an und wurden demzufolge nach inhaltlicher Prüfung eliminiert. Für die Indikatoren NFC 02 und FII 02 wurde die Ladung, bzw. die Indikatorreliabilität als akzeptabel eingestuft, da sie auch auf inhaltlicher Ebene für das jeweilige Konstrukt als wichtig eingestuft wurden.
Tabelle 4.11
Reliabilitätsprüfung reflektiver Messmodelle318
 
Konvergenzvalidität
Interne-Konsistenz-Reliabilität
Indikator
Ladung
(0,707)
Indikatorreliabilität (0,5)
t-Wert
(1,96)
DEV
(0,5)
CR
(0,7)
α
(0,7)
Wahrgenommene Logistikdienstleistungskomplexität
WLK 01
0,718
0,516
13,698
0,533
0,819
0,707
WLK 04
0,620
0,384
9,025
WLK 05
0,848
0,719
29,616
WLK 07
0,716
0,513
12,429
Wahrgenommenes Risiko
WAR 01
0,759
0,576
21,149
0,645
0,901
0,862
WAR 02
0,818
0,669
33,413
WAR 03
0,792
0,627
27,455
WAR 04
0,812
0,659
34,969
WAR 05
0,833
0,694
35,121
Individuelle Risikoneigung
IRN 07
           
Markenwichtigkeit
MWI Marke
           
Markensensibilität
MSE 02
0,836
0,699
36,267
0,746
0,936
0,915
MSE 03
0,906
0,821
78,735
MSE 04
0,872
0,760
49,423
MSE 05
0,838
0,702
49,259
MSE 06
0,865
0,748
51,462
Faith in Intuition
FII 02
0,997
0,994
3,378
0,720
0,832
0,755
FII 04
0,668
0,446
1,982
Need for Cognition
NFC 01
0,720
0,518
3,074
0,533
0,818
0,768
NFC 02
0,589
0,347
2,009
NFC 03
0,771
0,594
3,372
NFC 04
0,821
0,674
3,373
Aufgrund der sich ergebenen Mehrdimensionalität und den Problemen bei der Indikatorreliabilität wurde der Indikator IRN 07 fortan für das Konstrukt individuelle Risikoneigung als Globales Item319 eingesetzt.320 Dadurch können nun allerdings nicht mehr die üblichen Gütekriterien zur Reliabilität und Validität angelegt werden. Wanous und Reichers (1996) präsentieren eine Möglichkeit zur Bestimmung der Reliabilität von Single-Item Messungen.321 Gemäß ihrem Vorgehen ergibt sich für das vorliegende Single-Item eine Reliabilität von 0,59 mit einer Korrelation zum Summenindikator aus IRN 01 bis IRN 06 von 0,53.322 Zur Einordnung können die Grenzwerte von Wanous et al. (1997) und Cohen (1988) herangezogen werden. Während der Grenzwert für die Reliabilität mit 0,7323 nicht vollständig erreicht wird, kann indessen von einer „starken“ und signifikanten Korrelation324 zwischen dem Globalen Item und den Indikatoren IRN 01 bis IRN 06 ausgegangen werden. Obwohl die Ergebnisse aufgrund der vorhin angesprochenen Probleme der Multi-Item Messung mit Bedacht interpretiert werden sollten, kann die Schlussfolgerung getroffen werden, dass sich die Inhalte der anderen Indikatoren ausreichend in dem Globalen Item widerspiegeln und die Reliabilität zu einem akzeptablen Niveau vorhanden ist. Damit liegt ein ausreichender Zusammenhang zwischen den Indikatoren IRN 01 bis IRN 06 und IRN 07 vor und die Anwendung dessen als Globales Item scheint damit angemessen. Auch konnten Bergkvist und Rossiter (2007) und Bergkvist und Rossiter (2009) aufdecken, dass die Prognosevalidität von Single-Item und Muli-Item Messungen durchaus vergleichbar ist und daher eine Messung mittels Single-Items empfehlen.325
Für die verbleibenden Indikatoren der Multi-Item Konstrukte kann neben der hinreichend hohen Ladung auch ein hinreichendes Signifikanzniveau (p<0,05) bestimmt werden, weshalb die Indikatorreliabilität grundsätzlich als zufriedenstellend beurteilt wird – die Indikatoren reflektieren in einem angemessenen Maße die Inhalte ihrer zugeordneten Konstrukte. Auf Konstruktebene kann die durchschnittlich erfasste Varianz (DEV) herangezogen werden, um die Konvergenzvalidität zu examinieren. Hier übertreffen die Konstrukte den vorgegebenen Grenzwert von 0,5. Demzufolge erklärt das Konstrukt im Durchschnitt mehr als die Hälfte der Varianz seiner Indikatoren, und damit mehr als die Messfehler. Ebenfalls auf Konstruktebene kann die interne Konsistenz der Messmodelle bewertet werden. Hierzu stehen den Forschenden das Cronbach Alpha (α) und die Composite Relaibility (CR) zur Verfügung. Diese deuten für die vorliegenden reflektiven Messmodelle auf eine zufriedenstellende interne Konsistenz hin. Der Grenzwert von 0,7 wird jeweils für alle reflektiven Variablen übertroffen. Gleichzeitig weisen die Variablen geringere Werte als 0.95 auf, wonach die Indikatoren eines Messmodells als hinreichend unterschiedlich eingestuft werden können. Zur Prüfung der Diskriminanzvalidität wurden zunächst die Kreuzladungen berechnet. Die Indikatoren laden zuverlässig am höchsten auf das ihnen theoretisch zugeordnete Konstrukt (siehe Tabelle 4.12).
Tabelle 4.12
Prüfung der Diskriminanzvalidität – Kreuzladungen326
 
WLK
WAR
IRN
MWI
MSE
FII
NFC
WLK 01
0,718
0,230
0,024
0,038
0,022
−0,046
−0,011
WLK 04
0,620
0,185
0,043
0,055
0,056
0,034
0,096
WLK 05
0,848
0,300
0,017
−0,026
0,063
0,010
0,066
WLK 07
0,716
0,166
0,015
0,019
0,019
−0,014
0,043
WAR 01
0,220
0,759
0,038
0,134
0,180
0,008
0,046
WAR 02
0,238
0,818
0,098
0,090
0,150
0,107
−0,047
WAR 03
0,302
0,792
0,092
0,076
0,145
0,070
0,040
WAR 04
0,243
0,812
0,012
0,132
0,204
0,035
−0,094
WAR 05
0,249
0,833
0,043
0,105
0,168
0,049
0,024
IRN 07
0,032
0,071
1,000
0,007
0,056
0,143
0,079
MWI Marke
0,022
0,133
0,007
1,000
0,388
−0,029
−0,085
MSE 02
0,092
0,121
0,106
0,309
0,836
−0,106
−0,051
MSE 03
0,069
0,184
0,026
0,392
0,906
−0,084
−0,108
MSE 04
0,048
0,187
0,048
0,308
0,872
−0,069
−0,090
MSE 05
0,022
0,230
0,024
0,345
0,838
0,007
−0,168
MSE 06
0,022
0,180
0,047
0,310
0,865
−0,076
−0,098
FII 02
−0,004
0,065
0,139
−0,031
−0,078
0,997
0,018
FII 04
−0,013
0,060
0,123
−0,003
−0,008
0,668
0,060
NFC 01
−0,016
−0,050
−0,026
0,033
−0,067
0,038
0,720
NFC 02
0,053
−0,004
0,062
0,047
0,013
0,002
0,589
NFC 03
−0,002
−0,025
0,020
−0,056
−0,090
0,016
0,771
NFC 04
0,139
0,037
0,153
−0,125
−0,107
0,005
0,821
Auch bei Anlegen des Fornell-Larcker-Kriteriums bestätigt sich auf Konstruktebene, dass Diskriminanzvalidität vorliegt (siehe Tabelle 4.13). So ist die durchschnittlich erklärte Varianz je Konstrukt (DEV) größer als die quadrierten Korrelationen zu den anderen Konstrukten.
Tabelle 4.13
Prüfung der Diskriminanzvalidität – Fornell/Larcker-Kriterium327
 
WLK
WAR
IRN
MWI
MSE
FII
NFC
WLK
0,533
           
WAR
0,099
0,645
         
IRN
0,001
0,005
SI*
       
MWI
0,001
0,018
0,000
SI*
     
MSE
0,003
0,045
0,003
0,151
0,746
   
FII
0,000
0,005
0,020
0,001
0,005
0,720
 
NFC
0,004
0,000
0,006
0,007
0,015
0,001
0,533
*SI = Single Item
Da in der Vergangenheit Kritik an den beiden Gütemaßen der Diskriminanzvalidität im Rahmen des PLS-Ansatzes geäußert wurde, fand auch das von Henseler et al. (2015) proklamierte HTMT-Kriterium Anwendung (siehe Tabelle 4.14). Zum einen liegen die berechneten HTMT-Korrelationen stets unter dem konservativen Anspruchsniveau von 0,85. Zum anderen ist dasselbe Anspruchsniveau nicht in den 95 %-Konfidenzintervallen der reflektiven Konstrukte vertreten. Demnach kann nach Anlegen des HTMT-Kriteriums derselbe Schluss, wie auch bei Heranziehen der Kreuzladungen und des Fornell-Larcker-Kriteriums gezogen werden: Es liegt eine zufriedenstellende Diskriminanzvalidität sowohl auf Indikator- als auch auf Konstruktebene vor. Die Messmodelle unterscheiden sich ausreichend voneinander.
Tabelle 4.14
Prüfung der Diskriminanzvalidität – HTMT328
 
WLK
WAR
IRN
MWI
MSE
FII
NFC
HTMT 95 %-Konfidenzintervall enthält den Wert 0,85
WLK
             
Nein
WAR
0,384
           
Nein
IRN
0,040
0,076
         
Nein
MWI
0,056
0,144
0,007
       
Nein
MSE
0,088
0,235
0,061
0,403
     
Nein
FII
0,080
0,093
0,168
0,022
0,081
   
Nein
NFC
0,131
0,083
0,097
0,097
0,111
0,060
 
Nein
Insofern kann festgehalten werden, dass es sich bei den reflektiven Konstrukten um ausreichend valide und reliable Messungen handelt. Im Detail konnte die Prüfung zeigen, dass Konvergenzvalidität, interne-Konsistenz-Reliabilität, Diskriminanzvalidität und Inhaltsvalidität bei den Messmodellen in einem zufriedenstellenden Ausmaß vorliegen. Schließlich kann mit diesen Messmodellen nun das Strukturmodell überprüft werden.

4.3.3.2 Überprüfung des Strukturmodells

Gemäß dem dargestellten Verfahren zur Güteprüfung von Strukturmodellen, werden zunächst alle exogenen Variablen, die gemeinsam zur Erklärung einer endogenen Variablen hergeleitet wurden, auf Multikollinearität kontrolliert.329 Entsprechend dem aufgestellten Strukturmodell ist lediglich die Multikollinearitätsprüfung für die exogene Variable der Markensensibilität notwendig. Sowohl das wahrgenommene Risiko als auch die Markenwichtigkeit werden im Strukturmodell nur von einer exogenen Variablen erklärt.330 Daher entfällt hier eine Prüfung der Multikollinearität. Die VIF-Werte für die exogene Variable der Markensensibilität liegen stets unter dem Grenzwert von 3, weshalb von einem sehr geringen Risiko für Multikollinearität ausgegangen werden kann.331 Damit kann die Gütebeurteilung des Strukturmodells fortgeführt werden.
Zur Beurteilung der hypothetisierten Wirkungszusammenhänge werden zunächst die Relevanz und Signifikanz der Pfadkoeffizient bestimmt. Zu diesem Zweck sind in Tabelle 4.15 die Höhe und die t-Werte der Pfadkoeffizienten als auch eine daraus entwickelte zusammenfassende Beurteilung für die Alternativhypothese angegeben. Vor dem Hintergrund der zuvor definierten Anforderungen an die Signifikanz von Pfadkoeffizienten können die drei Nullhypothesen H2, H3 und H8 verworfen werden, während die vier Nullhypothesen H1, H4, H6 und H7 nicht verworfen werden können: Für die Hypothese H2, dem Zusammenhang zwischen wahrgenommener Logistikdienstleistungskomplexität und wahrgenommenen Risiko, wird ein schwach-moderater (f2 = 0,109; q2 = 0,061), positiv (γH2 = 0,314) signifikanter Zusammenhang (tH2 = 6,413) unterstützt. Auch die Hypothese H3 und damit die Wirkungsbeziehung zwischen wahrgenommenem Risiko und Markensensibilität kann auf Grundlage der empirischen Berechnungen in ihrem positiven (γH3 = 0,213) signifikanten Einfluss (tH3 = 3,525) bestätigt werden. Der Zusammenhang übertrifft das festgelegte Anspruchsniveau für die Effektstärken f2 und q2 und kann als schwach (f2 = 0,044; q2 = 0,030) eingestuft werden. Schließlich kann auch die im Rahmen der Markenhierarchie hergeleitete positive Beziehung (γH8 = 0,388) zwischen Markensensibilität und Markenwichtigkeit als signifikant (tH8 = 8,887) und moderat (f2 = 0,177; q2 = 0,146) beurteilt werden. Zwar konnte der Einfluss der organisationalen Charakteristik „wahrgenommenes Risiko“ auf die Markensensibilität unterstützt werden, jedoch muss die Alternativhypothese H1 für die Beziehung zwischen wahrgenommener Logistikdienstleistungskomplexität und Markensensibilität abgelehnt werden. Der Pfadkoeffizient ist entgegen der Hypothetisierung negativ (γH1 = −0,003) und zeigt eine hohe Irrtumswahrscheinlichkeit für die Ablehnung der Nullhypothese (tH1 = 0,057). Ebenfalls muss die Alternativhypothese H5 abgelehnt werden. Die individuelle Risikoneigung zeigt nach der empirischen Prüfung einen positiven Einfluss (γH5 = 0,064) auf die Markensensibilität, allerdings ist dieser nicht signifikant (tH5 = 1,231). Ebenfalls ergibt sich für die Alternativhypothese H6 ein Vorzeichenwechsel (γH6 = −0,094) im Vergleich zur Hypothesenherleitung. Der Effekt von Faith in Intuition auf die Markensensibilität ist jedoch nicht signifikant (tH6 = 1,197), weshalb die Alternativhypothese abgelehnt werden muss. Schließlich weist der empirisch berechnete Pfadkoeffizient der Hypothese H7 auf einen negativen Zusammenhang (γH7 = −0,123) zwischen Need for Cognition und Markensensibilität hin. Die Irrtumswahrscheinlichkeit zur Ablehnung der Nullhypothese ist hinsichtlich des angestrebten Signifikanzniveaus zu hoch (tH7 = 1,339). Daher wird auch dieser Wirkungszusammenhang als nicht unterstützt erachtet.
Wie Abbildung 4.12 zusammenfassend illustriert, kann nach erfolgter empirischer Überprüfung der Einfluss der individuellen Charakteristiken (individuelle Risikoneigung, Faith in Intuition, Need for Cognition) auf die Markensensibilität als nicht unterstützt, der Einfluss der organisationalen Charakteristiken (wahrgenommene Logistikdienstleistungskomplexität, wahrgenommenes Risiko) auf die Markensensibilität zum Teil als bestätigt befunden werden. Die Markenhierarchie, wonach die Markenwichtigkeit der Markensensibilität folgt, kann als unterstützt angesehen werden.
Tabelle 4.15
Beurteilung des Strukturmodells I332
 
Alternativhypothese
Relevanz und Signifikanz der Pfadkoeffizienten
Beurteilung der Alternativ-hypothese
Effektstärke
Pfadkoeffizient (>0,2)
t-Wert
(>1,96)
f2
(>0,02)
q2
(>0,02)
Organisationale
Charakteristiken
H1 (+)
WLK -> MSE
−0,003
0,057
n. s.
H2 (+)
WLK -> WAR
0,314***
6,413
0,109
0,061
H3 (+)
WAR -> MSE
0,213***
3,525
0,044
0,030
Individuelle
Charakteristiken
H5 (−)
IRN -> MSE
0,064
1,231
n. s.
H6 (+)
FII -> MSE
−0,094
1,197
n. s.
H7 (−)
NFC -> MSE
−0,123
1,339
n. s.
Markenhierarchie
H8 (+)
MSE -> MWI
0,388***
8,887
0,177
0,146
Signifikanzniveaus (2-seitiger t-Test):
* signifikant auf 0,05-Niveau
** signifikant auf 0,01-Niveau
*** signifikant auf 0,001-Niveau
n. s. nicht signifikant
Hypothesenbeurteilung:
✓ Alternativhypothese wird unterstützt
○  Alternativhypothese wird nicht untertsützt
Zur Beurteilung der Erklärungskraft und der Prognosestärke des Strukturmodells sind in Tabelle 4.16 die R2-Bestimmtheitsmaße, das Stone-Geisser-Kriterium Q2, sowie die PLSpredict-Ergebnisse333 der endogenen Variablen dargestellt. Wie für verhaltenswissenschaftliche Studien zu erwarten war, liefert die empirische Überprüfung relativ geringe Bestimmtheitsmaße für die Variablen Markensensibilität (R2 = 0,070) und wahrgenommenes Risiko (R2 = 0,098). Das R2-Bestimmtheistmaß der Markenwichtigkeit kann unter Berücksichtigung des Forschungskontextes dagegen als moderat (R2 = 0,151) eingestuft werden. Angesichts dessen, dass Hair et al. (2017) bei Studien zum Konsumentenverhalten bereits R2-Werte von 0,2 als „hoch“ einstufen334 und diese Studien aufgrund der Untersuchungsebene – individuelles Verhalten – mit der vorliegenden Arbeit vergleichbar sind, kann für das vorliegende Strukturmodell auf eine ausreichende Erklärungskraft geschlossen werden. Die Berechnung des Stone-Geisser-Kriteriums liefert für alle endogenen Variablen Q2-Werte >0, wonach grundsätzlich von einer Prognosestärke des Strukturmodells für die endogenen Variablen ausgegangen werden kann. Wie auch für das Bestimmtheitsmaß waren für das Stone-Geisser-Kriterium generell geringe Werte zu erwarten gewesen.
Tabelle 4.16
Beurteilung des Strukturmodells II335
 
Erklärungskraft
Prognosestärke
Bestimmtheitsmaß R2
(>0,1, je nach Untersuchungsgegenstand)
Stone-Geisser-Kriterium Q2
(>0)
PLSpredict
PLS-SEM Werte (RMSE) < LM-Werte (RMSE)
Wahrgenommenes Risiko
0,098
0,061
5/5 Indikatoren
Markensensibilität
0,070
0,048
5/5 Indikatoren
Markenwichtigkeit
0,151
0,146
1/1 Indikatoren
Aufgrund der Kritik am Stone-Geisser-Kriterium, sollen nun ergänzend die PLSpredict-Ergebnisse zur Beurteilung der Prognosestärke interpretiert werden. Zunächst soll das zentrale endogene Konstrukt bestimmt werden, anhand dessen dann die Prognosekraft beurteilt werden soll. Dies ist für das vorliegende Strukturmodell die Markensensibilität.336 Da die PLS-SEM Analyse durchgehend über alle Indikatoren (5/5 Indikatoren) hinweg der Markensensibilität geringere Fehlerwerte der Prognose, d. h. geringere RMSE-Werte als die LM Analyse liefert, kann gemäß der Einordnung von Shmueli et al. (2019) von einer hohen Prognosekraft des Modells ausgegangen werden.
Abbildung 4.12 verdeutlicht noch einmal die Höhe und Signifikanz der Pfadkoeffizienten des Strukturmodells, sowie die R2-Bestimmtheitsmaße der endogenen Variablen nach erfolgter empirischer Güteprüfung.
Abbildung 4.12
Zusammenfassende Beurteilung des Strukturmodells337

4.3.3.3 Überprüfung der Stabilität des Strukturmodells

Um die Stabilität der Ergebnisse zu kontrollieren, wurden zwei supplementäre Analysen durchgeführt. Diese adressieren den potenziellen Einfluss von Kontrollvariablen und potenzielle nicht-lineare Beziehungen zwischen den Variablen. Wie Tabelle 4.17 impliziert, haben die zehn Kontrollvariablen allesamt keinen signifikanten Einfluss (p<0,05) auf das fokale Konstrukt Markensensibilität. Da auch die Pfadkoeffizienten aus dem Ausgangsmodell weiterhin ihre Signifikanzen/Nicht Signifikanzen und nur geringe Veränderungen in den Höhen aufweisen, kann eine Stabilität des Strukturmodells hinsichtlich des Einflusses von Kontrollvariablen angenommen werden.
Die Erklärungskraft des Modells unter Einbezug der Kontrollvariablen, beurteilt am Bestimmtheitsmaß R2 der Markensensibilität, steigt wie erwartet (siehe Tabelle 4.18). Demnach erklären die exogenen Variablen zusammen mit den Kontrollvariablen 12,7 % der Varianz der Markensensibilität. Angesichts der Anzahl an berücksichtigten Kontrollvariablen ist der Anstieg des R2 als angemessen zu beurteilen. Alternative Erklärungen abseits der hypothetisierten Einflüsse, sind demnach auszuschließen.
Tabelle 4.17
Beurteilung der Stabilität des Strukturmodells – Kontrollvariablen I338
 
Alternativhypothese
Relevanz und Signifikanz der Pfadkoeffizienten
Beurteilung der Alternativ-hypothese
Effektstärke
Pfadkoeffizient (>0,2)
t-Wert
(>1,96)
f2
(>0,02)
Organisationale Charakteristiken
H1 (+)
WLK -> MSE
0,005
0,078
n. s.
H2 (+)
WLK -> WAR
0,314***
6,345
0,109
H3 (+)
WAR -> MSE
0,216***
3,588
0,043
Individuelle Charakteristiken
H5 (−)
IRN -> MSE
0,039
0,708
n. s.
H6 (+)
FII -> MSE
−0,088
1,113
n. s.
H7 (−)
NFC -> MSE
−0,127
1,300
n. s.
Markenhierarchie
H8 (+)
MSE -> MWI
0,388***
8,930
0,177
Kontrollvariablen
UMS -> MSE
0,075
0,937
n. s.
MAZ -> MSE
0,043
0,590
n. s.
BCG -> MSE
−0,085
1,801
n. s.
SWI -> MSE
−0,089
1,510
n. s.
DLA -> MSE
0,076
1,290
n. s.
WSL -> MSE
0,050
0,880
n. s.
ELD -> MSE
0,064
0,935
n. s.
VKO -> MSE
−0,067
1,131
n. s.
LEF -> MSE
0,131
1,837
n. s.
UMW -> MSE
−0,015
0,268
n. s.
Signifikanzniveaus (2-seitiger t-Test):
* signifikant auf 0,05-Niveau
** signifikant auf 0,01-Niveau
*** signifikant auf 0,001-Niveau
n. s. nicht signifikant
Hypothesenbeurteilung:
✓ Alternativhypothese wird unterstützt
○  Alternativhypothese wird nicht untertsützt
Tabelle 4.18
Beurteilung der Stabilität des Strukturmodells – Kontrollvariablen II339
 
Erklärungskraft – Bestimmtheitsmaß R2
R2Ausgangsmodell
R2Modell Kontrollvariablen
ΔR2
Wahrgenommenes Risiko
0,098
0,098
n. a.
Markensensibilität
0,070
0,127
0,057 → 81 %
Markenwichtigkeit
0,151
0,151
n. a.
Abbildung 4.13 verdeutlicht noch einmal die Höhe und Signifikanz der Pfadkoeffizienten des Strukturmodells, sowie die R2-Bestimmtheitsmaße der endogenen Variablen unter Einschluss der Kontrollvariablen zur Überprüfung der Modellstabilität.
Abbildung 4.13
Zusammenfassende Beurteilung der Stabilität des Strukturmodells– Kontrollvariablen340
In einem zweiten Arbeitsschritt zur Beurteilung der Modellstabilität wurden in Anlehnung an Hair et al. (2019b) nicht-lineare Effekte modelliert.341 Gleichzeitig wird damit im Sinne der konzeptionellen Strenge, eine Objektivität im Umgang mit konkurrierenden Perspektiven sichergestellt (KS 4). Denn Brown et al. (2012) und Brown et al. (2011) geben einen begründeten Anlass zur Annahme, dass die Beziehungen zwischen wahrgenommenem Risiko und Markensensibilität als auch zwischen wahrgenommener Logistikdienstleistungskomplexität und Markensensibilität nicht-linear (quadratisch) sein könnten.342 Ferner liefern Zablah et al. (2010) Ergebnisse, die auf eine nicht-lineare Beziehung zwischen Markensensibilität und Markenwichtigkeit hindeuten.343 Aufgrund dessen scheint eine Prüfung der drei Beziehungen auf Nicht-Linearität notwendig zu sein. Zu diesem Zweck wurde in SmartPLS das Zwei-Stufen Verfahren umgesetzt und drei Interaktionsterme eingefügt, um die quadratischen Effekte zu repräsentieren. Die Bootstrapping Ergebnisse aus Tabelle 4.19 deuten in allen drei Fällen auf nicht signifikante (p<0,05) quadratische Effekte hin. Zusätzlich verbleiben die hypothetisierten Effekte in Höhe und Signifikanz mit dem Ausgangsmodell vergleichbar. Somit bestätigen die Ergebnisse die linearen Beziehungen – das Ausgangsmodell mit seinen linearen Effekten kann als robust deklariert werden.
Tabelle 4.19
Beurteilung der Stabilität des Strukturmodells – Nicht-lineare Effekte I344
 
Alternativhypothese
Relevanz und Signifikanz der Pfadkoeffizienten
Beurteilung der Alternativ-hypothese
Effektstärke
f2
(>0,02)
Pfadkoeffizient (>0,2)
t-Wert
(>1,96)
Organisationale
Charakteristiken
H1 (+)
WLK -> MSE
−0,009
0,156
n. s.
H2 (+)
WLK -> WAR
0,314***
6,436
0,109
H3 (+)
WAR -> MSE
0,275***
4,199
0,055
Individuelle
Charakteristiken
H5 (−)
IRN -> MSE
0,067
1,248
n. s.
H6 (+)
FII -> MSE
−0,090
1,185
n. s.
H7 (−)
NFC -> MSE
−0,127
1,361
n. s.
Markenhierarchie
H8 (+)
MSE -> MWI
0,388***
9,014
0,177
Nicht-lineare Effekte
WA R2-> MSE (+)
−0,094
1,726
n. s.
WLK2 -> MSE (+)
−0,009
0,191
n. s.
MSE2 -> MWI (+)
0,004
0,075
n. s.
Signifikanzniveaus (2-seitiger t-Test):
* signifikant auf 0,05-Niveau
** signifikant auf 0,01-Niveau
*** signifikant auf 0,001-Niveau
n. s. nicht signifikant
Hypothesenbeurteilung:
✓ Alternativhypothese wird unterstützt
○  Alternativhypothese wird nicht untertsützt
Die Erklärungskraft des Modells unter Einbezug der quadratischen Effekte, beurteilt am Bestimmtheitsmaß R2 der Markensensibilität, steigt (siehe Tabelle 4.20). Demnach erklären die exogenen Variablen zusammen mit den quadratischen Effekten der wahrgenommenen Logistikdienstleistungskomplexität und des wahrgenommenen Risikos 8,1 % der Varianz der Markensensibilität. Die Veränderung im Vergleich zum Ausgangsmodell kann als gering eingestuft werden. Hingegen führt die Modellierung des quadratischen Effekts der Markensensibilität zu keiner Veränderung des Bestimmtheitsmaßes der Markenwichtigkeit. Es bestätigt sich also, dass die nicht-linearen Effekte nur geringfügig zur Erklärung der Markensensibilität beitragen.
Tabelle 4.20
Beurteilung der Stabilität des Strukturmodells – Nicht-lineare Effekte II345
 
Erklärungskraft – Bestimmtheitsmaß R2
R2Ausgangsmodell
R2Modell nicht-lineare Effekte
ΔR2
Wahrgenommenes Risiko
0,098
0,098
n. a.
Markensensibilität
0,070
0,081
0,011 → 18 %
Markenwichtigkeit
0,151
0,151
n. a.
Abbildung 4.14 verdeutlicht noch einmal die Höhe und Signifikanz der Pfadkoeffizienten des Strukturmodells, sowie die R2-Bestimmtheitsmaße der endogenen Variablen unter Einschluss der quadratischen Effekte zur Überprüfung der Modellstabilität.
Abbildung 4.14
Zusammenfassende Beurteilung der Stabilität des Strukturmodells – Nicht-lineare Effekte346
Zusammenfassend lässt sich nach Durchführung der beiden Stabilitätstests festhalten, dass das Ausgangsmodell im Allgemeinen unterstützt wird – es ist robust gegenüber alternativen Einflussfaktoren und nicht-linearen Wirkungsbeziehungen.

4.3.3.4 Überprüfung der Mediation

Angesichts der bereits bestätigten und signifikanten Effekte H2 und H3 kann nun in einem nächsten Schritt überprüft werden, inwiefern das wahrgenommene Risiko tatsächlich als Mediator für den Effekt zwischen wahrgenommener Logistikdienstleistungskomplexität und Markensensibilität wirkt. Hierzu wurde das Bootstrapping als geeignetes Verfahren festgelegt.347 Tabelle 4.21 fasst die Ergebnisse der Güteprüfung zusammen. Demzufolge ist der indirekte Effekt zwischen wahrgenommener Logistikdienstleistungskomplexität und Markensensibilität (γH4 = 0,067) mit einer Irrtumswahrscheinlichkeit von 1 % signifikant (tH4 = 3,144). Auch das zur Güteprüfung von Mediationen empfohlene 95 %-Konfidenzintervall enthält nicht den Wert 0, weshalb auch aufgrund dieser Resultate eine Mediation unterstützt werden kann. Die Alternativhypothese H4med wird daher grundsätzlich angenommen.
Tabelle 4.21
Beurteilung der Mediation H4Med I348
Alternativhypothese
Relevanz und Signifikanz des Pfadkoeffizienten
Beurteilung der Alternativhypothese
Stärke der Mediation
Pfadkoeffizient (>0,2)
t-Wert
(>1,96)
95 %Konfidenzintervall
VAF
Effektstärke \(v\)
H4Med (+)
WLK -> WAR -> MSE
0,067**
3,144
[0,029, 0,111]
n. a.
0,00447
Signifikanzniveaus (2-seitiger t-Test):
* signifikant auf 0,05-Niveau
** signifikant auf 0,01-Niveau
*** signifikant auf 0,001-Niveau
n. s. nicht signifikant
Hypothesenbeurteilung:
✓ Alternativhypothese wird unterstützt
○  Alternativhypothese wird nicht untertsützt
Zur Bestimmung des Mediationstypus muss der direkte Effekt hinzugezogen werden. Wie bereits aus der Güteprüfung des Strukturmodells bekannt, ist der Einfluss von wahrgenommener Logistikdienstleistung auf die Markensensibilität nicht signifikant (tH1 = 0,057) und negativ (γH1 = −0,003). Gemäß des Entscheidungsbaums von Zhao et al. (2010) kann somit auf eine „rein indirekte Mediation“ bzw. „vollständige Mediation“ geschlossen werden (siehe Tabelle 4.22).349
Tabelle 4.22
Beurteilung der Mediation H4Med II350
Alternativhypothese
Direkter Effekt
Indirekter Effekt
Typ der Mediation
Pfadkoeffizient
Signifikant (p<0,05)
Pfadkoeffizient
Signifikant (p<0,05)
H4Med (+)
WLK -> MSE
−0,003
Nein
0,067
Ja
Rein indirekte Mediation
Gleichzeitig bedeutet dies für die Prüfung der Effektstärken, dass eine Berechnung des VAF (Variance accouned for) nicht möglich ist. Eine Voraussetzung zur Anwendung der Formel ist, dass das Produkt aus indirektem und direktem Effekt ein positives Vorzeichen hat351 – dies ist für den vorliegenden Fall nicht gegeben. Damit verbleibt die Berechnung der von Lachowicz et al. (2018) eingeführten Effektstärke \(v\). Mit einem Wert von \(v\)=0,0047 und vor dem Hintergrund der Grenzwerte von Cohen (1988) kann ein schwacher Effekt unterstellt werden. Nichtsdestotrotz konnte gezeigt werden, dass das wahrgenommene Risiko die Beziehung zwischen wahrgenommener Logistikdienstleistungskomplexität und Markensensibilität vollständig mediiert. Abbildung 4.15 verdeutlicht noch einmal die Höhe und Signifikanz der Pfadkoeffizienten des direkten und indirekten Effekts.
Abbildung 4.15
Zusammenfassende Beurteilung der Mediationsanalyse352

4.3.3.5 Ex-post Checks zur Kontrolle potenzieller Fehler der Messung

Die in Kapitelabschnitt 3.​2.​2 herausgearbeiteten Möglichkeiten zur ex-post Kontrolle potenzieller Fehler der Messung, sollen nun nach erfolgter Strukturmodell- und Mediationsprüfung umgesetzt werden. Demzufolge werden im Rahmen des Informant Bias drei Multigruppen-Vergleiche, im Rahmen des Common Method Bias die Harmons Einfaktoranalyse und der Full-Kollinearitäts-Tests, im Rahmen des Social Desirability Bias eine Analyse des Einflusses der Impression Management und Self-Deceptive Enhancement Indexe, sowie im Rahmen des Recall Bias erneut ein Multigruppen-Vergleich durchgeführt.
4.3.3.5.1 Kontrolle des Informant Bias
Zur Überprüfung des Informant Bias wurden zuvor in Kapitelabschnitt 3.​2.​2.​1 die drei Charakteristiken Entscheidungsverantwortung, Funktionsbereich und Berufserfahrung aus der Literatur abgeleitet. Hinsichtlich der Entscheidungsverantwortung wurden die Teilnehmer im Fragebogen gebeten ihre Rolle in der von ihnen reflektierten strategischen Logistikdienstleisterauswahl anzugeben. Dies ermöglicht die Teilung des Datensatzes in zwei Gruppen. Gruppe 1 (n = 281) umfasst all jene Probanden, die über alleinige oder geteilte Entscheidungsverantwortung verfügen. Gruppe 2 (n = 54) umfasst dagegen all jene Probanden, die keine Entscheidungsverantwortung besitzen. Da die konfigurale und kompositionelle Invarianz unterstützt wird,353 können folglich die beiden Gruppen unter Verwendung des von Hair et al. (2018) und Klesel et al. (2022) empfohlenen Permutations-Tests354 miteinander verglichen werden.
Tabelle 4.23
Beurteilung Informant Bias I – Permutations-Test Entscheider vs. Nicht-Entscheider355
 
Alternativhypothese
Pfadkoeffizienten Differenz (\(d\))
95 %-Konfidenzintervall
Permutation p-Werte
Organisationale
Charakteristiken
H1 (+)
WLK -> MSE
0,323
[−0,370; 0,352]
0,087
H2 (+)
WLK -> WAR
0,152
[−0,270; 0,193]
0,230
H3 (+)
WAR -> MSE
−0,211
[−0,289; 0,344]
0,216
H4Med (+)
WLK -> MSE
−0,016
[−0,132;0,115]
0,800
Individuelle
Charakteristiken
H5 (−)
IRN -> MSE
−0,009
[−0,296; 0,305]
0,947
H6 (+)
FII -> MSE
0,093
[−0,381; 0,257]
0,600
H7 (−)
NFC -> MSE
0,039
[−0,473; 0,284]
0,856
Markenhierarchie
H8 (+)
MSE -> MWI
0,000
[−0,236; 0,242]
0,998
Die Ergebnisse der Analyse in Tabelle 4.23 deuten darauf hin, dass zwischen den beiden Gruppen keine signifikanten Unterschiede (p<0,05) vorherrschen. Jedoch ist nach der Durchführung des Permutations-Tests nicht ausgeschlossen, dass doch einzelne Wirkungszusammenhänge in den Gruppenmodellen abweichende Signifikanzen aufweisen (siehe Abbildung 4.16). Beispielsweise ist die Wirkung der wahrgenommenen Logistikdienstleistungs-komplexität auf das wahrgenommene Risiko für die Gruppe der Entscheider signifikant, für die Gruppe der Nicht-Entscheider dagegen nicht. Demzufolge ist auch der mediierende Effekt des wahrgenommenen Risikos für die Gruppe der Nicht-Entscheider nicht signifikant.
Abbildung 4.16
Beurteilung Informant Bias I – Gruppenvergleich Entscheider vs. Nicht-Entscheider356
Hinsichtlich des Funktionsbereichs wurde die effektive Stichprobe in die beiden Gruppen „Logistik“ (n = 135) und „Beschaffung“ (n = 103) unterteilt. Die Überprüfung der konfiguralen und kompositionellen Invarianz bestätigt das Vorliegen einer partiellen Messinvarianz,357 wonach die Durchführung einer Multigruppenanalyse für den Vergleich der beiden Funktionsbereiche legitim scheint. Der anschließende Permutations-Test weist auf einen signifikanten Unterschied für den Wirkungszusammenhang zwischen der Markensensibilität und der Markenwichtigkeit hin (p = 0,015). Der entsprechende Pfadkoeffizient für die Gruppe der Logistikmanager (γ1H8 = 0,523) ist nahezu doppelt so groß wie der Pfadkoeffizient für die Gruppe der Beschaffungsmanager (γ2H8 = 0,282). Dennoch kann für beide Gruppen ein signifikanter Effekt der Markensensibilität auf die Markenwichtigkeit festgehalten werden. Für die anderen Wirkungszusammenhänge des Strukturmodells konnten dagegen keine signifikanten Unterschiede (p<0,05) festgestellt werden (siehe Tabelle 4.24).
Tabelle 4.24
Beurteilung Informant Bias II – Permutations-Test Logistikmanager vs. Beschaffungsmanager358
 
Alternativhypothese
Pfadkoeffizienten Differenz (\(d\))
95 %-Konfidenzintervall
Permutation p-Werte
Organisationale
Charakteristiken
H1 (+)
WLK -> MSE
0,195
[−0,265; 0,275]
0,165
H2 (+)
WLK -> WAR
−0,023
[−0,225; 0,230]
0,856
H3 (+)
WAR -> MSE
−0,284
[−0,316; 0,294]
0,068
H4Med (+)
WLK -> MSE
−0,098
[−0,112; 0,116]
0,078
Individuelle
Charakteristiken
H5 (−)
IRN -> MSE
0,121
[−0,244; 0,243]
0,347
H6 (+)
FII -> MSE
−0,010
[−0,281; 0,301]
0,922
H7 (−)
NFC -> MSE
−0,023
[−0,483; 0,482]
0,852
Markenhierarchie
H8 (+)
MSE -> MWI
−0,241
[−0,196; 0,209]
0,015
Wie in Abbildung 4.17 dargestellt, ist der Einfluss des wahrgenommenen Risikos auf die Markensensibilität für die Gruppe der Beschaffungsmanager nicht signifikant, während er für die Gruppe der Entscheider weiterhin signifikant ist. In Übereinstimmung mit der Gruppe der Nicht-Entscheider, muss auch die hypothetisierte Mediation für die Gruppe der Beschaffungsmanager abgelehnt werden.
Abbildung 4.17
Beurteilung Informant Bias II – Gruppenvergleich Logistikmanager vs. Beschaffungsmanager359
Um den Informant Bias über die Berufserfahrung der Teilnehmer kontrollieren zu können, wurde zunächst der Median bestimmt und anschließend der Datensatz entlang des Medians geteilt (Median Split). Somit liegen zwei Gruppen vor. Die Gruppe der Teilnehmer mit geringer Berufserfahrung sind all jene, die weniger als 16 Jahre im Beruf gearbeitet haben, die Gruppe der Teilnehmer mit hoher Berufserfahrung sind all jene, die 16 Jahre oder mehr Erfahrung im Beruf vorweisen können.360 Nach der Bestimmung der konfiguralen und kompositionellen Invarianz, konnte der Multigruppenvergleich ausgeführt werden.361 Die in Tabelle 4.25 zusammengefassten Ergebnisse zeigen keine signifikanten Unterschiede (p<0,05) zwischen den beiden Gruppen. Auch die einzelnen Pfadkoeffizienten verhalten sich hinsichtlich ihrer Signifikanz annähernd gleich (siehe Abbildung 4.18). Demnach scheinen die Ergebnisse der Hauptanalyse auch unter Berücksichtigung der Berufserfahrung stabil zu sein.
Tabelle 4.25
Beurteilung Informant Bias III – Permutations-Test Berufserfahrung362
 
Alternativhypothese
Pfadkoeffizienten Differenz (\(d\))
95 %-Konfidenzintervall
Permutation p-Werte
Organisationale
Charakteristiken
H1 (+)
WLK -> MSE
0,214
[−0,257; 0,248}
0,078
H2 (+)
WLK -> WAR
−0,085
[−0,201; 0,178]
0,398
H3 (+)
WAR -> MSE
−0,004
[−0,230; 0,256]
0,968
H4Med (+)
WLK -> MSE
−0,021
[−0,085; 0,093]
0,642
Individuelle
Charakteristiken
H5 (−)
IRN -> MSE
0,048
[−0,212; 0,215]
0,658
H6 (+)
FII -> MSE
−0,153
[−0,283; 0,284]
0,311
H7 (−)
NFC -> MSE
0,039
[−0,374; 0,379]
0,674
Markenhierarchie
H8 (+)
MSE -> MWI
0,125
[−0,185; 0,184]
0,184
Abbildung 4.18
Beurteilung Informant Bias III – Gruppenvergleich Berufserfahrung363
Insgesamt deuten die Multigruppenvergleiche darauf hin, dass die Verzerrung durch den Informant Bias gering ist. Dieser scheint somit für die Ergebnisse der Hauptanalyse vernachlässigbar. Lediglich der Wirkungszusammenhang zwischen Markensensibilität und Markenwichtigkeit weist für die Funktionszugehörigkeit einen signifikanten Unterschied auf. Allerdings ist der Unterschied von geringer Bedeutung, da der Pfadkoeffizient in beiden Gruppen gleichermaßen Signifikanz besitzt. Für zukünftige Studien zur Auswahl von Logistikdienstleistern gilt zu beachten, dass die Funktionsbereiche, als auch die Entscheidungsverantwortung der Teilnehmer zu unterschiedlichen Ergebnissen führen können. Dies ist wenig verwunderlich angesichts der unterschiedlichen Kenntnisse und Bedeutung, die die jeweiligen Gruppen einer Auswahlentscheidung beimessen.364
4.3.3.5.2 Kontrolle des Common Method Bias
Gemäß dem Vorschlag von Podsakoff und Organ (1986) wurde Harmans Ein-Faktor-Test zur ex-post Kontrolle des Common Method Bias durchgeführt.365 Der erste Faktor als Ergebnis der Hauptkomponentenanalyse366 ohne Rotation erklärt insgesamt 13,5 % der Varianz aller Modellvariablen und liegt damit deutlich unter dem kritischen Grenzwert von 50 %.
Tabelle 4.26
Beurteilung des Common Method Bias – vollständiger Kollinearitätstest367
 
Vollständige Kollinearität-VIFs
(VIF<3,3)
WLK
1,041
WAR
1,094
IRN
1,047
MWI
1,176
MSE
1,212
FII
1,039
NFC
1,032
Als weitere Möglichkeit zur ex-post Kontrolle wurde zuvor368 der vollständige Kollinearitätstest nach Kock und Lynn (2012) vorgestellt. Insofern wurde in Excel eine zufällige „Dummy“ Variable mit Werten zwischen 0 und 1 generiert und anschließend in SmartPLS integriert. Das Verfahren sieht vor, dass alle Modellvariablen als unabhängige Variablen und die „Dummy“ Variable als abhängige Variable agieren.369 Die latenten Modellvariablen weisen als Ergebnis der PLS-Analyse zuverlässig VIF-Werte aus, die kleiner als der kritische Wert von 3,3 sind (siehe Tabelle 4.26). Basierend auf den Ergebnissen der beiden Tests konnte also kein Common Method Bias festgestellt werden. Demzufolge scheinen die Ergebnisse weiterhin robust gegenüber Messfehlern zu sein.
4.3.3.5.3 Kontrolle des Social Desirability Bias
Die Kontrolle des Social Desirability Bias über die beiden Skalen des Impression Managements und der Self-Deceptive Enhancement erfolgt nach der Vorgehensweise von Bernardi (2006) und Stöber et al. (2002).370 Grundsätzlich kann bei der Anwendung der Social Desirability Skala zwischen zwei Vorgehen unterschieden werden. Ursprünglich lassen Paulhus (1984), als auch Paulhus (1991) in die Analyse der sozialen Erwünschtheit nur extreme Antworten einfließen. Bei einer 7-Likert-Skala werden demzufolge nur die Werte 6 und 7 berücksichtigt. Dieses Vorgehen wird auch als dichotome Scoringmethode bezeichnet.371 Demgegenüber steht die kontinuierliche Scoringmethode, bei der alle Werte der 7-Likert-Skala in die Analyse miteinberechnet werden.372 Beide Vorgehen haben gemeinsam, dass die Werte vor der Analyse zu Indexen verdichtet werden.373 Den Ergebnissen von Stöber et al. (2002) und Kam (2013) zufolge zeigt die kontinuierliche Scoringmethode eine bessere Performance und ist im Allgemeinen zu bevorzugen.374 Insofern wird diese auch für den vorliegenden Fall angewendet. Durch die Verdichtung agieren die Indexe im Strukturmodell, ähnlich wie die Kontrollvariablen, als Single-Items. Entsprechend wurde auch keine Messmodellprüfung angestrebt. In Kapitelabschnitt 3.​2.​2.​3 wurde dahingehend argumentiert, dass primär das Konstrukt Markensensibilität dem Einfluss der sozialen Erwünschtheit unterliegen dürfte. Zudem stellt dieses die zentrale Variable im Strukturmodell dar. Aufgrund dessen erscheint es sinnvoll den Einfluss der beiden Social Desirability Variablen auf die Markensensibilität zu kontrollieren. Nach entsprechender Integration der beiden Indexe in das Strukturmodell ergeben sich die in Tabelle 4.27 abgebildeten Pfadkoeffizienten und Signifikanzen.
Der Wirkungszusammenhang zwischen der Self-Deceptive Enhancement und der Markensensibilität erweist sich als ebenso nicht signifikant wie der Einfluss des Impression Managements auf die Markensensibilität (p<0,05). Des Weiteren verhalten sich die hypothetisierten Wirkungszusammenhänge in Höhe und Signifikanz gegenüber dem Ausgangsmodell stabil.
Tabelle 4.27
Beurteilung des Social Desirability Bias I375
 
Alternativhypothese
Relevanz und Signifikanz der Pfadkoeffizienten
Beurteilung der Alternativ-hypothese
Effektstärke
Pfadkoeffizient (>0,2)
t-Wert
(>1,96)
f2
(>0,02)
Organisationale
Charakteristiken
H1 (+)
WLK -> MSE
−0,006
0,103
n. s.
H2 (+)
WLK -> WAR
0,314***
6,293
0,109
H3 (+)
WAR -> MSE
0,228***
3,799
0,049
H4Med (+)
WLK -> MSE
0,071**
3,324
n. a.
Individuelle
Charakteristiken
H5 (−)
IRN -> MSE
0,060
1,143
n. s.
H6 (+)
FII -> MSE
−0,127
1,451
n. s.
H7 (−)
NFC -> MSE
−0,135
1,391
n. s.
Markenhierarchie
H8 (+)
MSE -> MWI
0,388***
8,871
0,177
Social Desirability Bias
SDE-> MSE (+)
0,086
1,348
n. s.
IPM -> MSE (+)
0,019
0,337
n. s.
Signifikanzniveaus (2-seitiger t-Test):
* signifikant auf 0,05-Niveau
** signifikant auf 0,01-Niveau
*** signifikant auf 0,001-Niveau
n. s. nicht signifikant
Hypothesenbeurteilung:
✓ Alternativhypothese wird unterstützt
○  Alternativhypothese wird nicht untertsützt
Die Erklärungskraft des Modells unter Einbezug der beiden Variablen, beurteilt am Bestimmtheitsmaß R2 der Markensensibilität, steigt (siehe Tabelle 4.28). Demnach erklären die exogenen Variablen gemeinsam mit den Impression Management und Self-Deceptive Enhancement Indexen 10 % der Varianz der Markensensibilität. Die Veränderung im Vergleich zum Ausgangsmodell kann jedoch als geringfügig eingestuft werden.
Tabelle 4.28
Beurteilung des Social Desirability Bias II376
 
Erklärungskraft – Bestimmtheitsmaß R2
R2Hauptanalyse
R2Social Desirability Bias
ΔR2
Wahrgenommenes Risiko
0,098
0,098
n. a.
Markensensibilität
0,070
0,077
0,007 → 10 %
Markenwichtigkeit
0,151
0,151
n. a.
Insgesamt deuten die Ergebnisse (siehe Abbildung 4.19) daraufhin, dass eine Verzerrung durch soziale Erwünschtheit nicht zu erwarten ist. Die Ergebnisse des Ausgangsmodells können damit weiterhin, auch nach der Kontrolle des Social Desirability Bias, als stabil und verlässlich beurteilt werden.
Abbildung 4.19
Zusammenfassende Beurteilung des Social Desirability Bias377
4.3.3.5.4 Kontrolle des Recall Bias
Mit Hilfe der Variable „Zeitpunkt der Lieferantenauswahl“ war es möglich den Recall Bias zu kontrollieren. Demnach wurde der Datensatz unter Einsatz des Median-Split-Verfahrens in zwei gleichgroße Gruppen geteilt. Gruppe 1 (n = 169) umfasst all jene Auswahlentscheidungen, bei denen die Entscheidung weniger als 18 Monate seit der Umfrageteilnahme zurücklag. Umfassten Datensätze eine Zeitdauer zwischen Lieferantenauswahl und Umfrageteilnahe von 18 Monaten oder mehr, wurden sie der zweiten Gruppe zugeteilt (n = 166). Wie von der Methodenliteratur zu Multigruppenvergleichen gefordert, konnte eine partielle Messinvarianz festgestellt werden.378
Tabelle 4.29
Beurteilung Recall Bias – Permutations-Test Zeitpunkt der Auswahlentscheidung
 
Alternativhypothese
Pfadkoeffizienten Differenz (\(d\))
95 %-Konfidenzintervall
Permutation p-Werte
Organisationale Charakteristiken
H1 (+)
WLK -> MSE
−0,024
[−0,230; 0,247]
0,843
H2 (+)
WLK -> WAR
−0,053
[−0,190; 0,178]
0,609
H3 (+)
WAR -> MSE
0,032
[−0,225; 0,233]
0,803
H4Med (+)
WLK -> MSE
−0,001
[−0,084; 0,081]
0,975
Individuelle Charakteristiken
H5 (−)
IRN -> MSE
−0,085
[−0,207; 0,194]
0,402
H6 (+)
FII -> MSE
0,051
[−0,264; 0,251]
0,612
H7 (−)
NFC -> MSE
0,044
[−0,366; 0,380]
0,643
Markenhierarchie
H8 (+)
MSE -> MWI
−0,167
[−0,169; 0,167]
0,054
Der anschließende Permutationstest unter Einbezug des 95 %-Konfidenzintervalls konnte einen signifikanten Gruppenunterschied für den Wirkungszusammenhang zwischen Markensensibilität und Markenwichtigkeit identifizieren (siehe Tabelle 4.29). Gleichwohl deutet der Pfadkoeffizient in beiden Gruppen auf einen positiven und signifikanten Effekt hin (siehe Abbildung 4.20). Für die anderen Wirkungszusammenhänge des Hauptmodells konnten indessen keine signifikanten Gruppenunterschiede bestimmt werden.
Angesichts des signifikanten Gruppenunterschieds für H8, kann der Recall Bias nicht kategorisch ausgeschlossen werden. Jedoch führt der Gruppenunterschied zu keiner abweichenden Ergebnisinterpretation in den Gruppen, weshalb geschlussfolgert werden kann, dass die Retrospektive die Ergebnisse nicht wesentlich verzerrt.
Abbildung 4.20
Beurteilung Recall Bias – Gruppenvergleich Zeitpunkt der Auswahlentscheidung379

4.3.3.6 Exploration alternativer Strukturmodelle

Da die Formulierung des Forschungsbedarfs 3 (FB 3a und FB 3b) prinzipiell eine Untersuchung alternativer Kausalzusammenhänge zulässt, sollen im Folgenden die indirekte Wirkung des individuellen Charakteristikums „individuelle Risikoneigung“ über die organisationalen Charakteristiken, und der moderierende Einfluss der individuellen Charakteristiken ergründet werden.
Indirekter Effekt der individuellen Risikoneigung
Angeregt durch die Arbeit von Sitkin und Weingart (1995) wird ein alternatives Strukturmodell berechnet und überprüft. Bei den Autoren entpuppte sich der direkte Einfluss der individuellen Risikoneigung auf das Entscheidungsverhalten in ihrer ersten Studie als nicht signifikant. Gleichzeitig war der indirekte Effekt über das wahrgenommene Risiko aber signifikant, weshalb sie eine vollständige Mediation konkludierten.380 Dies impliziert eine Ergänzung des vorliegenden Strukturmodells um einen Pfad zwischen individueller Risikoneigung und wahrgenommenen Risiko. Dieser Wirkungsbeziehung unterliegt die Annahme, dass risikoaverse Beschaffungsmanager die Wahrscheinlichkeit negativer Konsequenzen und damit einen Verlust tendenziell überbewerten. In Folge benötigen sie höhere Gewinnaussichten, um ein mögliches Scheitern in Kauf zu nehmen. Auf der anderen Seite gewichten risikofreudige Beschaffungsmanager eher die positiven Konsequenzen.381 In anderen Worten wird ein negativer Zusammenhang zwischen individueller Risikoneigung und wahrgenommenen Risiko unterstellt, was schließlich auch für den mediierenden Effekt (H5Alt.) ein negatives Vorzeichen impliziert. Die Ergebnisse (siehe Tabelle 4.30) deuten allerdings auf einen nicht signifikanten Einfluss der individuellen Risikoneigung auf das wahrgenommene Risiko hin (γ = 0,061; t = 1,149), weshalb auch die Hypothese zur Mediation abgelehnt werden muss (γH5Alt. = 0,013; tH5Alt. = 1,074). Schlussendlich kann auch nur ein geringfügiger Anstieg des R2 für das wahrgenommene Risiko (R2 = 0,102) unter Berücksichtigung des Einflusses der individuellen Risikoneigung verzeichnet werden. Neben dem direkten Effekt entpuppt sich also auch der indirekte Effekt über das wahrgenommene Risiko als nicht signifikant. Folglich hat die individuelle Risikoneigung keinen wesentlichen Einfluss auf die Markensensibilität.
Tabelle 4.30
Beurteilung des indirekten Effekts der individuellen Risikoneigung382
 
Alternativhypothese
Relevanz und Signifikanz der Pfadkoeffizienten
Beurteilung der Alternativ-hypothese
Pfadkoeffizient (>0,2)
t-Wert
(>1,96)
Organisationale Charakteristiken
H1 (+)
WLK -> MSE
−0,003
0,054
H2 (+)
WLK -> WAR
0,312***
6,194
H3 (+)
WAR -> MSE
0,212***
3,572
H4Med (+)
WLK -> MSE
0,066**
3,092
Individuelle Charakteristiken
H5 (−)
IRN -> MSE
0,064
1,213
H5Alt()
IRN -> MSE
0,013
1,074
H6 (+)
FII -> MSE
−0,094
1,232
H7 (−)
NFC -> MSE
−0,123
1,360
Markenhierarchie
H8 (+)
MSE -> MWI
0,388***
9,016
Signifikanzniveaus (2-seitiger t-Test):
* signifikant auf 0,05-Niveau
** signifikant auf 0,01-Niveau
*** signifikant auf 0,001-Niveau
n. s. nicht signifikant
Abbildung 4.21 verdeutlicht noch einmal die Höhe und Signifikanz der Pfadkoeffizienten unter Einschluss des indirekten Effekts der individuellen Risikoneigung, sowie die R2-Bestimmtheitsmaße der endogenen Variablen.
Abbildung 4.21
Zusammenfassende Beurteilung des indirekten Effekts der individuellen Risikoneigung383
Moderatoren-Modell – individuelle Charakteristiken als Moderatoren
Zum Abschluss der PLS-SEM-Analyse sollen die individuellen Charakteristiken als Moderatoren der Beziehungen zwischen organisationalen Charakteristiken und Markensensibilität modelliert werden. Demnach wird den individuellen Charakteristiken ein verstärkender/mindernder Einfluss auf die Wirkungsbeziehungen zwischen wahrgenommener Logistikdienstleistungskomplexität und Markensensibilität als auch zwischen wahrgenommenem Risiko und Markensensibilität unterstellt. Es ist nicht unüblich Moderatoreneffekte zu untersuchen, wenn die Wirkungsbeziehung zwischen abhängiger und unabhängiger Variable unvorhergesehen gering oder nicht signifikant ausfällt.384 Auch im vorliegenden Fall soll es helfen, insbesondere die nicht signifikante Beziehung zwischen wahrgenommener Logistikdienstleistungskomplexität und Markensensibilität besser zu verstehen. Zudem werden die drei individuellen Charakteristiken nicht selten als Moderatoren eingesetzt.385 So empfiehlt schon Epstein (1994) in einer seiner ersten Arbeiten zum REI – damals noch als RVEI (Rational versus Experiential Inventory) deklariert: „The measurement of individual differences in rational versus experiential processing by the RVEI inventory can provide a useful moderator variable for investigating receptivity to different kinds of messages.“386
Tabelle 4.31
Beurteilung des Moderatoren-Modells387
 
Alternativhypothese
Relevanz und Signifikanz der Pfadkoeffizienten
Beurteilung der Alternativ-hypothese
Pfadkoeffizient (>0,2)
t-Wert
(>1,96)
Organisationale
Charakteristiken
H1 (+)
WLK -> MSE
−0,014
0,229
H1aMod
WLK*FII -> MSE
0,045
0,855
H1bMod
WLK*NFC -> MSE
0,127*
2,060
H2 (+)
WLK -> WAR
0,314***
6,531
H3 (+)
WAR -> MSE
0,206***
3,355
H3Mod
WAR*IRN -> MSE
0,062
1,094
H4Med (+)
WLK -> MSE
0,065**
2,969
Markenhierarchie
H8 (+)
MSE -> MWI
0,388***
8,980
Signifikanzniveaus (2-seitiger t-Test):
* signifikant auf 0,05-Niveau
** signifikant auf 0,01-Niveau
*** signifikant auf 0,001-Niveau
n. s. nicht signifikant
Im Sinne der beiden Theorieansätze und den Hypothesen H1 und H3 sowie den Moderatoren unterliegenden theoretischen Bezugspunkten, wird Faith in Intuition sowie Need for Cognition ein moderierender Effekt auf H1 (H1aMod; H1bMod) und der individuellen Risikoneigung ein moderierender Effekt auf H3 (H3Mod) zugeschrieben. Entsprechend wurden in SmartPLS drei Interaktionsterme388 mittels des Zwei-Stufen-Ansatzes389 gebildet und deren Effekt auf die Markensensibilität analysiert. Die Ergebnisse sind in Tabelle 4.31 dargestellt.
Der moderierende Effekt von Faith in Intuition für die Wirkungsbeziehung zwischen wahrgenommener Logistikdienstleistungskomplexität und Markensensibilität (γH1aMod = 0,045; tH1aMod = 0,855) erweist sich als ebenso nicht signifikant wie der moderierende Einfluss der individuellen Risikoneigung für die Wirkungsbeziehung zwischen wahrgenommenem Risiko und Markensensibilität (γH3Mod = 0,062; tH3Mod = 1,094). Allerdings kann ein signifikanter Effekt für den Moderator Need for Cognition verzeichnet werden. Dieser hat einen verstärkenden Einfluss auf die Beziehung zwischen wahrgenommener Logistikdienstleistungskomplexität und Markensensibilität (γH1bMod = 1,27; tH1bMod = 2,060). Abbildung 4.22 illustriert noch einmal überblicksstiftend die Höhe und Signifikanz der moderierenden Effekte, sowie die R2-Bestimmtheitsmaße der endogenen Variablen.
Abbildung 4.22
Zusammenfassende Beurteilung des Moderatoren-Modells390
Zur detaillierten Analyse des signifikanten moderierenden Effekts wird im Nachgang ein „Simple Slopes Plot“ generiert. Dieser bildet den Wirkungszusammenhang zwischen wahrgenommener Logistikdienstleistungskomplexität und Markensensibilität für hohe Need for Cognition-Werte (NFC bei + 1SD), für geringe Need for Cognition-Werte (NFC bei −1 SD) und für den Mittelwert ab. Angesichts der nicht signifikanten Haupteffekte (H1, H7) ergibt sich eine sogenannte „crossover“ oder „antagonistische“ Interkation, welche in Abbildung 4.23 ersichtlich wird. Man spricht deshalb von einer „crossover“ Interaktion, da die Beziehung zwischen wahrgenommener Logistikdienstleistungskomplexität und Markensensibilität bei geringem Need for Cognition negativ, bei hohem Need for Cognition aber positiv ist.
Abbildung 4.23
Steigungsanalyse – moderierender Effekt von Need for Cognition391
Für eine noch nuanciertere Analyse des Interaktionseffekts empfehlen Shanock et al. (2010) die Durchführung einer Response Surface Analyse. Diese bietet die Möglichkeit die Beziehung zwischen den beiden Interaktionsvariablen dreidimensional zu betrachten.392 Darüber hinaus erlaubt diese auch die zuverlässige Überprüfung der Kongruenzhypothese, d. h. inwiefern die Kongruenz (Übereinstimmung) zwischen den beiden Interaktionsvariablen einen Einfluss auf die abhängige Variable nimmt.393 Aus der Durchführung der polynomischen Regression mit anschließender Response Surface Analyse gemäß Shanock et al. (2010) resultiert der in Abbildung 4.24 dargestellte Verlauf.394
Abbildung 4.24
Response Surface Analyse – moderierender Effekt von Need for Cognition395
Aufgrund der nach außen hin abfallenden Kurve und der konstant hohen Werte der Markensensibilität entlang der Kongruenzlinie (siehe Abbildung 4.24), liegt die Vermutung nahe, dass die Kongruenzhypothese für die vorliegende Moderation angenommen werden kann. Mit Blick auf die Koeffizienten und Signifikanzen der Kongruenz- und Inkongruenzlinie bestätigt sich dieser Eindruck. Weder die Gerade (γ = −0,11; t = 0,848), noch die Krümmung (γ = 0,05; t = 0,613) entlang der Kongruenzlinie sind signifikant, d. h. die Markensensibilität ist weitestgehend unabhängig von der Höhe der beiden Interaktionsvariablen, was wenig verwunderlich ist angesichts der nicht signifikanten Haupteffekte von wahrgenommener Logistikdienstleistungskomplexität wie auch Need for Cognition.396 Entlang der Inkongruenzlinie ist die Gerade ebenfalls nicht signifikant (γ = −0,03; t = 0,261), jedoch ergibt sich eine signifikante Krümmung mit negativem Vorzeichen (γ = −0,18; t = 2,232). Nach der Checkliste von Humberg et al. (2019) dürfte es sich bei der Moderation also um einen strikten kongruenten Effekt handeln.397 Die Markensensibilität steigt also mit der Übereinstimmung zwischen wahrgenommener Logistikdienstleistungskomplexität und Need for Cognition (bspw. WLK & NFC hoch) und sinkt sobald die Werte voneinander abweichen (bspw. WLK hoch & NFC gering), aber bleibt konstant entlang der gemeinsamen Werte (NFC & WLK hoch und NFC & WLK gering) der beiden Interaktionsvariablen.
Open Access Dieses Kapitel wird unter der Creative Commons Namensnennung 4.0 International Lizenz (http://​creativecommons.​org/​licenses/​by/​4.​0/​deed.​de) veröffentlicht, welche die Nutzung, Vervielfältigung, Bearbeitung, Verbreitung und Wiedergabe in jeglichem Medium und Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle ordnungsgemäß nennen, einen Link zur Creative Commons Lizenz beifügen und angeben, ob Änderungen vorgenommen wurden.
Die in diesem Kapitel enthaltenen Bilder und sonstiges Drittmaterial unterliegen ebenfalls der genannten Creative Commons Lizenz, sofern sich aus der Abbildungslegende nichts anderes ergibt. Sofern das betreffende Material nicht unter der genannten Creative Commons Lizenz steht und die betreffende Handlung nicht nach gesetzlichen Vorschriften erlaubt ist, ist für die oben aufgeführten Weiterverwendungen des Materials die Einwilligung des jeweiligen Rechteinhabers einzuholen.
insite
INHALT
download
DOWNLOAD
print
DRUCKEN
Anhänge

Elektronisches Zusatzmaterial

Fußnoten
1
Siehe Kapitelabschnitt 3.​4
 
2
Siehe Kapitelabschnitt 3.​1
 
3
Eigene Darstellung.
 
4
Siehe Kapitelabschnitte 2.​1.​4 & 2.​4
 
5
Vgl. Homburg (2020), S. 331.
 
6
Siehe Kapitelabschnitt 2.​1.​3.​3.​1
 
7
Diese wurden nach den Berufsbezeichnungen ihrer Geschäftspartner, mit denen sie häufig Kontakt haben, befragt. Die Gesprächspartner entstammen der Studie Rapp et al. (2023).
 
8
Auch bei Large (2017) wird eine Beteiligung der Supply Chain Manager erkannt [vgl. Large (2017), S. 10].
 
9
Die drei Funktionsbereiche bildeten auch in der Studie von Large et al. (2021) zum Logistik-Outsourcing die Zielgruppe [vgl. Large et al. (2021), S. 8].
Es soll an dieser Stelle noch einmal betont werden, dass der Begriff „Beschaffungsmanager“ in der vorliegenden Arbeit repräsentativ für all jene Personen steht, die für den spezifischen Untersuchungsgegenstand aussagefähig sind. Er soll insbesondere die Beschaffungsperspektive verdeutlichen und weniger die Zugehörigkeit zum Funktionsbereich „Beschaffung“.
 
10
Siehe Anhang E im elektronischen Zusatzmaterial.
 
11
Zur Vorteilhaftigkeit von Erinnerungsschreiben siehe Dillman et al. (2014), S. 336; van Mol (2017), S. 322.
 
12
Vgl. Knemeyer und Naylor (2011), S. 298.
 
13
Ein ähnliches Vorgehen zur Identifikation geeigneter Respondenten zeigen auch Vomberg et al. (2020) via Xing [vgl. Vomberg et al. (2020), S. 124].
 
14
Vgl. Large (2017), S. 10. Wie Large (2017) bereits feststellen konnte, ergab ein Testlauf zur Identifikation von spezifischen Schnittstellenberufen, wie „logistics service purchaser“ nur wenige Treffer im Vergleich zu den häufiger anzutreffenden Berufsbezeichnungen „Head of Logistics“ oder „Head of Purchasing“ [vgl. Large (2017), S. 10]. Daher wurden diese Schnittstellenberufe durch eine allgemeine Abfrage wie „Einkauf und Logistik“ erfasst. Da dies oftmals auch in der Profilbeschreibung anzutreffen war.
 
15
Siehe Anhang E im elektronischen Zusatzmaterial.
 
16
Insofern kann die erste Kontaktaufnahme auch als Ankündigung der Befragung angesehen werden. Häder (2019) beispielsweise spricht dem vorherigen Versenden von Ankündigungen eine bessere Umfragebeteiligung zu [vgl. Häder (2019), S. 189].
 
17
Siehe Anhang E im elektronischen Zusatzmaterial.
 
18
Da LinkedIn die Kontaktanfragen immer zu Beginn der Woche neu freischaltet, standen insgesamt 10*200 Anschreiben zur Verfügung, somit in Summe 2000. Jedoch wurde in der letzten Woche auf die Premiumfunktion verzichtet, weshalb es schwieriger war, geeignete Probanden zu identifizieren. Daher beträgt die Erhebungsrundgesamtheit für Sub-Sample 2: 1829. Außerdem war in den letzten Wochen zu erkennen, dass eine gewisse Sättigung eingetreten ist und potenziell-relevante Teilnehmer schwieriger zu identifizieren waren.
 
19
Die Personen, die in den letzten drei Wochen die Umfrage zugeschickt bekamen, erhielten ihre Erinnerung gesammelt am 20.12.2021, da die Umfrage zum 23.12.2021 beendet werden sollte, und damit die Einhaltung der 3 Wochen-Frist nicht mehr aufrechterhalten werden konnte.
 
20
Siehe Large et al. (2021), S. 8; Large und Kenner (2012), S. 70; Large et al. (2011), S. 831; Large (2005), S. 33; Breitling (2018), S. 54.
 
21
Die drei Sub-Samples wurden auf doppelte Nennungen von Personen überprüft. Es konnten keine Überschneidungen festgestellt werden. Demnach sind Beantwortungen in zwei oder drei Sub-Samples von nur einer Person auszuschließen. Damit kann eine Überrepräsentation einzelner Personen in der effektiven Stichprobe ausgeschlossen werden.
 
22
Siehe Anhang F im elektronischen Zusatzmaterial.
 
23
Vgl. Breitling (2018), S. 54; Large et al. (2021), S. 8.
 
24
Vgl. Grant et al. (2005), S. 149.
 
25
Bei den Teilnehmern eingeschlossen sind auch all jene Personen, die den Fragebogen frühzeitig abgebrochen haben und daher nur einen Teil der Antworten zur Verfügung standen, beinhaltet. Eine Prüfung der abgebrochenen Fragebogen hat gezeigt, dass eine Verwendung dieser nicht möglich ist. Hierzu fehlten zu viele Angaben, als dass eine Ersetzung der fehlenden Werte mittels Imputationsverfahren sinnvoll gewesen wäre. Zudem sollte nicht vernachlässigt werden, dass ein Abbruch des Fragebogens auch eine aktive Entscheidung gegen eine Auswertung signalisieren kann.
 
26
Siehe Kapitelabschnitt 4.1.3
 
27
Vgl. Hair et al. (2017), S. 48.
 
28
Dies war vor allem für die Analyse von Ausreißern notwendig.
 
29
Beispielsweise waren für Variablen, wie „Funktionsbereich“ oder „Hierarchische Position“ Unterschiede aufgrund der Gestaltung der Sub-Samples zu erwarten gewesen. So wurde bei Sub-Sample 3 eine Tendenz zu höheren Managementpositionen vermutet, da bewusst Geschäftsführer in der Erhebung mitaufgenommen wurden. Gleiches gilt für die Funktionsbereiche. Während Sub-Sample 1 stark auf das Beschaffungsmanagement ausgerichtet ist, erweitern dies Sub-Sample 2 und 3 um das Logistik- und Supply Chain Management. Diese Annahmen haben sich (p ≤ 0,05) bestätigt.
 
30
Angesichts der Verletzung der Normalverteilung (siehe Kapitelabschnitt 4.1.2) wurde zusätzlich zum Wilks-Lambda-Test noch der nicht-parametrische Kruskal-Wallis-Test durchgeführt. Hier zeigen sich ebenfalls die Indikatorvariablen MSE 01, NFC 04, MSE MAB 06 und MSE MAA 05 als signifikant (p<0.05). Für IRN 07 erkennt der Kruskal-Wallis-Test dagegen keine signifikanten Unterschiede.
 
31
Angesichts der Verletzung der Normalverteilung (siehe Kapitelabschnitt 4.1.2) wurde zusätzlich zum t-Test für unabhängige Stichproben noch der nicht-parametrische Mann-Whitney-U-Test durchgeführt. Hier zeigen sich ebenfalls die Indikatorvariablen IRN 04, IRN 07, NFC 04 und MSE MAA 05 als signifikant (p<0,05). Für IRN 06 erkennt der Whitney-U-Test dagegen keine signifikanten Unterschiede.
 
32
Zur Verifikation der durchgeführten Samplezusammenführung, wurden nach der Datenanalyse zusätzlich für das Hauptmodell drei MICOM-Analysen mit darauffolgenden Multigruppenanalysen umgesetzt. Damit können die Messinvarianz und Strukturinvarianz zwischen den drei Sub-Samples geprüft werden. Sollten mehrere gravierende Unterschiede zwischen den Stichproben auftreten, ist die aggregierte Datenanalyse zu hinterfragen. Die Ergebnisse jedoch unterstützen diese weitestgehend. Lediglich zwischen Sub-Sample 2 und 3 treten Mittelwert- und Varianzunterschiede für die Composite-Variable individuelle Risikoneigung auf. Strukturinvarianz konnte lediglich im Vergleich zwischen Sub-Sample 1 und 3 für die Wirkungsbeziehungen zwischen WLK->MSE und WLK->WAR festgestellt werden [siehe Anhang H im elektronischen Zusatzmaterial]. Die Zusammenführung der Sub-Samples im Sinne erhöhter statistischer Aussagekraft scheint auch nach Überprüfung auf Mess- und Strukturinvarianz weiterhin gerechtfertigt. Zu Erläuterung des MICOM-Verfahrens sei auf Kapitelabschnitt 4.2.3.7 verwiesen.
 
33
Vor der Datenerhebung wurde eine Antwortzeit von 20 Minuten als Referenzwert bestimmt und in der Umfrage auch kommuniziert (siehe Kapitelabschnitt 3.​3).
 
34
Bei der Analyse der sehr langen Antwortzeiten konnten keine Auffälligkeit vernommen werden. Zu erklären sind die langen Antwortzeiten beispielsweise mit dem Verweilen auf der Befragungsseite ohne aktives Interagieren bzw. durch das Unterbrechen der Befragung ohne Schließen der Umfrage.
 
35
Zur Unterscheidung zwischen öffentlicher und privater Beschaffung führt das Bundesministerium für Wirtschaft und Klimaschutz (BMWK) fünf Unterschiede an: 1) Öffentliche Beschaffung richtet sich nach Grundprinzipien und Vorschriften zur Gewährleistung einer fairen Vergabe 2) die Grundprinzipien stellt die EU, Bund und Länder auf 3) bei nicht-vorschriftmäßigen Vergaben kann mit Rechtsmitteln vorgegangen werden 4) Öffentliche Beschaffungsprozesse dauern oftmals länger 5) Bei Tech-Produkten gelten besondere Anforderungen des Datenschutzes und der Informationssicherheit [vgl. Bundesministerium für Wirtschaft und Klimaschutz (2023)].
 
36
Kapitelabschnitt 4.3.3.3
 
37
Vgl. Hair et al. (2022), S. 62.
 
38
Vgl. Brown (1994), S. 291; Weiber und Sarstedt (2021), S. 191; Graham (2009), S. 553 f.
 
39
Vgl. Hair et al. (2022), S. 62.
 
40
Hierzu wurde die „explorative Datenanalyse“ von SPSS 27 verwendet.
 
41
Als „milde“ Ausreißer werden typischerweise Antworten charakterisiert, die das 1-fache – 3-fache des Interquartilabstands unter dem ersten oder über dem dritten Quartil liegen [vgl. Sarstedt und Mooi (2019), S. 110].
 
42
Hair et al. (2017) sehen vor allem bei Werten, die das Dreifache des Interquatilabstands unter dem ersten oder über dem dritten Quartil liegen, Potenzial für Ausreißer. Sie bezeichnen diese als „extreme“ Ausreißer [vgl. Hair et al. (2017), S. 51; Sarstedt und Mooi (2019), S. 110].
 
43
Als Beispiel wurde die Markensensibilität auf der y-Achse und die wahrgenommene Logistikdienstleistungskomplexität auf der x-Achse abgetragen.
 
44
Vgl. Sarstedt und Mooi (2019), S. 101.
 
45
Die gegenseitige Verifikation der multivariaten Ausreißertests wurde als sinnvoll erachtet, da vor allem die Mahalanobis Distanz sensitiv auf das Nicht-Vorhandensein einer Normalverteilung reagiert [vgl. Tabachnick und Fidell (2019), S. 64; Weiber und Sarstedt (2021), S. 195]. Die Überprüfung der Normalverteilung zeigte zwar, dass diese nicht vorliegt, jedoch konnte auch festgestellt werden, dass diese nicht als „extrem“ zu beurteilen ist [vgl. Kapitelabschnitt 4.1.2]. Aufgrund dessen können die Ergebnisse der multivariaten Ausreißeranalyse als weitestgehend robust angesehen werden.
 
46
Vgl. Large und Kenner (2012), S. 70; Large (2003), S. 228.
 
47
Die Mahalanobis Distanz wurde sowohl für die einzelnen Indikatoren als auch mittels der Composite Variablen berechnet.
 
48
Vgl. Tabachnick und Fidell (2019), S. 64 f.
 
49
Vgl. Hair et al. (2019a), S. 89.
 
50
Angesichts der Verwendung einer Konstantsummenskala bei der Messung der Markenwichtigkeit wurden die multivariaten Verfahren sowohl mit standardisierten Werten und mit nicht-standardisierten Werten als auch unter Berücksichtigung der Variable MWI und ohne Berücksichtigung der Variable MWI berechnet. Jedoch zeigten die verschiedenen Durchläufe weitestgehend dieselben kritischen Ausreißer an. So wurde auch deutlich, dass der oben geschilderte Fall mit den sehr hohen Ausprägungen bei MWI Marke auch ohne Berücksichtigung dieser Variablen im Rahmen der multivariaten Ausreißeranalyse auffällig war. Daher wurde er als einer der acht Datensätze exkludiert und bewusst kein Missing-Value für MWI Marke eingesetzt.
 
51
Da bei zwei Fällen keine Angabe bei der Branchenzugehörigkeit gemacht wurde, konnte zudem nicht ausgeschlossen werden, dass die Respondenten im öffentlichen Sektor tätig sind und sich daher auf eine öffentliche Beschaffungssituation beziehen.
 
52
Eliminationen von Datensätzen basierend auf Ausreißer-Analysen siehe beispielhaft auch Weiber und Sarstedt (2021), S. 195 f.
 
53
Für die Beurteilung des Non-Sampling und Non-Response Bias war es, trotz der zuvor getätigten Zusammenführung, teilweise notwendig auf Basis der Sub-Samples zu argumentieren.
 
54
Vgl. Knemeyer und Murphy (2004), S. 42 (8 %); Kramer (2016), S. 184 (12,9 %); Schmoltzi und Wallenburg (2012), S. 61 (11,6 %); Zhu et al. (2017), S. 33 (10,65 %); Yuan et al. (2020), S. 58 (4 %).
 
55
Vgl. Francioni und Clark (2020), S. 4 (4 %).
 
56
Vgl. Griffis et al. (2003), S. 237.
 
57
Vgl. Wagner und Kemmerling (2010), S. 364 ff.
 
58
Eigene Darstellung.
 
59
Ursächlich hierfür ist die bereits zuvor im Rahmen der Brutto-Rücklaufquote thematisierte hohe Zahl an Nicht-Teilnehmenden. Der Literature Review von Griffis et al. (2003) zu den Rücklaufquoten im Journal of Business Logistics zeigt eine Spanne zwischen 4,32 % und 100 % auf [vgl. Griffis et al. (2003), S. 239]. Damit liegt die Netto-Rücklaufquote von Sub-Sample 1 ebenfalls noch innerhalb der in der Logistikforschung üblichen Range.
 
60
Vgl. Zhu et al. (2017), S. 33; Li et al. (2012), S. 5452.
 
61
Vgl. Large et al. (2011), S. 831.
 
62
Vgl. Homburg (2020), S. 327.
 
63
Vgl. Dillman et al. (2014), S. 402; Groves (2006), S. 669 f.
 
64
Vgl. Armstrong und Overton (1977), S. 397; Häder (2019), S. 188 f.; Spitzmüller et al. (2006), S. 19 f.
 
65
Vgl. Armstrong und Overton (1977), S. 401. Diese Methode zur Kontrolle des Non-Response Bias wird auch in der Logistikforschung am häufigsten eingesetzt [vgl. Wagner und Kemmerling (2010), S. 368].
 
66
Vgl. Riedl et al. (2013), S. 28; Kaufmann et al. (2014), S. 107; Francioni und Clark (2020), S. 5.
 
67
Angesichts der Verletzung der Normalverteilung (siehe Kapitelabschnitt 4.2.1) wurde zusätzlich zum t-Test für unabhängige Stichproben noch der nicht-parametrische Mann-Whitney-U-Test durchgeführt. Die Ergebnisse gleichen sich hinlänglich aller Indikatorvariablen für p<0,05.
 
68
Angesichts der Verletzung der Normalverteilung (siehe Kapitelabschnitt 4.2.1) wurde zusätzlich zum t-Test für unabhängige Stichproben noch der nicht-parametrische Mann-Whitney-U-Test durchgeführt. Die Ergebnisse hier zeigen ebenfalls keine Unterschiede zwischen den Indikatorvariablen des Sub-Samples 3 (p<0,05).
 
69
Vgl. Klarmann (2008), S. 289; Fischer (2017), S. 193.
 
70
Vgl. Homburg (2020), S. 329; Vomberg und Klarmann (2022), S. 86.
 
71
Vgl. Homburg (2020), S. 323; Atteslander (2010), S. 273.
 
72
Siehe Kapitelabschnitt 3.​2.​1
 
73
Eigene Darstellung.
 
74
Vgl. Large (2017), S. 11.
 
75
Vgl. Kaufmann et al. (2012a), S. 421.
 
76
Vgl. Tsai et al. (2012), S. 184.
 
77
Vgl. Large (2003), S. 180; Meschnig und Kaufmann (2015), S. 781.
 
78
Vgl. Zinn et al. (2018), S. 84.
 
79
Angesichts der verwendeten Suchbegriffe [siehe Kapitelabschnitt 4.1.1] war eine derartige Verteilung zu erwarten.
 
80
Vgl. Large (2017), S. 10; Large und Kovács (2001), S. 47; Sink und Langley (1997), S. 176.
 
81
Eigene Darstellung.
 
82
Die in der Umfrage verwendeten Branchenbezeichnungen orientierten sich an den Wirtschaftszweigen des Deutsches Statistisches Bundesamt (2008). Das Verarbeitende Gewerbe wurde in 9 Teilbereiche untergliedert (Chemie/Pharmaindustrie, Elektroindustrie, Fahrzeugbar, IT/Software, Maschinen- und Anlagenbau, Metallindustrie, Nahrungs- und Genussmittel, Textilien/Bekleidung, Sonstiges verarbeitendes Gewerbe). Zwar wurde auch die öffentliche Verwaltung, Verteidigung und Sozialversicherung zur Auswahl angegeben, jedoch bei der Datenbereinigung bewusst ausgeschlossen [siehe Kapitelabschnitt 4.1.2].
 
83
Für eine vergleichbare Aufteilung siehe Zhu et al. (2017), S. 33; Yuan et al. (2020), S. 59.
 
84
Es ist nicht überraschend, dass auch Logistikunternehmen als Abnehmer von Logistikdienstleistungen auftreten, bzw. eine strategische Auswahl von Logistikdienstleistern vornehmen. Wie Persson und Virum (2001) anmerken: „logistics operators can seldom provide a complete supply process based on their own assets. They are dependent on other logistics organisations to produce an integrated logistics function.” [Persson und Virum (2001), S. 58]. Siehe hierzu auch ausführlich Kramer (2016), S. 76, 78 f. und 93 ff.
 
85
Vgl. Schwemmer und Klaus (2021), S. 54.
 
86
Eigene Darstellung.
 
87
Vgl. Europäische Union (2003), S. 39.
 
88
Aufgrund der übermäßigen Abdeckung des Wirtschaftszweigs „Verarbeitendes Gewerbe“ im vorliegenden Datensatz wurde dieser auch als Vergleich herangezogen.
 
89
Vgl. Deutsches Statistisches Bundesamt (2023).
 
90
Eigene Darstellung.
 
91
Eigene Darstellung.
 
92
Eigene Darstellung.
 
93
Vgl. Weiber und Sarstedt (2021), S. 154.
 
94
Vgl. Hair et al. (2019a), S. 94.
 
95
Siehe hierzu Anhang I im elektronischen Zusatzmaterial.
 
96
Vgl. Shapiro und Wilk (1965), S. 592 ff.
 
97
Vgl. Pallant (2016), S. 62; Weiber und Sarstedt (2021), S. 197.
 
98
Vgl. Weiber und Sarstedt (2021), S. 196.
 
99
Vgl. Homburg und Klarmann (2006), S. 736, siehe auch Hair et al. (2017), S. 52.
 
100
Vgl. Finch et al. (1997), S. 91 f.
 
101
Vgl. Pallant (2016), S. 56 ff.; Hair et al. (2019a), S. 95.
 
102
Vgl. Backhaus et al. (2006), S. 715.
 
103
Vgl. Mardia (1970), S. 527.
 
104
Siehe Kapitelabschnitt 2.​3
 
105
Siehe Kapitelabschnitt 3.​1
 
106
Vgl. Homburg (2020), S. 388. Für eine Übersicht multivariater Analyseverfahren siehe Backhaus et al. (2021), S. XIV. Fornell (1985) ordnet die Regressionsanalyse als Verfahren der ersten Generation und die Strukturgleichungsmodellierung als Verfahren der zweiten Generation ein [vgl. Fornell (1985), S. 1 f.; Hair et al. (2022), S. 2].
 
107
Vgl. Homburg (2020), S. 428; Weiber und Sarstedt (2021), S. 23 f.; Backhaus et al. (2015), S. 67 f.; Chin (1998), S. 297; Hair et al. (2022), S. 3 f.; Byrne (2016), S. 4; Hair et al. (2019a), S. 607; Reinecke (2014), S. 13 f.
 
108
Vgl. Albers und Götz (2006), S. 669; Reinecke (2014), S. 13. Im PLS-Ansatz werden die Gesamtheit der Messmodelle auch als äußeres Modell und das Strukturmodell als inneres Modell bezeichnet [vgl. Weiber und Sarstedt (2021), S. 70].
 
109
Vgl. Hair et al. (2019a), S. 607; Schloderer et al. (2009), S. 586; Chin (1998), S. 312.
 
110
Vgl. Homburg und Baumgartner (1995), S. 163.
 
111
Vgl. Hair et al. (2022), S. 13; Homburg und Giering (1996), S. 6; Chin (1998), S. 313.
 
112
Vgl. Weiber und Sarstedt (2021), S. 94.
 
113
Vgl. Homburg und Klarmann (2006), S. 734; Götz und Liehr-Gobbers (2004), S. 715; Anderson und Gerbing (1988), S. 412; Hair et al. (2022), S. 4. Zur ausführlichen Abgrenzung der beiden Ansätze sei auf Homburg und Klarmann (2006), S. 735; Henseler et al. (2009), S. 296 f.; Weiber und Sarstedt (2021), S. 79 verwiesen.
 
114
Vgl. Chin (1998), S. 297; Weiber und Sarstedt (2021), S. 57.
 
115
Vgl. Weiber und Sarstedt (2021), S. 69; Homburg und Klarmann (2006), S. 734.
 
116
Bei der Regression werden die Indikatoren zu Summenwerten zusammengefasst [vgl. Hair et al. (2022), S. 16].
 
117
Vgl. Hair et al. (2022), S. 16.
 
118
Vgl. Hair et al. (2011), S. 139; Hair et al. (2014), S. 107; Reinartz et al. (2009), S. 333.
 
119
Vgl. Hulland (1999), S. 196; Huber et al. (2007), S. 13; Lowry und Gaskin (2014), S. 132.
 
120
Vgl. Peng und Lai (2012), S. 467; Kaufmann und Gaeckler (2015), S. 266; Bayonne et al. (2020), S. 565.
 
121
Vgl. Hair et al. (2020), S. 103; Hair et al. (2011), S. 143; Hair et al. (2021), S. 11.
 
122
Häufig wird dieses Argument für den Einsatz von PLS-SEM missbraucht [nach Kaufmann und Gaeckler (2015), S. 261 ist dies mit 58 % das meist genutzte Argument], obwohl Autoren darauf hinweisen, dass auch der PLS-SEM Ansatz aus kleinen Stichproben keine repräsentativen und zuverlässigen Ergebnisse erzielen kann [vgl. Petter (2018), S. 11; Marcoulides und Saunders (2006), S. viii].
 
123
Vgl. Chin (1998), S. 311; Peng und Lai (2012), S. 469; Kaufmann und Gaeckler (2015), S. 262.
 
124
Vgl. Kline (2016), S. 16; Boomsma (1982), S. 171.
 
125
Vgl. Bentler und Chou (1987), S. 91. Die Autoren empfehlen ein Verhältnis von Stichprobe zu freien Parametern von 5:1.
 
126
Vgl. Lowry und Gaskin (2014), S. 132. Eine vergleichbare Argumentation ist auch bei Sturm et al. (2022), S. 749; Golicic et al. (2012), S. 25; Durst (2011), S. 79 zu finden.
 
127
Vgl. Rönkkö et al. (2016), S. 15; Henseler und Sarstedt (2013), S. 566; Rönkkö und Evermann (2013), S. 443. Die PLS-Forscher kommen zu dem Schluss, dass eine Anwendung der für PLS entwickelten Goodness-of-fit Kriterien derzeit nicht zu empfehlen ist und noch weiter erforscht werden müssen [vgl. Hair et al. (2019c), S. 573].
 
128
Vgl. Sarstedt et al. (2016c), S. 4008.
 
129
Vgl. Reinartz et al. (2009), S. 341.
 
130
Vgl. Huber et al. (2007), S. 14.
 
131
Ein weiterer Vorteil des PLS-Ansatzes ist die Verwendung von reflektiven als auch formativen Konstrukten im Strukturmodell [vgl. Rigdon et al. (2017), S. 6; Ringle et al. (2012), S. iv; Becker et al. (2012), S. 365 f.].
 
132
Siehe Kapitelabschnitt 3.​1
 
133
Siehe Kapitelabschnitte 3.​2.​2.​1 & 3.​2.​2.​5
 
134
Vgl. Weiber und Sarstedt (2021), S. 138.
 
135
Vgl. Peng und Lai (2012), S. 471; Diamantopoulos und Winklhofer (2001), S. 271.
 
136
Vgl. Moosbrugger und Kelava (2020), S. 307, 530; Weiber und Sarstedt (2021), S. 139.
 
137
Vgl. Hair et al. (2022), S. 116ff; Hair et al. (2020), S. 104. Zur Unterscheidung der konfirmatorischen Faktorenanalyse und der konfirmatorischen Compositeanalyse sei auf die Tabelle von Hair et al. (2020), S. 103 verwiesen.
 
138
Vgl. Homburg und Giering (1996), S. 8; Large (2003), S. 52 f.
 
139
Vgl. Hair et al. (2017), S. 98.
 
140
Vgl. Weiber und Sarstedt (2021), S. 162.
 
141
Vgl. Hair et al. (2020), S. 104; Götz und Liehr-Gobbers (2004), S. 737. Als nah genug gelten oftmals Ladungen ≥ 0,7 [vgl. Hair et al. (2017), S. 98].
 
142
Vgl. Vgl. Homburg und Giering (1996), S. 11 f.; Hair et al. (2022), S. 118; Hair et al. (2011), S. 145 f.; Chin (1998), S. 325; Hulland (1999), S. 198; Hair et al. (2019b), S. 15.
 
143
Vgl. Hulland (1999), S. 198; Hair et al. (2017), S. 98.
 
144
Vgl. Hair et al. (2017), S. 98 f.
 
145
Zur Erläuterung des Bootstrappings und weiterer alternativer nicht-parametrischer Tests (e.g. Jackknifing) im Rahmen des PLS-Ansatzes sei beispielhaft auf Chin (1998), S. 318, 320; Hair et al. (2014), S. 112 verwiesen.
 
146
In mehreren Forschungsfeldern ist ein 5 %iges Signifikanzniveau üblich [vgl. Homburg und Giering (1996), S. 11; Backhaus et al. (2021), S. 97], jedoch finden sich auch Quellen, die ein Signifikanzniveau von 10 % noch als akzeptabel halten [vgl. Hair et al. (2022), S. 192; Breitling (2018), S. 304]; vor allem in explorativ angelegten Studien [vgl. Fischer (2017), S. 19]. In der vorliegenden Studie wird das vorherrschende Signifikanzniveau von 5 % zur Beurteilung im Rahmen der Messmodellprüfung, als auch im Rahmen der Strukturmodellprüfung verwendet.
 
147
Eigene Darstellung.
 
148
Vgl. Hair et al. (2017), S. 97; Homburg und Giering (1996), S. 7; Bagozzi und Phillips (1982), S. 468.
 
149
Vgl. Weiber und Sarstedt (2021), S. 161; Hair et al. (2019a), S. 761; Hair et al. (2022), S. 117. Rechnerisch entspricht die Indikatorreliabilität der quadrierten äußeren Ladungen der Indikatoren [vgl. Hair et al. (2019a), S. 761].
 
150
Vgl. Weiber und Sarstedt (2021), S. 148.
 
151
Vgl. Weiber und Sarstedt (2021), S. 162; Hair et al. (2017), S. 96 f.
 
152
Vgl. Hair et al. (2017), S. 99.
 
153
Vgl. Bohrnstedt (1970), S. 91.
 
154
Siehe Kapitelabschnitt 3.​3
 
155
Vgl. MacKenzie et al. (2011), S. 317; Homburg und Giering (1996), S. 7.
 
156
Vgl. Hair et al. (2017), S. 97; Peng und Lai (2012), S. 471.
 
157
Vgl. Hair et al. (2022), S. 120; Hair et al. (2017), S. 99.
 
158
Vgl. Fornell und Larcker (1981), S. 46; Homburg und Baumgartner (1995), S. 170.
 
159
Während Hair et al. (2017) die beiden Gütemaße der Internen-Konsistenz-Reliabilität zuordnet, führt Hulland (1999) diese unter der Konvergenzvalidität [vgl. Hair et al. (2017), S. 96 f.; Hulland (1999), S. 199].
 
160
Vgl. Weiber und Sarstedt (2021), S. 148.
 
161
Vgl. Hulland (1999), S. 199; Homburg und Giering (1996), S. 8; Hair et al. (2020), S. 104.
 
162
Vgl. Hair et al. (2020), S. 104.
 
163
Vgl. Hair et al. (2019a), S. 775; Weiber und Sarstedt (2021), S. 124.
 
164
Vgl. Hair et al. (2017), S. 114; Bagozzi und Yi (1988), S. 80.
 
165
Vgl. Hair et al. (2017), S. 99.
 
166
Vgl. Chin (1998), S. 321; Henseler et al. (2015), S. 118.
 
167
Vgl. Homburg und Giering (1996), S. 11; Fornell und Larcker (1981), S. 46. In der Literatur wird das Fornell-Larcker-Kriterium auch unter folgender Annahme beurteilt: \(\sqrt{DEV}>Korrelation\) [vgl. Hair et al. (2017), S. 101, beispielhaft Golicic et al. (2012), S. 26].
 
168
Siehe hierzu Henseler et al. (2015), S. 119; Franke und Sarstedt (2019), S. 441; Rönkkö und Evermann (2013).
 
169
Vgl. Henseler et al. (2015), S. 121. In der PLS Literatur wird das HTMT-Kriterium als das primäre Kriterium zur Beurteilung der Diskriminanzvalidität angesehen [vgl. Hair et al. (2022), S. 132].
 
170
Vgl. Hair et al. (2017), S. 103; Hair et al. (2022), S. 122.
 
171
Vgl. Henseler et al. (2015), S. 127.
 
172
Vgl. Hair et al. (2017), S. 104.
 
173
Vgl. Hair et al. (2022), S. 124. Die Autoren weisen darauf hin, dass im Normalfall der Grenzwert 0,85 gewählt werden sollte, es sei denn die Konstrukte sind sich konzeptuell sehr ähnlich. Dann ist ein Grenzwert von 0,9 zu wählen. Im vorliegenden Beispiel würde dies bei den Konstrukten Markensensibilität und Markenwichtigkeit zutreffen.
 
174
Vgl. Bohrnstedt (1970), S. 91.
 
175
Vgl. MacKenzie et al. (2011), S. 306.
 
176
Vgl. Homburg und Giering (1996), S. 17 f.; Kramer (2016), S. 198.
 
177
Vgl. MacKenzie et al. (2011), S. 317; Homburg und Giering (1996), S. 7.
 
178
Vgl. Weiber und Sarstedt (2021), S. 172.
 
179
Vgl. Hair et al. (2017), S. 121; Chin (1998), S. 306; Bollen (1984), S. 381; Edwards (2011), S. 374.
 
180
Vgl. Hair et al. (2022), S. 142.
 
181
Zur Operationalisierung und Prüfung formativer Messmodelle mittels kovarianzanalytischer Ansätze wird auf sogenannte MIMIC (multiple indicators multiple causes)-Modelle zurückgegriffen. Hierbei werden einem latenten Konstrukt gleichzeitig sowohl die formativen Indikatoren als auch die reflektiven Indikatoren zugeordnet. Dies ist notwendig, damit das Messmodell identifiziert ist [vgl. Diamantopoulos und Winklhofer (2001), S. 272; Hauser und Goldberger (1971), S. 95 f.]. Weiber und Mühlhaus (2014) bezeichnen das Vorgehen in SmartPLS, bei dem das Konstrukt in ein formatives und reflektives Konstrukt zerlegt wird, ebenfalls als MIMIC-Modell [vgl. Weiber und Mühlhaus (2014), S. 267]. Hair et al. (2022) als auch Weiber und Sarstedt (2021), in der neuen Auflage des Buches, bezeichnen das Vorgehen in SmartPLS dagegen nicht als MIMIC-Modell, sondern als Redundanzanalyse [vgl. Hair et al. (2022), S. 143; Weiber und Sarstedt (2021), S. 353].
 
182
Zum Einsatz von Single-Items bei der Durchführung der Redundanzanalyse siehe Cheah et al. (2018).
 
183
Vgl. Chin (1998), S. 308; Hair et al. (2022), S. 143 f.; Hair et al. (2014), S. 112.
 
184
Vgl. Hair et al. (2021), S. 93; Hair et al. (2022), S. 143.
 
185
Vgl. Hair et al. (2022), S. 143.
 
186
Vgl. Cohen (1988), S. 80.
 
187
Vgl. Cenfetelli und Bassellier (2009), S. 690; Edwards (2011), S. 375.
 
188
Vgl. Diamantopoulos und Winklhofer (2001), S. 272.
 
189
Eigene Darstellung.
 
190
Vgl. Hair et al. (2017), S. 97; Homburg und Giering (1996), S. 7; Bagozzi und Phillips (1982), S. 468.
 
191
Vgl. Bohrnstedt (1970), S. 91.
 
192
Siehe Kapitelabschnitt 4.2.3.1
 
193
Vgl. Götz und Liehr-Gobbers (2004), S. 729; Weiber und Sarstedt (2021), S. 281.
 
194
Vgl. Weiber und Sarstedt (2021), S. 285; Diamantopoulos und Riefler (2008), S. 1193. Teilweise werden auch VIF-Werte < 10 als akzeptabel angesehen [siehe beispielsweise Giere et al. (2006), S. 688; Diamantopoulos und Winklhofer (2001), S. 272].
 
195
Vgl. Hair et al. (2021), S. 96; Weiber und Sarstedt (2021), S. 282.
 
196
Vgl. Hair et al. (2022), S. 147. Auch Götz und Liehr-Gobbers (2004) schlagen vor die Korrelationsmatrix der Indikatoren zu prüfen, da dies einen ersten Hinweis auf Multikollinearität liefern kann [vgl. Götz und Liehr-Gobbers (2004), S. 729].
 
197
Zum Umgang mit Multikollinearität schlagen beispielsweise Albers und Hildebrandt (2006) die Bildung eines Indexes aus den mit Multikollinearität behafteten formativen Indikatoren vor [vgl. Albers und Hildebrandt (2006), S. 29]. Hierzu sollte es aber zum einen konzeptionell sinnvoll sein die Indikatoren zusammenzufassen, als auch eine bivariate Korrelation zwischen diesen vorherrschen [vgl. Diamantopoulos und Riefler (2008), S. 1192].
 
198
Vgl. Hair et al. (2019a), S. 767; Hair et al. (2022), S. 149; Schloderer et al. (2009), S. 592.
 
199
Vgl. Hair et al. (2022), S. 149; Diamantopoulos und Winklhofer (2001), S. 273; Kaufmann und Gaeckler (2015), S. 264; Hair et al. (2013), S. 7.
 
200
Vgl. Hair et al. (2022), S. 152; Weiber und Sarstedt (2021), S. 355.
 
201
Vgl. Lohmöller (1989), S. 60 f.; Giere et al. (2006), S. 688; Chin (1998), S. 324; Peng und Lai (2012), S. 472.
 
202
Vgl. Bollen und Lennox (1991), S. 308; Sarstedt et al. (2022), S. 607.
 
203
Vgl. Diamantopoulos und Winklhofer (2001), S. 271; Weiber und Sarstedt (2021), S. 355; Schloderer et al. (2009), S. 592.
 
204
Vgl. Cenfetelli und Bassellier (2009), S. 692 f.
 
205
Vgl. Diamantopoulos und Winklhofer (2001), S. 271; Weiber und Sarstedt (2021), S. 355. Da in der vorliegenden Arbeit eine Einbindung der indirekten Messung der Markensensibilität in das Strukturmodell nicht angestrebt wird, sondern lediglich eine Güteprüfung der alternativen Messung für die Markensensibilität, ist eine aktive Elimination der formativen Indikatoren nicht notwendig. Aufgrund der statistischen Auswertungen können allerdings Verbesserungspotenziale bei der Messung aufgedeckt werden [siehe Kapitelabschnitt 5.​2].
 
206
Vgl. Hair et al. (2022), S. 141.
 
207
Vgl. Diamantopoulos und Winklhofer (2001), S. 273.
 
208
Vgl. Klein und Rai (2009), S. 747.
 
209
Vgl. Peng und Lai (2012), S. 472.
 
210
So thematisieren beispielsweise Hair et al. (2022) auch gar nicht die Prüfung der Diskriminanzvalidität und nomologischen Validität für formative Messmodelle [vgl. Hair et al. (2022), S. 140 ff.].
 
211
Zur grundsätzlichen Diskussion von Single-Items siehe Diamantopoulos et al. (2012); Sarstedt et al. (2016a); Sarstedt et al. (2016b); Bergkvist (2016).
 
212
Vgl. Nunnally und Bernstein (1994), S. 257.
 
213
Vgl. Wanous und Reichers (1996), S. 632 f.; Loo (2002), S. 68 f.
 
214
Vgl. Wanous und Reichers (1996), S. 634; Wanous et al. (1997), S. 250.
 
215
Vgl. Cohen (1988), S. 80; Hair et al. (2022), S. 143.
 
216
Eigene Darstellung.
 
217
Vgl. Hair et al. (2017), S. 97; Homburg und Giering (1996), S. 7; Bagozzi und Phillips (1982), S. 468.
 
218
Vgl. Bohrnstedt (1970), S. 91.
 
219
Siehe Kapitelabschnitt 4.2.3.1
 
220
Dies ist notwendig, da die Berechnung der Pfadkoeffizienten auf dem Ordinary Least Squares Ansatz beruht. Demnach wird, wie auch bei multiplen Regressionsanalysen, auf die Multikollinearität der exogenen Variablen kontrolliert [vgl. Hair et al. (2022), S. 187; Urban und Mayerl (2018), S. 231 f.].
 
221
Vgl. Hair et al. (2022), S. 187; Weiber und Sarstedt (2021), S. 407; Backhaus et al. (2021), S. 121.
 
222
Vgl. Weiber und Sarstedt (2021), S. 285; Diamantopoulos und Riefler (2008), S. 1193. Teilweise werden auch VIF-Werte < 10 als akzeptabel angesehen [siehe beispielsweise Giere et al. (2006), S. 688; Diamantopoulos und Winklhofer (2001), S. 272].
 
223
Vgl. Hair et al. (2021), S. 96; Weiber und Sarstedt (2021), S. 282.
 
224
Vgl. Lohmöller (1989), S. 60 f.
 
225
Vgl. Chin (1998), S. 304.
 
226
Vgl. Hair et al. (2017), S. 171.
 
227
Vgl. Hair et al. (2011), S. 145. Eine vergleichbare Abstufung ist auch bei Chin (1998) zu finden [vgl. Chin (1998), S. 323].
 
228
Vgl. Weiber und Sarstedt (2021), S. 356.
 
229
Vgl. Hair et al. (2020), S. 107.
 
230
Vgl. Hair et al. (2022), S. 195. Auf der anderen Seite können auch sehr hohe R2 auf einen Overfit des Modells hindeuten. So gehen Hair et al. (2019b) bei R2-Werten von 0,9 bei der Untersuchung von menschlichem Verhalten von einem „Overfit“ des Modells aus [vgl. Hair et al. (2019b), S. 11; Weiber und Sarstedt (2021), S. 358].
 
231
Nach Backhaus et al. (2021) sind in Forschungsbereichen, in denen das menschliche Verhalten studiert wird, geringere Bestimmtheitsmaße zu erwarten [vgl. Backhaus et al. (2021), S. 88]. Auch stufen Hair et al. (2017) R2-Werte von 0,2 im Rahmen der Konsumentenforschung als „hoch“ ein [vgl. Hair et al. (2017), S. 171]. Diese Werte scheinen für die vorliegende Studie vergleichbarer zu sein als jene konservativen Abstufungen von Hair et al. (2011).
 
232
Vgl. Hair et al. (2017), S. 179.
 
233
Vgl. Cohen (1988), S. 480. Dem Autor zufolge sind auch Abstufungen zwischen den von ihm definierten Grenzwerten möglich. Beispielsweise schlägt er vor f2-Werte von 0,1 als „schwach bis moderat“ zu bezeichnen [vgl. Cohen (1988), S. 481].
 
234
Eigene Darstellung.
 
235
Vgl. Stone (1974); Geisser (1974).
 
236
Vgl. Fornell und Bookstein (1982), S. 450.
 
237
Zur Erläuterung des Blindfoldings sei auf Chin (1998), S. 317 verwiesen.
 
238
Vgl. Hair et al. (2017), S. 174 f.
 
239
Der Grenzwert >0 gibt an, dass die Summe der auf Basis der Modellparameter bestimmten Residuen kleiner ist als die der trivialen Schätzung. Sind die Residuen der erhobenen Modellparameter größer als die der trivialen Schätzung, so ist der Q2_Wert negativ [vgl. Huber et al. (2007), S. 43].
 
240
Vgl. Hair et al. (2017), S. 174.
 
241
Vgl. Shmueli et al. (2016), S. 4557. Für detaillierte Ausführungen zum PLSpredict-Verfahren siehe Hair et al. (2022), S. 197ff; Weiber und Sarstedt (2021), S. 358 ff.
 
242
Vgl. Weiber und Sarstedt (2021), S. 359.
 
243
Vgl. Shmueli et al. (2016), S. 4559.
 
244
Beispielsweise empfehlen Hair et al. (2022) den Einsatz des RMSE-Wertes gegenüber des MAE (Mean Absolute Error)-Wertes [vgl. Hair et al. (2022), S. 201; Hair et al. (2020), S. 107; Hair et al. (2019b), S. 13].
 
245
Vgl. Shmueli et al. (2019), S. 2329 f.
 
246
Vgl. Hair et al. (2019b), S. 14; Peng und Lai (2012), S. 473; Sarstedt et al. (2020b), S. 532; Latan (2018), S. 54.
 
247
Vgl. Homburg und Klarmann (2006), S. 737.
 
248
Vgl. Sarstedt et al. (2020b), S. 533; Weiber und Sarstedt (2021), S. 7; Bentler und Chou (1987), S. 86.
 
249
Siehe beispielsweise auch Wielgos et al. (2021), S. 779.
 
250
Vgl. Hair et al. (2018), S. 69. Die Autoren empfehlen zur Prüfung nicht-linearer Effekte den „Zwei-Stufen-Ansatz“ unter Einbezug standardisierter Variablen. Diesem Ansatz wurde hier gefolgt [vgl. Hair et al. (2018), S. 72].
 
251
Vgl. Sarstedt et al. (2020b), S. 538.
 
252
Vgl. Hair et al. (2018), S. 73 f.
 
253
Eigene Darstellung.
 
254
Vgl. Becker (2005b), S. 274; Spector und Brannick (2011), S. 288.
 
255
Vgl. Nakata et al. (2011), S. 710.
 
256
Für eine Übersicht zu den verschiedenen Analysemethoden mit ihren Vor- und Nachteilen siehe beispielsweise Rungtusanatham et al. (2014), S. 102.
 
257
Vgl. Rasoolimanesh et al. (2021), S. 396 f.
 
258
Vgl. Baron und Kenny (1986), S. 1177.
 
259
Vgl. Zhao et al. (2010), S. 199; Hayes (2009), S. 410; Aguinis et al. (2017), S. 673 ff.; Rucker et al. (2011), S. 361; Shrout und Bolger (2002), S. 430. Auch weisen Simulationsstudien auf die geringe „Power“ des „causal step model“ zur Entdeckung von Mediationen hin [vgl. Fritz und MacKinnon (2007), S. 237 f.].
 
260
Zur Berechnung des Standardfehlers werden in der Literatur drei verschiedene Formeln behandelt, wobei nur eine dem Sobel-Test zuzuordnen ist. Die anderen beiden entstammen von Goodman (1960) [vgl. Cheung und Lau (2008), S. 298; Urban und Mayerl (2018), S. 342].
 
261
Vgl. Sobel (1982), S. 295 ff.
 
262
Vgl. MacKinnon et al. (2012), S. 9; Nitzl et al. (2016), S. 1853; Preacher et al. (2007), S. 190.
 
263
Vgl. Preacher und Hayes (2008), S. 886; Holland et al. (2017), S. 701. Für den Sobel-Test konnte auch eine geringe „Power“ nachgewiesen werden [vgl. MacKinnon et al. (2002), S. 93 f.].
 
264
Vgl. Nitzl et al. (2016), S. 1853; Sarstedt et al. (2020a), S. 289 f.; Hair et al. (2022), S. 236 f.
 
265
Vgl. Sarstedt et al. (2020a), S. 295. Zudem hat die Berechnung des Bootstrapping für Strukturgleichungsmodelle den Vorteil, dass nicht die verschiedenen Teileffekte schrittweise berechnet werden müssen, sondern direkt im hypothetisierten Strukturmodell. Da die weiteren Variablen eines Strukturmodells durchaus einen Einfluss auf die zu betrachtende Mediation als auch auf die Messmodelle haben können, ist durch das schrittweise Hinzufügen von Variablen und Effekten eine Verzerrung bei den Pfadkoeffizienten zu erwarten [vgl. Nitzl et al. (2016), S. 1852].
 
266
Vgl. Nitzl et al. (2016), S. 1854.
 
267
Vgl. Hayes und Scharkow (2013), S. 1924, siehe auch Hayes (2009), S. 412; Wood (2005b), S. 469.
 
268
Es handelt sich schließlich um das Produkt zweier Pfadkoeffizienten.
 
269
Vgl. Lohmöller (1989), S. 60 f.
 
270
Vgl. Zhao et al. (2010), S. 201, siehe auch Nitzl et al. (2016), S. 1853; Hair et al. (2022), S. 235.
 
271
Eigene Darstellung.
 
272
Siehe hierzu die Kritik an Baron und Kenny (1986). Auch äußern Rucker et al. (2011), dass die Wahrscheinlichkeit mit kleineren Samplegrößen steigt, eine vollständige Mediation anstatt einer partiellen Mediation vorzufinden [vgl. Rucker et al. (2011), S. 364].
 
273
Vgl. Rucker et al. (2011), S. 367.
 
274
Vgl. Lachowicz et al. (2018), S. 244; Preacher und Kelley (2011), S. 93.
 
275
Vgl. Alwin und Hauser (1975), S. 43; Rasoolimanesh et al. (2021), S. 398; Henseler (2021), S. 314. Zur weiteren Kritik an der Bestimmung der Effektstärke über das Verhältnis von indirektem zu totalem Effekt siehe Preacher und Kelley (2011), S. 97 f.
 
276
Vgl. Lachowicz et al. (2018), S. 249.
 
277
Vgl. Lachowicz et al. (2018), S. 250.
 
278
Vgl. Lachowicz et al. (2018), S. 250.
 
279
Vgl. Hair et al. (2022), S. 294; Hair et al. (2018), S. 138; Chin et al. (2016), S. 268 f.; Hult et al. (2008), S. 1028.
 
280
Vgl. Henseler et al. (2016), S. 412 f.
 
281
Vgl. Henseler et al. (2016), S. 413; Hair et al. (2018), S. 142 f.
 
282
Vgl. Henseler et al. (2016), S. 413.
 
283
Vgl. Hair et al. (2018), S. 163.
 
284
Vgl. Henseler et al. (2016), S. 414; Hair et al. (2022), S. 294 f.
 
285
Zur Erläuterung der Permutation sei auf Chin und Dibbern (2010), S. 172 f. verwiesen.
 
286
Vgl. Hair et al. (2018), S. 163; Matthews (2017), S. 222; Cheah et al. (2020), S. 16.
 
287
Vgl. Hair et al. (2018), S. 164.
 
288
Vgl. Schlägel und Sarstedt (2016), S. 637; Hair et al. (2018), S. 146.
 
289
Vgl. Henseler et al. (2016), S. 415 f. Notwendig war diese beispielhaft bei der Sample-Zusammenführung [siehe Kapitelabschnitt 4.1.2.1 und Anhang H im elektronischen Zusatzmaterial].
 
290
Eigene Darstellung.
 
291
Für eine Übersicht möglicher Tests siehe Klesel et al. (2022), S. 29.
 
292
Siehe Kapitelabschnitt 4.2.1
 
293
Vgl. Chin und Dibbern (2010), S. 172 f.; Henseler et al. (2009), S. 309.
 
294
Vgl. Henseler et al. (2009), S. 309.
 
295
Vgl. Hair et al. (2018), S. 154; Klesel et al. (2022), S. 42. Dem Permutations-Test wird generell eine gute Performance unterstellt [vgl. Ernst (2004), S. 682; Chin und Dibbern (2010), S. 191]. Den Vorwurf einer schlechten Performance bei ungleich verteilten Gruppengrößen [vgl. Hair et al. (2018), S. 154 f.], konnten Klesel et al. (2022) weitestgehend widerlegen [siehe ergänzende Dateien der Autoren, Klesel et al. (2022), S. 44].
 
296
Vgl. Chin und Dibbern (2010), S. 173. Jedoch können mit dem Permutations-Tests als auch mit dem PLS-MGA Ansatz keine Vergleiche der gesamten Strukturmodelle vorgenommen werden [vgl. Klesel et al. (2019), S. 466; Klesel et al. (2022), S. 42]. Als Antwort darauf führten Klesel et al. (2019) einen nicht-parametrischen distanzbasierten Test ein [vgl. Klesel et al. (2019), S. 468 ff.].
 
297
Vgl. Hair et al. (2018), S. 154; Cheah et al. (2020), S. 16.
 
298
Siehe hierzu Kapitelabschnitt 5.​1.
 
299
Eigene Darstellung.
 
300
Siehe Kapitelabschnitt 3.​1.​2.​2
 
301
Eigene Darstellung.
 
302
Hier wurde das geprüfte reflektive Messmodell (d. h. nach Exklusion von Indikator MSE 01) aus Kapitelabschnitt 4.3.3.1 verwendet.
 
303
Vgl. Cohen (1988), S. 80.
 
304
Vgl. Hair et al. (2022), S. 143.
 
305
Eigene Darstellung.
 
306
Vgl. Cenfetelli und Bassellier (2009), S. 692.
 
307
Vgl. Kim et al. (2010), S. 347.
 
308
Siehe Kapitelabschnitt 3.​4
 
309
Die behandelten Inhalte waren auch Gegenstand des Konferenzbeitrags von Rapp (2023), unterliegen hier allerdings einer Überarbeitung und Modifikationen.
 
310
Siehe Kapitelabschnitt 4.2.3
 
311
Eigene Darstellung.
 
312
Es wurde eine Hauptkomponentenanalyse mittels Varimax-Rotation bei der diejenige Zahl an Komponenten gewählt wird, die einen Eigenwert größer 1 aufweisen, umgesetzt [vgl. Kaiser (1974), S. 32].
 
313
Eigene Darstellung.
 
314
Vgl. Hair et al. (2022), S. 116ff; Hair et al. (2020), S. 104, siehe auch zum Vorgehen Kapitelabschnitt 4.2.3.1.
 
315
Vgl. Hair et al. (2017), S. 97.
 
316
Eigene Darstellung.
 
317
Zudem argumentieren Forscher, dass Grenzwerte zwischen 0,4 und 0,7 tauglich sind, auch wenn sie der Logik der 50 % erklärten Varianz widersprechen [vgl. Hair et al. (2017), S. 98; Hulland (1999), S. 198].
 
318
Eigene Darstellung.
 
319
Für Vor- und Nachteile von Single Items siehe Hair et al. (2017), S. 45; Weiber und Sarstedt (2021), S. 125; Bergkvist und Rossiter (2007), S. 178.
 
320
Vgl. Weigold und Schlenker (1991), S. 26. Die Autoren verwenden die Skala zum Unterteilen ihres Samples in zwei Gruppen „risk takers“ und „risk avoiders“.
 
321
Siehe Kapitelabschnitt 4.2.3.3
 
322
Die Redundanzanalyse in SmartPLS weist einen Pfadkoeffizienten in Höhe von 0,586 aus, mit einem t-Wert von 9,155. Damit ist er signifikant, liegt aber unter dem geforderten Grenzwert von 0,7.
 
323
Vgl. Wanous und Reichers (1996), S. 634; Wanous et al. (1997), S. 250. Wanous und Reichers (1996) erreichen aber durchaus auch selbst vergleichbare Werte für die Reliabilität ihrer Single-Item Messung [vgl. Wanous und Reichers (1996), S. 633].
 
324
Vgl. Cohen (1988), S. 80.
 
325
Vgl. Bergkvist und Rossiter (2007), S. 182; Bergkvist und Rossiter (2009), S. 618.
 
326
Eigene Darstellung.
 
327
Eigene Darstellung.
 
328
Eigene Darstellung.
 
329
Siehe Kapitelabschnitt 4.2.3.4
 
330
Siehe Kapitelabschnitt 3.​4
 
331
Vgl. Hair et al. (2021), S. 96; Weiber und Sarstedt (2021), S. 282.
 
332
Eigene Darstellung.
 
333
Für die Berechnungen der PLSpredict-Ergebnisse siehe Anhang J im elektronischen Zusatzmaterial.
 
334
Vgl. Hair et al. (2017), S. 171.
 
335
Eigene Darstellung.
 
336
Zur Vollständigkeit wurden in Tabelle 65 auch die PLSpredict-Ergebnisse der anderen endogenen Variablen angegeben.
 
337
Eigene Darstellung.
 
338
Eigene Darstellung.
 
339
Eigene Darstellung.
 
340
Eigene Darstellung.
 
341
Vgl. Hair et al. (2019b), S. 14.
 
342
Vgl. Brown et al. (2012), S. 514; Brown et al. (2011), S. 199.
 
343
Vgl. Zablah et al. (2010), S. 256 f.
 
344
Eigene Darstellung.
 
345
Eigene Darstellung.
 
346
Eigene Darstellung.
 
347
Siehe Kapitelabschnitt 4.2.3.6
 
348
Eigene Darstellung.
 
349
Vgl. Zhao et al. (2010), S. 201.
 
350
Eigene Darstellung.
 
351
Siehe Kapitelabschnitt 4.2.3.6
 
352
Eigene Darstellung.
 
353
Siehe Anhang K im elektronischen Zusatzmaterial.
 
354
Vgl. Hair et al. (2018), S. 154; Klesel et al. (2022), S. 42.
 
355
Eigene Darstellung.
 
356
Eigene Darstellung.
 
357
Siehe Anhang K im elektronischen Zusatzmaterial.
 
358
Eigene Darstellung.
 
359
Eigene Darstellung.
 
360
Mit der Aufteilung in „alle Werte gleich dem Median oder größer“ und „alle Werte kleiner als der Median“ wurde den Empfehlungen von Iacobucci et al. (2015b) gefolgt, wonach diejenige Aufteilung zu wählen ist die am nächsten an eine 50:50 Verteilung herankommt [vgl. Iacobucci et al. (2015b), S. 660]. Zur Diskussion der Anwendung eines Median Split siehe auch folgende Abhandlungen: Iacobucci et al. (2015a); McClelland et al. (2015); Rucker et al. (2015).
 
361
Siehe Anhang K im elektronischen Zusatzmaterial.
 
362
Eigene Darstellung.
 
363
Eigene Darstellung.
 
364
Siehe hierzu vertiefend Kapitelabschnitt 5.​3.​2
 
365
Vgl. Podsakoff und Organ (1986), S. 536.
 
366
Auch unter Verwendung anderer Extraktionsverfahren zeigen sich vergleichbare Werte.
 
367
Eigene Darstellung.
 
368
Siehe Kapitelabschnitt 3.​2.​2.​2
 
369
Vgl. Kock und Lynn (2012), S. 578.
 
370
Vgl. Bernardi (2006), S. 47; Stöber et al. (2002), S. 373.
 
371
Vgl. Paulhus (1984), S. 600; Paulhus (1991), S. 39.
 
372
Vgl. Stöber et al. (2002), S. 373.
 
373
Vgl. Stöber et al. (2002), S. 373.
 
374
Vgl. Stöber et al. (2002), S. 385 f.; Kam (2013), S. 515.
 
375
Eigene Darstellung.
 
376
Eigene Darstellung.
 
377
Eigene Darstellung.
 
378
Siehe Anhang K im elektronischen Zusatzmaterial.
 
379
Eigene Darstellung.
 
380
Vgl. Sitkin und Weingart (1995), S. 1583.
 
381
Vgl. Sitkin und Pablo (1992), S. 19; Sitkin und Weingart (1995), S. 1577.
 
382
Eigene Darstellung.
 
383
Eigene Darstellung.
 
384
Vgl. Wu und Zumbo (2008), S. 381.
 
385
Siehe beispielsweise Zimmerman et al. (2011), S. 295; Forlani et al. (2002), S. 960; Ahlering und Parker (1989), S. 313; Haddock et al. (2008), S. 769; Smith und Levin (1996), S. 284; Haugtvedt und Petty (1992), S. 308.
 
386
Epstein (1994), S. 720.
 
387
Eigene Darstellung.
 
388
Prinzipiell hätte erneut eine Multigruppenanalyse durchgeführt werden können. Allerdings war es nicht von Interesse alle Pfade des Kausalmodells auf die moderierenden Effekte zu überprüfen, sondern nur jene die auch theoretische Bezugspunkte zu den Moderatoren, bzw. den individuellen Charakteristiken aufweisen. Dementsprechend wurden Interaktionsterme gebildet.
 
389
Aufgrund der überzeugenden Ergebnisse der Simulationsstudie von Henseler und Chin (2010) zum Vergleich verschiedener Ansätze der Bildung von Interaktionstermen und gemäß den Empfehlungen von Hair et al. (2017) wurde der Zwei-Stufen-Ansatz präferiert [vgl. Henseler und Chin (2010), S. 105; Hair et al. (2017), S. 216]. Bei diesem werden im ersten Schritt lediglich die Haupteffekte berechnet und damit die latenten Faktorwerte bestimmt. Im zweiten Schritt werden dann die Faktorwerte der beiden Interaktionsvariablen aus Schritt 1 multipliziert, um den Interaktionsterm als Single-Item zu berechnen [vgl. Henseler und Chin (2010), S. 87].
 
390
Eigene Darstellung.
 
391
Eigene Darstellung.
 
392
Vgl. Shanock et al. (2010), S. 543.
 
393
Vgl. Humberg et al. (2019), S. 409.
 
394
Vgl. Shanock et al. (2010), S. 545 ff. Die Berechnungen fanden mit Hilfe der von den Autoren beigelegten Materialen statt [vgl. Shanock et al. (2010), S. 553]. Demnach wurden die Berechnungen nicht in SmartPLS bzw. im Strukturmodell vollzogen, sondern explizit nur für den Zusammenhang der drei Variablen.
 
395
Eigene Darstellung nach Vorlage von Shanock et al. (2010).
 
396
Siehe Kapitelabschnitt 4.3.3.2
 
397
Vgl. Humberg et al. (2019), S. 412; 415.
 
Metadaten
Titel
Durchführung der quantitativ-empirischen Studie
verfasst von
Alexander Rapp
Copyright-Jahr
2025
DOI
https://doi.org/10.1007/978-3-658-47777-6_4