Zum Inhalt

Big Data Analysis

High Dimensional Probability, Statistics, Optimization, and Inference

  • 2025
  • Buch

Über dieses Buch

Dieses Buch behandelt Methoden und Theorie der hochdimensionalen Wahrscheinlichkeit, Statistik, großmaßstäbliche Optimierung und Schlussfolgerung. Unser Ziel ist es, die Leser schnell in die grenzüberschreitenden und interdisziplinären Bereiche Statistik, Optimierung, Wahrscheinlichkeit und maschinelles Lernen zu bringen. Dieses Buch behandelt folgende Themen: Hohe dimensionale Wahrscheinlichkeit, Konzentrationsungleichheit, Sub-Gauß'sche Zufallsvariablen, Tschernoff-Grenzen, Hoeffdings Ungleichheit, Maximale Ungleichheiten, Hohe dimensionale lineare Regression, Gewöhnliche kleinste Quadrate, Komprimierte Abtastung, Lasso, Lasso-Variationen einschließlich Gruppenlasso, Schmelzlasso, adaptives Lasso, usw., Allgemeine hochdimensionale M- Schätzer, Variable Auswahlkonsistenz, Hochdimensionale Optimierung, Konvexe Geometrie, Lagrange-Dualität, Gradientenabstieg, Proximaler Gradientenabstieg, LARS, ADMM, Spiegelabstieg, Stochastische Optimierung, Large-Scale Inference, Hypothesentests für lineare Modelle,

Inhaltsverzeichnis

  1. Frontmatter

  2. Foundations of Big Data Analysis

    1. Frontmatter

    2. Chapter 1. Introduction

      Junwei Lu
      Dieses Kapitel taucht in die Welt der Big Data ein und definiert sie als hochdimensionale Daten mit enormen Stichprobengrößen und Merkmalsdimensionen. Es beleuchtet die drei Schlüsselmerkmale von Big Data: Volumen, Geschwindigkeit und Vielfalt und skizziert das typische Protokoll für die Datenanalyse, das den Aufbau hochdimensionaler statistischer Modelle, die Entwicklung schneller Algorithmen und statistische Schlussfolgerungen umfasst. Das Kapitel stellt die vier Eckpfeiler moderner Big-Data-Analyse vor: Wahrscheinlichkeit, statistisches Lernen, Optimierung und Schlussfolgerung. Außerdem werden drei wichtige Prinzipien untersucht, die die Big-Data-Analyse leiten: das Konzentrationsprinzip, das die Konvergenz zufälliger Beobachtungen mit der Wahrheit der Bevölkerung bei zunehmender Stichprobengröße betont; das sparsame Prinzip, das postuliert, dass nur ein kleiner Anteil der Merkmale in hochdimensionalen Daten signifikant ist; und das Taylor-Prinzip, das nahelegt, dass die meisten Funktionen "fast" quadratisch sind. Diese Prinzipien werden anhand von Beispielen wie dem spärlichen linearen Modell und dem additiven Modell veranschaulicht und vermitteln ein praktisches Verständnis ihrer Anwendung in der Big-Data-Analyse.
    3. Chapter 2. Preliminaries in Probability

      Junwei Lu
      Dieses Kapitel vertieft die Grundlagen der Wahrscheinlichkeitstheorie, beginnend mit den Grundlagen statistischer Modelle und Stichproben. Sie verdeutlicht den Unterschied zwischen Stichproben und Daten anhand des Würfelrollens, um die Konzepte zufälliger Variablen und ihre Verteilungen zu veranschaulichen. Das Kapitel untersucht auch Verteilungsfunktionen, einschließlich kumulativer Verteilungsfunktionen (cdf), Wahrscheinlichkeitsdichtefunktionen (pdf) und Wahrscheinlichkeitsmassenfunktionen (pmf). Außerdem werden wichtige statistische Messgrößen wie Erwartung und Varianz diskutiert und das Konzept der Statistik und ihre Stichprobenverteilungen vorgestellt. Das Kapitel schließt mit einer Untersuchung der asymptotischen Theorie, die Themen wie Konvergenz in Wahrscheinlichkeit und Verteilung, konsistente Schätzer und statistische Raten abdeckt. Dieser umfassende Überblick bietet eine solide Grundlage für das Verständnis der Sprache der Unsicherheit und ihrer Anwendungen in der Datenanalyse.
    4. Chapter 3. Preliminaries in Linear Algebra

      Junwei Lu
      Dieses Kapitel geht auf die Grundlagen der linearen Algebra ein und behandelt wesentliche Themen wie Matrizen, ihre Operationen und Eigenschaften. Es stellt die Konzepte der Eigenwerte und Eigenvektoren vor und erklärt ihre Bedeutung durch das Theorem der Eigenwertzersetzung. Das Kapitel untersucht auch die Variationsform von Eigenwerten und bietet eine einzigartige Perspektive auf diese mathematischen Konstrukte. Darüber hinaus wird die Eigenwertdekomposition diskutiert, eine Verallgemeinerung der Eigenwertdekomposition, die auf nicht quadratische Matrizen anwendbar ist. Das Kapitel schließt mit einer Visualisierung des Eigenwertzersetzungsprozesses, die veranschaulicht, wie eine Matrix kanonische Einheitsvektoren durch eine Reihe von Schritten transformiert. Dieser umfassende Überblick stattet den Leser mit einer soliden Grundlage in der linearen Algebra aus, die es ihm ermöglicht, diese Konzepte in seinem jeweiligen Fachgebiet anzuwenden.
  3. High-Dimensional Probability

    1. Frontmatter

    2. Chapter 4. Concentration Inequalities

      Junwei Lu
      Dieses Kapitel vertieft sich in die Welt der Konzentrationsungleichheiten und konzentriert sich auf die Unterscheidung zwischen asymptotischen und nicht-asymptotischen Ansätzen. Es beginnt mit der Diskussion des Gesetzes der großen Zahlen und des Zentralen Grenzwertsatzes, die grundlegende asymptotische Ergebnisse in der Wahrscheinlichkeitstheorie sind. Diese Theoreme beschreiben das Verhalten des Probenmittelwertes, da die Anzahl der Proben unendlich ansteigt. Das Kapitel hebt jedoch zwei Hauptprobleme mit asymptotischen Eigenschaften hervor: Es fehlt ihnen an Informationen über die Konvergenzrate und sie könnten in hochdimensionalen Umgebungen versagen. Um diese Probleme anzugehen, werden in diesem Kapitel Ungleichgewichte bei der nicht-asymptotischen Konzentration eingeführt, die die Wahrscheinlichkeit zufälliger Variablen für jede festgelegte Stichprobengröße und -dimension begrenzen. Das Kapitel untersucht dann Zufallsvariablen unterhalb des Gaußschen Zufalls, die ähnliche Schwankungswahrscheinlichkeiten aufweisen wie die Gaußschen Verteilungen. Er präsentiert mehrere zentrale Ergebnisse, darunter die Markov-Ungleichheit, Tschebyschew-Ungleichheit und Tschernoff-Grenze, die zunehmend engere Grenzen für die Schwanz-Wahrscheinlichkeiten bieten. Das Kapitel behandelt auch die Konzentration von Stichprobenmitteln sub-gaußscher Zufallsvariablen, die in der Hoeffding-Ungleichheit gipfelt. Anhand praktischer Beispiele und klarer Erklärungen zeigt dieses Kapitel die Bedeutung nicht-asymptotischer Konzentrationsungleichgewichte in der modernen Datenanalyse und im statistischen Lernen auf.
    3. Chapter 5. Sub-exponential Random Variables

      Junwei Lu
      Dieses Kapitel vertieft sich in das Konzentrationsprinzip und erstreckt sich über den Stichprobendurchschnitt hinaus auf allgemeine Statistiken. Es beginnt mit der Einführung des allgemeinen Konzentrationsprinzips, das besagt, dass sich eine Zufallsvariable unter bestimmten Bedingungen auf ihren Mittelwert konzentriert. Die McDiarmid-Ungleichheit ist ein zentraler Schwerpunkt, mit einem detaillierten Beweis und einem Beispiel ihrer Anwendung bei der Begrenzung der einheitlichen Rate eines Korndichteschätzers. Das Kapitel untersucht auch sub-exponentielle Zufallsvariablen, ihre momentgenerierenden Funktionen und Schwanz-Wahrscheinlichkeiten. Es endet mit einem Theorem über den Durchschnitt der subexponentiellen Zufallsvariablen. Der Text bietet einen umfassenden Überblick über diese Themen und ist daher eine unverzichtbare Lektüre für Fachleute, die die theoretischen Grundlagen der Konzentrationsungleichheiten in der Statistik und im maschinellen Lernen verstehen wollen.
    4. Chapter 6. Bernstein and Maximal Inequalities

      Junwei Lu
      Dieses Kapitel befasst sich mit der Bernstein-Ungleichung, einem mächtigen Werkzeug in der Wahrscheinlichkeitstheorie, das eine stärkere Ungleichheit bei der Konzentration sub-exponentieller Zufallsvariablen bietet. Der Text beginnt mit der Definition der Bernstein-Bedingung, die für das Verständnis der Ungleichheit von entscheidender Bedeutung ist. Es fährt dann fort, die Bernstein-Ungleichheit zu beweisen, indem es seine Überlegenheit über die Hoeffding-Ungleichheit unter bestimmten Bedingungen demonstriert. Das Kapitel untersucht auch die maximale Ungleichheit, die für die Untersuchung der einheitlichen Leistung mehrerer Schätzer, insbesondere in hochdimensionalen Szenarien, von entscheidender Bedeutung ist. Der Text wendet den Diskretisierungstrick an, um die Lücke zwischen endlichen und unendlichen Sets zufälliger Variablen zu überbrücken, was einen neuen Ansatz zur Steuerung der Schwanzwahrscheinlichkeit bietet. Das Kapitel schließt mit einem Beispiel für die Umsetzung des Diskretisierungstricks auf die maximale Ungleichheit und bietet praktische Einblicke in seine Anwendung.
  4. High-Dimensional Statistics

    1. Frontmatter

    2. Chapter 7. Ordinary Least Squares

      Junwei Lu
      Dieses Kapitel befasst sich mit der Methode der Ordinary Least Squares (OLS), einem Eckpfeiler linearer Regression. Es beginnt mit der Definition des linearen Regressionsmodells und der Einführung von Matrixnotationen für die Designmatrix, den Reaktionsvektor und den Rauschvektor. Der Text untersucht zwei primäre Ziele der linearen Regression: Vorhersagegenauigkeit und Parameterschätzung, wobei der Schwerpunkt auf der Festlegung des Designs liegt. Der OLS-Schätzer wird mit einer Formel in geschlossener Form und einer geometrischen Interpretation präsentiert, die veranschaulicht, wie OLS den nächstgelegenen Punkt im Raum findet, der von der Designmatrix zum Antwortvektor überspannt wird. Das Kapitel liefert auch Beweise für die geometrische Bedeutung jedes Eintrags in der OLS-Lösung und diskutiert die statistische Rate des mittleren quadratischen Fehlers für OLS. Darüber hinaus behandelt sie die Projektionsmatrix und ihre Rolle bei der Projektion von Vektoren auf den linearen Raum, der von den Säulen der Designmatrix überspannt wird. Das Kapitel schließt mit einem Theorem über den mittleren Quadratfehler der kleinsten Quadrate, das Einblicke in die statistischen Eigenschaften der OLS bietet.
    3. Chapter 8. Compressive Sensing

      Junwei Lu
      Dieses Kapitel vertieft sich in die Feinheiten hochdimensionaler linearer Modelle und konzentriert sich auf die Herausforderungen, die gewöhnliche kleinste Quadrate in spärlichen Dateneinstellungen darstellen. Es stellt das Konzept spärlicher linearer Modelle vor, bei denen nur wenige Merkmale ungleich Null sind, und untersucht die Grenzen traditioneller Schätzmethoden. Der Text stellt dann den Lasso-Schätzer vor, ein leistungsstarkes Werkzeug zur variablen Auswahl und Regulierung, und diskutiert seine geometrische Interpretation. Darüber hinaus deckt es die komprimierende Abtastung ab, eine Technik zur effizienten Signalwiederherstellung in hochdimensionalen Räumen. Das Kapitel bietet auch Einblicke in den Kegelzustand, der eine perfekte Erholung bei der Grundlagenverfolgung gewährleistet. Anhand klarer Erläuterungen und illustrativer Abbildungen bietet dieses Kapitel einen umfassenden Überblick über diese fortgeschrittenen Themen, was es zu einer unschätzbaren Ressource für Fachleute macht, die diese Methoden verstehen und in ihrer Arbeit anwenden wollen.
    4. Chapter 9. Restricted Isometry Property

      Junwei Lu
      Dieses Kapitel befasst sich mit der Restricted Isometry Property (RIP), einem Schlüsselkonzept für komprimiertes Abtasten, das eine perfekte Signalwiederherstellung gewährleistet. Es befasst sich mit den Herausforderungen, Matrizen zu konstruieren, die die RIP-Bedingung erfüllen, und untersucht, wie diese Eigenschaft eine effiziente Signalkomprimierung ermöglicht. Das Kapitel liefert einen detaillierten Nachweis für eine vollkommene Erholung unter RIP und diskutiert die praktischen Auswirkungen der Verwendung zufälliger Matrizen zur Erfüllung der RIP-Kriterien. Darüber hinaus bietet es eine konkrete Methode zur Konstruktion von Matrizen, die die 3s-RIP-Bedingung erfüllen, und beantwortet kritische Fragen zur Signalwiederherstellung und Kompressionseffizienz. Am Ende des Kapitels werden die Leser verstehen, wie RIP den Prozess der Signalwiederherstellung vereinfacht und wie es angewandt werden kann, um hochdimensionale Signale effektiv zu komprimieren.
    5. Chapter 10. Statistical Properties of Lasso

      Junwei Lu
      Dieses Kapitel vertieft sich in die statistischen Eigenschaften des Lasso-Schätzers, einer Methode zur Schätzung hochdimensionaler linearer Modelle. Es beginnt mit einer Überprüfung des spärlichen linearen Modells und der Einführung des Restricted Eigenvalue (RE), eines entscheidenden Konzepts für das Verständnis von Lassos Leistung. Das Kapitel vergleicht die RE-Bedingung mit der Restricted Isometry Property (RIP), wobei hervorgehoben wird, dass die RE-Bedingung weniger restriktiv und für Lasso besser geeignet ist. Es bietet eine detaillierte Erklärung, warum die RE-Bedingung für die Analyse von Lasso notwendig ist, unterstützt durch visuelle Darstellungen der Landschaft mit den geringsten Quadratverlusten und der Hessischen Matrix. Das Kapitel stellt auch die statistische Rate des Lasso-Schätzers vor und diskutiert, wie die Rate von der Krümmung der Verlustfunktion und der Wahl des Tuning-Parameters abhängt. Es schließt mit einem konkreten Beispiel einer Designmatrix, die die RE-Bedingung erfüllt, und zeigt die praktischen Implikationen der theoretischen Analyse auf.
    6. Chapter 11. Variations of Lasso

      Junwei Lu
      Dieses Kapitel geht den Beschränkungen des Lasso-Schätzers nach und untersucht seine Erweiterungen in der hochdimensionalen Statistik. Zunächst werden die wichtigsten Beschränkungen des Lasso skizziert, einschließlich seiner Beschränkung auf lineare Modelle, Voreingenommenheit und Empfindlichkeit gegenüber Tuning-Parametern. Anschließend werden verschiedene Erweiterungen des Lasso diskutiert, wie das generalisierte Lasso für hochdimensionale Modelle, hochdimensionale Klassifikationsmodelle wie logistische Regression und lineare Diskriminanzanalyse sowie grafische Modelle zur Netzwerkvisualisierung. Außerdem werden innovative Ansätze zur Überwindung von Lassos Voreingenommenheiten und Empfindlichkeiten vorgestellt, darunter adaptives Lasso, SCAD-Strafe und Quadratwurzel-Lasso. Das Kapitel schließt mit einer Diskussion über die Anwendung von Lasso und seine Ausdehnung auf schwertaillierte Geräusche mittels Quantilregression. Während des gesamten Kapitels werden konkrete Beispiele und praktische Anwendungsbeispiele präsentiert, was es zu einer wertvollen Ressource für Fachleute macht, die ihr Verständnis von Lasso und seinen Erweiterungen verbessern wollen.
  5. High-Dimensional Optimization

    1. Frontmatter

    2. Chapter 12. Convexity and Subgradient

      Junwei Lu
      Dieses Kapitel taucht ein in die Welt der konvexen Optimierung, einem entscheidenden Konzept zur Lösung hochdimensionaler Optimierungsprobleme. Es beginnt mit der Definition konvexer Mengen und Funktionen, deren Eigenschaften durch geometrische Interpretationen veranschaulicht werden. Das Kapitel führt dann in das Konzept der Subgradienten ein, die für den Umgang mit nicht glatten konvexen Funktionen unverzichtbar sind. Er untersucht die Methoden erster Ordnung, die bei der hochdimensionalen Optimierung besonders effizient sind, weil sie sich auf Gradienten und nicht auf hessische Matrizen stützen. In diesem Kapitel werden auch die optimalen Bedingungen sowohl für uneingeschränkte als auch für eingeschränkte konvexe Optimierungsprobleme diskutiert, wodurch ein klares Verständnis dafür geschaffen wird, wann eine Lösung tatsächlich das globale Minimum darstellt. Darüber hinaus beleuchtet er die praktischen Herausforderungen durch hochdimensionale Daten wie Speicherung und Berechnung und bietet Einblicke, wie diese Herausforderungen effektiv bewältigt werden können. Das Kapitel schließt mit einer Diskussion über die Bedeutung der Konvexität dafür, dass lokale Minima auch globale Minima sind, eine Eigenschaft, die den Optimierungsprozess erheblich vereinfacht.
    3. Chapter 13. Gradient Descent

      Junwei Lu
      Dieses Kapitel befasst sich mit dem Design und der Anwendung von Algorithmen für die Abstammung von Gradienten zur Lösung konvexer Optimierungsprobleme. Es beginnt mit dem uneingeschränkten Problem, in dem erklärt wird, wie die steilste Abfahrtsrichtung bestimmt wird und wie der Algorithmus des Gefälleabstiegs die objektive Funktion iterativ minimiert. Das Konzept der L-Glätte wird eingeführt, um gute Konvergenzeigenschaften zu gewährleisten, und die Konvergenzrate des Gefälleabstiegs wird gründlich analysiert. Das Kapitel erstreckt sich dann auf eingeschränkte Probleme und führt den Frank-Wolfe-Algorithmus ein, der sicherstellt, dass die Lösung innerhalb des Machbaren bleibt. Praxisbeispiele wie die Potenzialiteration zur Ermittlung des führenden Eigenvektors einer Matrix und das beschränkte Lasso-Problem veranschaulichen die Anwendung dieser Algorithmen. Schließlich wird in diesem Kapitel der beschleunigte Gefälleabstieg untersucht, der die Geschichte des Weges ausnutzt, um eine schnellere Konvergenz zu erreichen. Der Algorithmus des beschleunigten Gefälleabstiegs wird mit dem herkömmlichen Gefälleabstieg verglichen, was seine Vorteile und die Bedingungen hervorhebt, unter denen er die traditionelle Methode übertrifft. Während des gesamten Kapitels vermitteln detaillierte Beweise und visuelle Hilfsmittel ein umfassendes Verständnis des Verhaltens und der Konvergenzeigenschaften der Algorithmen.
    4. Chapter 14. Proximal Gradient Descent

      Junwei Lu
      Dieses Kapitel befasst sich mit dem Algorithmus des proximalen Gradientenabstiegs, einem leistungsstarken Werkzeug zur Optimierung zusammengesetzter Verlustfunktionen. Es beginnt damit, den Algorithmus für die Absenkung des Gefälles und seine Konvergenzraten für reibungslose objektive Funktionen erneut zu untersuchen. Der Fokus verlagert sich dann auf den Umgang mit nicht glatten Strafzeiten, wie sie bei hochdimensionalen M-Schätzern wie Lasso üblich sind. Der Algorithmus des proximalen Gradientenabstiegs wird als Lösung eingeführt, um trotz der Unglätte der Objektivfunktion schnelle Konvergenzraten aufrechtzuerhalten. Das Kapitel bietet eine neue Perspektive auf den Abstieg des Gefälles und sieht darin eine Minimierung einer lokalen quadratischen Annäherung an die objektive Funktion. Anschließend modifiziert es diese Perspektive, um daraus den Algorithmus für den proximalen Gradienten-Abstieg abzuleiten. Zur Veranschaulichung der Anwendung des Algorithmus werden praktische Beispiele wie eingeschränkte Optimierung und Lasso bereitgestellt. In diesem Kapitel wird auch der Algorithmus des beschleunigten proximalen Gradientenabstiegs untersucht, der Nesterovs Beschleunigungsidee mit dem proximalen Gradientenabstieg kombiniert. Die Konvergenzraten dieser Algorithmen werden gründlich analysiert und Beweise für die theoretischen Behauptungen vorgelegt. Das Kapitel schließt mit einer Diskussion über die Lyapunov-Funktion, die verwendet wird, um die Konvergenzrate des beschleunigten Proximalgradientenabstiegsalgorithmus zu beweisen.
    5. Chapter 15. Mirror Descent

      Junwei Lu
      Dieses Kapitel taucht in die Welt der Optimierungsalgorithmen ein und konzentriert sich auf Mirror Descent und Bregman Divergence. Es beginnt mit der Einführung der proximalen Perspektive des Gefälleabstiegs und des Konzepts der Bregman-Divergenz, das eine Verallgemeinerung der quadratischen Norm darstellt. Der Text erklärt, wie Bregman Divergence zu effizienteren Algorithmen führen kann, indem es die Geometrie des Problems besser anpasst. Außerdem wird der Mirror Descent Algorithmus diskutiert, der Bregman Divergence im proximalen Term verwendet, und mit anderen Algorithmen wie dem Frank-Wolfe Algorithmus und Projected Gradient Descent verglichen. Das Kapitel bietet praktische Beispiele, wie die Wahrscheinlichkeitsvereinfachung, um zu veranschaulichen, wie man die richtige Bregman-Divergenz unter bestimmten Einschränkungen auswählt. Darüber hinaus wird Nesterovs Smoothing erforscht, eine Technik zur Annäherung von nicht glatten Funktionen an glatte Funktionen, und ihre Anwendung bei Optimierungsproblemen diskutiert. Der Text schließt mit einem Theorem, das die Konvergenzrate anhand von Nesterovs Glättungsidee zeigt. Während des gesamten Kapitels verwendet der Text klare Erklärungen und Visualisierungen, um komplexe Konzepte verständlicher zu machen.
    6. Chapter 16. Duality and ADMM

      Junwei Lu
      Dieses Kapitel vertieft das Konzept der Dualität in der Optimierung und ihre Anwendung zur Lösung zusammengesetzter objektiver Funktionen. Es beginnt damit, die Dualität zu überprüfen, ihre Bedeutung für die Umwandlung von Urproblemen in duale Probleme hervorzuheben und dies mit dem Lasso-Problem zu veranschaulichen. Das Kapitel stellt dann die Alternating Direction Method of Multiplikators (ADMM) vor, einen leistungsstarken Algorithmus zur Lösung von Problemen bei der Kompositoptimierung. Es demonstriert die Anwendung von ADMM auf verschiedene Probleme, einschließlich des verschmolzenen Lassos, des graphischen Lassos und der Konsensoptimierung für massive Daten. Das Kapitel schließt mit einer Diskussion über die verteilte Natur von ADMM, was es zu einem wertvollen Werkzeug für groß angelegte Optimierungsaufgaben macht. Die Leser erhalten Einblicke in die Macht der Dualität und des ADMM und wie diese Methoden zur effizienten Lösung komplexer Optimierungsprobleme eingesetzt werden können.
  6. High-Dimensional Inference

    1. Frontmatter

    2. Chapter 17. High Dimensional Inference

      Junwei Lu
      Dieses Kapitel vertieft sich in die Feinheiten hochdimensionaler statistischer Schlussfolgerungen und konzentriert sich auf Schätzungs- und Folgerungsprobleme. Es beginnt mit der Einführung der wichtigsten Ziele der Schätzung, wie Schätzer zu finden und ihre Konvergenzraten zu verstehen. Der Text wechselt dann zu Schlussfolgerungen und betont die Bedeutung von Unsicherheitsbeurteilung, Konfidenzintervallen und Hypothesentests. Ein wesentlicher Teil des Kapitels ist der hochdimensionalen Folgerung gewidmet, bei der die interessanten Parameter typischerweise größer sind als die Stichprobengrößen. Das Kapitel behandelt die Herausforderungen bei der Prüfung mehrerer Hypothesen, die familiäre Fehlerquote und die falsche Entdeckungsrate. Außerdem werden wichtige theoretische Ergebnisse wie der zentrale Grenzwertsatz und Slutskys Satz überprüft, die für das Verständnis der asymptotischen Normalität kleinster Quadrate von entscheidender Bedeutung sind. Das Kapitel schließt mit einer detaillierten Ableitung der asymptotischen Normalität für gewöhnliche Kleinstquadrate, die einen umfassenden Überblick über das Thema bietet.
    3. Chapter 18. Debiased Lasso

      Junwei Lu
      Dieses Kapitel befasst sich mit der unvoreingenommenen Lasso-Methode zur Durchführung von Schlussfolgerungen in hochdimensionalen linearen Modellen. Es beginnt damit, Konfidenzintervalle für den Lasso-Schätzer abzuleiten und ihn in eine Voreingenommenheit, einen Leitbegriff und einen Restbegriff zu zerlegen. Der Text beweist dann die asymptotische Normalität des unvoreingenommenen Lasso und zeigt, dass der Schätzer unter bestimmten Bedingungen in der Verteilung auf eine Normalverteilung konvergiert. Das Kapitel untersucht auch die Machbarkeit des CLIME-Schätzers und seine Rolle bei der Erfüllung der notwendigen Bedingungen für das unvoreingenommene Lasso. Darüber hinaus verallgemeinert er die Entbehrungsmethode auf allgemeine hochdimensionale M-Schätzer und diskutiert die Annahmen, die für eine asymptotische Normalität erforderlich sind. Das Kapitel schließt mit einem Vergleich zwischen Lasso und unvoreingenommenem Lasso, wobei die stärkeren Annahmen hervorgehoben werden, die für letzteres erforderlich sind. Diese detaillierte Untersuchung bietet wertvolle Einblicke in die unvoreingenommene Lasso-Methode und ihre Anwendung in der statistischen Schlussfolgerung.
    4. Chapter 19. Multiple Hypotheses

      Junwei Lu
      Dieses Kapitel vertieft sich in die Feinheiten konformer Schlussfolgerungen und der Prüfung mehrerer Hypothesen und bietet einen soliden Rahmen für den Aufbau von Vertrauensintervallen, ohne sich auf unnötige Annahmen zu verlassen. Der Text beginnt mit der Erläuterung des Konzepts der konformen Folgerung, das darauf abzielt, Konfidenzintervalle für Vorhersagen mittels i.i.d. zu konstruieren. Zufallspaare. Sie unterstreicht die Bedeutung der Symmetrie und der gleichmäßigen Verteilung bei der Konstruktion dieser Intervalle, was letztlich zu einer Methode führt, die eine Überanpassung vermeidet und auf komplexere Rahmenwerke verallgemeinert werden kann. Anschließend verlagert das Kapitel seinen Schwerpunkt auf die Prüfung mehrerer Hypothesen, insbesondere in Szenarien, in denen die Anzahl der Hypothesen N sehr hoch sein kann, wie etwa in genomweiten Assoziationsstudien (GWAS). Er diskutiert die Herausforderungen bei der Steuerung der familiären Fehlerquote (FWER) und führt die Bonferroni-Korrektur ein, die zwar konservativ ist, aber eine einfache Methode zur Steuerung der FWER bietet. Der Text untersucht auch die maximale Statistik als Alternative zur Bonferroni-Korrektur und bietet eine effizientere Möglichkeit, p-Werte zu nutzen und FWER zu steuern. Das Kapitel schließt mit einer Beschreibung der nächsten Schritte bei der Schätzung des Quantitats maximaler Statistiken, die die Voraussetzungen für weitere Fortschritte in diesem Bereich schaffen. Während des gesamten Kapitels bietet der Text einen detaillierten und praktischen Ansatz zu diesen statistischen Methoden, was ihn zu einer unschätzbaren Ressource für Fachleute macht, die ihr Verständnis konformer Schlussfolgerungen und der Prüfung mehrerer Hypothesen verbessern wollen.
    5. Chapter 20. False Discovery Rate

      Junwei Lu
      In diesem Kapitel werden ausgeklügelte statistische Techniken zur Steuerung falscher Entdeckungsraten (FDR) und familienweiser Fehlerquoten (FWER) bei Hypothesentests untersucht. Es beginnt mit der Diskussion der Bootstrap-Methode des Gaußschen Multiplikators, die verwendet wird, um das Quantil der maximalen Statistik abzuschätzen, insbesondere wenn Statistiken abhängig und nur asymptotisch normal sind. Das Kapitel enthält ein detailliertes Verfahren zur Schätzung des Quantils der maximalen Statistik, einschließlich der Behandlung von Fällen, in denen die Kovarianzmatrix unbekannt ist. Darüber hinaus wird das Benjamin-Hochberg-Verfahren zur Kontrolle der falschen Entdeckungsrate untersucht, insbesondere wenn die p-Werte unabhängig sind. Das Kapitel enthält einen Beweis, der die Effektivität des Benjamin-Hochberg-Verfahrens bei der Kontrolle von FDR demonstriert. Überall bietet der Text praktische Beispiele und theoretische Einsichten, was ihn zu einem umfassenden Leitfaden für Fachleute macht, die ihre statistischen Analysefähigkeiten verfeinern wollen.
    6. Chapter 21. Knock-Off

      Junwei Lu
      Dieses Kapitel geht der schwierigen Aufgabe nach, die falsche Entdeckungsrate (FDR) zu kontrollieren, wenn es um abhängige p-Werte bei der Prüfung statistischer Hypothesen geht. Es beginnt damit, die Definition von FDR und den Fall unabhängiger p-Werte erneut zu untersuchen, bevor es sich dem komplexeren Szenario abhängiger p-Werte zuwendet. Der Text stellt ein Rahmenwerk zur Auswahl von Merkmalen im Zusammenhang mit einer Antwortvariable wie Phänotypen oder SNPs vor und diskutiert den Einsatz von Permutationstests zur Kontrolle des FDR. Sie unterstreicht jedoch die Beschränkungen von Permutationstests anhand eines Gegenbeispiels und schlägt den Knock-off-Ansatz als Alternative vor. Bei der Knock-off-Methode werden Dummy-Variablen konstruiert und ein Knock-off-Score mit bestimmten Eigenschaften definiert. Das Kapitel bietet eine detaillierte Beschreibung des Knock-off-Verfahrens, einschließlich eines Nachweises seiner Gültigkeit anhand von Martyrien und des optimalen Stopptheorems. Er diskutiert auch die Einschätzung des Anteils der Falschentdeckungen und die Bedingungen, unter denen das Knock-off-Verfahren wirksam ist. Das Kapitel schließt mit einer Diskussion der Vorteile des Knock-off-Ansatzes und seiner potenziellen Anwendung in verschiedenen Bereichen.
  7. Backmatter

Titel
Big Data Analysis
Verfasst von
Junwei Lu
Copyright-Jahr
2025
Electronic ISBN
978-3-032-03161-7
Print ISBN
978-3-032-03160-0
DOI
https://doi.org/10.1007/978-3-032-03161-7

Die PDF-Dateien dieses Buches wurden gemäß dem PDF/UA-1-Standard erstellt, um die Barrierefreiheit zu verbessern. Dazu gehören Bildschirmlesegeräte, beschriebene nicht-textuelle Inhalte (Bilder, Grafiken), Lesezeichen für eine einfache Navigation, tastaturfreundliche Links und Formulare sowie durchsuchbarer und auswählbarer Text. Wir sind uns der Bedeutung von Barrierefreiheit bewusst und freuen uns über Anfragen zur Barrierefreiheit unserer Produkte. Bei Fragen oder Bedarf an Barrierefreiheit kontaktieren Sie uns bitte unter accessibilitysupport@springernature.com.

    Bildnachweise
    AvePoint Deutschland GmbH/© AvePoint Deutschland GmbH, ams.solutions GmbH/© ams.solutions GmbH, Wildix/© Wildix, arvato Systems GmbH/© arvato Systems GmbH, Ninox Software GmbH/© Ninox Software GmbH, Nagarro GmbH/© Nagarro GmbH, GWS mbH/© GWS mbH, CELONIS Labs GmbH, USU GmbH/© USU GmbH, G Data CyberDefense/© G Data CyberDefense, Vendosoft/© Vendosoft, Deutsche Telekom MMS GmbH/© Vendosoft, Noriis Network AG/© Noriis Network AG, Asseco Solutions AG/© Asseco Solutions AG, AFB Gemeinnützige GmbH/© AFB Gemeinnützige GmbH, Ferrari electronic AG/© Ferrari electronic AG, Doxee AT GmbH/© Doxee AT GmbH , Haufe Group SE/© Haufe Group SE, NTT Data/© NTT Data, Videocast 1: Standbild/© Springer Fachmedien Wiesbaden, KI-Wissen für mittelständische Unternehmen/© Dell_Getty 1999938268, IT-Director und IT-Mittelstand: Ihre Webinar-Matineen /© da-kuk / Getty Images / iStock