Big Data Analysis
High Dimensional Probability, Statistics, Optimization, and Inference
- 2025
- Buch
- Verfasst von
- Junwei Lu
- Verlag
- Springer Nature Switzerland
Über dieses Buch
Über dieses Buch
This book covers the methods and theory of high dimensional probability, statistics, large-scale optimization, and inference. We aim to quickly bring readers to the frontier and interdisciplinary areas of statistics, optimization, probability, and machine learning. This book covers topics in:
High dimensional probability, Concentration inequality, Sub-Gaussian random variables, Chernoff bounds, Hoeffding's inequality, Maximal inequalities, High dimensional linear regression, Ordinary least square, Compressed sensing, Lasso, Variations of Lasso including group lasso, fused lasso, adaptive lasso, etc., General high dimensional M- estimators, Variable selection consistency, High dimensional Optimization, Convex geometry, Lagrange duality, Gradient descent, Proximal gradient descent, LARS, ADMM, Mirror descent, Stochastic optimization, Large-Scale Inference, Linear model hypothesis testing, high dimensional inference, Chi-square test, maximal test, and Higher criticism, False discovery rate control.
Inhaltsverzeichnis
-
Frontmatter
-
Foundations of Big Data Analysis
-
Frontmatter
-
Chapter 1. Introduction
Junwei LuDieses Kapitel taucht in die Welt der Big Data ein und definiert sie als hochdimensionale Daten mit enormen Stichprobengrößen und Merkmalsdimensionen. Es beleuchtet die drei Schlüsselmerkmale von Big Data: Volumen, Geschwindigkeit und Vielfalt und skizziert das typische Protokoll für die Datenanalyse, das den Aufbau hochdimensionaler statistischer Modelle, die Entwicklung schneller Algorithmen und statistische Schlussfolgerungen umfasst. Das Kapitel stellt die vier Eckpfeiler moderner Big-Data-Analyse vor: Wahrscheinlichkeit, statistisches Lernen, Optimierung und Schlussfolgerung. Außerdem werden drei wichtige Prinzipien untersucht, die die Big-Data-Analyse leiten: das Konzentrationsprinzip, das die Konvergenz zufälliger Beobachtungen mit der Wahrheit der Bevölkerung bei zunehmender Stichprobengröße betont; das sparsame Prinzip, das postuliert, dass nur ein kleiner Anteil der Merkmale in hochdimensionalen Daten signifikant ist; und das Taylor-Prinzip, das nahelegt, dass die meisten Funktionen "fast" quadratisch sind. Diese Prinzipien werden anhand von Beispielen wie dem spärlichen linearen Modell und dem additiven Modell veranschaulicht und vermitteln ein praktisches Verständnis ihrer Anwendung in der Big-Data-Analyse.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractThis book aims to solve two major questions:1.How to analyze big data? (Method)2.Why it works? (Theory)To clarify the questions above, we need to define what is “big data.” In this book, big data is almost a synonym of “high-dimensional data.” The dataset, usually denoted as \(\mathbb {X}\), is an \(n \times d\) matrix, where n is the sample size and d is the number of features (or feature dimension). -
Chapter 2. Preliminaries in Probability
Junwei LuDieses Kapitel vertieft die Grundlagen der Wahrscheinlichkeitstheorie, beginnend mit den Grundlagen statistischer Modelle und Stichproben. Sie verdeutlicht den Unterschied zwischen Stichproben und Daten anhand des Würfelrollens, um die Konzepte zufälliger Variablen und ihre Verteilungen zu veranschaulichen. Das Kapitel untersucht auch Verteilungsfunktionen, einschließlich kumulativer Verteilungsfunktionen (cdf), Wahrscheinlichkeitsdichtefunktionen (pdf) und Wahrscheinlichkeitsmassenfunktionen (pmf). Außerdem werden wichtige statistische Messgrößen wie Erwartung und Varianz diskutiert und das Konzept der Statistik und ihre Stichprobenverteilungen vorgestellt. Das Kapitel schließt mit einer Untersuchung der asymptotischen Theorie, die Themen wie Konvergenz in Wahrscheinlichkeit und Verteilung, konsistente Schätzer und statistische Raten abdeckt. Dieser umfassende Überblick bietet eine solide Grundlage für das Verständnis der Sprache der Unsicherheit und ihrer Anwendungen in der Datenanalyse.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractWhen we roll a die, the small cube with six different numbers on its six faces will never give us a determinist answer before it comes to rest. Einstein thought even “God does not throw dice.” However, probabilists have to (as well as statisticians!). Actually, they have developed a dedicated language to describe the world of uncertainty. We will first begin with reviewing several fundamental terminologies in probability theory. -
Chapter 3. Preliminaries in Linear Algebra
Junwei LuDieses Kapitel geht auf die Grundlagen der linearen Algebra ein und behandelt wesentliche Themen wie Matrizen, ihre Operationen und Eigenschaften. Es stellt die Konzepte der Eigenwerte und Eigenvektoren vor und erklärt ihre Bedeutung durch das Theorem der Eigenwertzersetzung. Das Kapitel untersucht auch die Variationsform von Eigenwerten und bietet eine einzigartige Perspektive auf diese mathematischen Konstrukte. Darüber hinaus wird die Eigenwertdekomposition diskutiert, eine Verallgemeinerung der Eigenwertdekomposition, die auf nicht quadratische Matrizen anwendbar ist. Das Kapitel schließt mit einer Visualisierung des Eigenwertzersetzungsprozesses, die veranschaulicht, wie eine Matrix kanonische Einheitsvektoren durch eine Reihe von Schritten transformiert. Dieser umfassende Überblick stattet den Leser mit einer soliden Grundlage in der linearen Algebra aus, die es ihm ermöglicht, diese Konzepte in seinem jeweiligen Fachgebiet anzuwenden.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractLinearity is the simplest structure in mathematics. Let’s review the basic notations and terminologies in linear algebra.
-
-
High-Dimensional Probability
-
Frontmatter
-
Chapter 4. Concentration Inequalities
Junwei LuDieses Kapitel vertieft sich in die Welt der Konzentrationsungleichheiten und konzentriert sich auf die Unterscheidung zwischen asymptotischen und nicht-asymptotischen Ansätzen. Es beginnt mit der Diskussion des Gesetzes der großen Zahlen und des Zentralen Grenzwertsatzes, die grundlegende asymptotische Ergebnisse in der Wahrscheinlichkeitstheorie sind. Diese Theoreme beschreiben das Verhalten des Probenmittelwertes, da die Anzahl der Proben unendlich ansteigt. Das Kapitel hebt jedoch zwei Hauptprobleme mit asymptotischen Eigenschaften hervor: Es fehlt ihnen an Informationen über die Konvergenzrate und sie könnten in hochdimensionalen Umgebungen versagen. Um diese Probleme anzugehen, werden in diesem Kapitel Ungleichgewichte bei der nicht-asymptotischen Konzentration eingeführt, die die Wahrscheinlichkeit zufälliger Variablen für jede festgelegte Stichprobengröße und -dimension begrenzen. Das Kapitel untersucht dann Zufallsvariablen unterhalb des Gaußschen Zufalls, die ähnliche Schwankungswahrscheinlichkeiten aufweisen wie die Gaußschen Verteilungen. Er präsentiert mehrere zentrale Ergebnisse, darunter die Markov-Ungleichheit, Tschebyschew-Ungleichheit und Tschernoff-Grenze, die zunehmend engere Grenzen für die Schwanz-Wahrscheinlichkeiten bieten. Das Kapitel behandelt auch die Konzentration von Stichprobenmitteln sub-gaußscher Zufallsvariablen, die in der Hoeffding-Ungleichheit gipfelt. Anhand praktischer Beispiele und klarer Erklärungen zeigt dieses Kapitel die Bedeutung nicht-asymptotischer Konzentrationsungleichgewichte in der modernen Datenanalyse und im statistischen Lernen auf.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractIn the previous chapter, we discussed the concentration principle. It states that the more samples we have, the random observations converge to the population truth. In particular, we have the two important theorems in the probability theory describing this phenomenon. -
Chapter 5. Sub-exponential Random Variables
Junwei LuDieses Kapitel vertieft sich in das Konzentrationsprinzip und erstreckt sich über den Stichprobendurchschnitt hinaus auf allgemeine Statistiken. Es beginnt mit der Einführung des allgemeinen Konzentrationsprinzips, das besagt, dass sich eine Zufallsvariable unter bestimmten Bedingungen auf ihren Mittelwert konzentriert. Die McDiarmid-Ungleichheit ist ein zentraler Schwerpunkt, mit einem detaillierten Beweis und einem Beispiel ihrer Anwendung bei der Begrenzung der einheitlichen Rate eines Korndichteschätzers. Das Kapitel untersucht auch sub-exponentielle Zufallsvariablen, ihre momentgenerierenden Funktionen und Schwanz-Wahrscheinlichkeiten. Es endet mit einem Theorem über den Durchschnitt der subexponentiellen Zufallsvariablen. Der Text bietet einen umfassenden Überblick über diese Themen und ist daher eine unverzichtbare Lektüre für Fachleute, die die theoretischen Grundlagen der Konzentrationsungleichheiten in der Statistik und im maschinellen Lernen verstehen wollen.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractIn the previous chapter, we showed the concentration of sample average in the Hoeffding inequality. The asymptotic results like law of large numbers and central limit theorem are also about the sample average. If we look into the proof of these results, we can find that these results rely on the additive formality of the sample mean. So we have the impression that the concentration principle works for the average, but does it cover other statistics? In fact, we have many nonlinear estimators in statistics and machine learning. Can we expect that a general statistic \(f(X_1, \ldots , X_n)\) concentrates to its expectation? The answer is positive. Sample mean is not special. -
Chapter 6. Bernstein and Maximal Inequalities
Junwei LuDieses Kapitel befasst sich mit der Bernstein-Ungleichung, einem mächtigen Werkzeug in der Wahrscheinlichkeitstheorie, das eine stärkere Ungleichheit bei der Konzentration sub-exponentieller Zufallsvariablen bietet. Der Text beginnt mit der Definition der Bernstein-Bedingung, die für das Verständnis der Ungleichheit von entscheidender Bedeutung ist. Es fährt dann fort, die Bernstein-Ungleichheit zu beweisen, indem es seine Überlegenheit über die Hoeffding-Ungleichheit unter bestimmten Bedingungen demonstriert. Das Kapitel untersucht auch die maximale Ungleichheit, die für die Untersuchung der einheitlichen Leistung mehrerer Schätzer, insbesondere in hochdimensionalen Szenarien, von entscheidender Bedeutung ist. Der Text wendet den Diskretisierungstrick an, um die Lücke zwischen endlichen und unendlichen Sets zufälliger Variablen zu überbrücken, was einen neuen Ansatz zur Steuerung der Schwanzwahrscheinlichkeit bietet. Das Kapitel schließt mit einem Beispiel für die Umsetzung des Diskretisierungstricks auf die maximale Ungleichheit und bietet praktische Einblicke in seine Anwendung.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractIn the previous chapter, we showed that the sample mean of independent sub-exponential random variables \(X_1, \ldots , X_n\) with the parameter \(\alpha \) has the tail probabilitywhere \(x \wedge y = \min (x, y)\) and \(x \vee y = \max (x, y)\). Therefore, with probability at least \(1- \delta \),$$\displaystyle \mathbb {P} (|\bar {X}_n - \mathbb {E} X| > t) \le = 2e^{- \frac {n}{2} \left ( \frac {t^2}{\alpha ^2} \wedge \frac {t}{\alpha } \right )}, $$We can see that the two types of sup-exponential tail probability give us two types of rate: \(O(\alpha / \sqrt {n})\) and \(O(\alpha / n)\). Although the second term is dominated by the first term, it implies the possibility of giving two types of rates in the concentration inequality. We are going to show a stronger concentration inequality of such type.$$\displaystyle \lvert \bar {X}_n - \mathbb {E} X \rvert \le \sqrt {\frac {\alpha ^2}{n} \log \Big (\frac {2}{\delta }}\Big ) \vee \left ( \frac {\alpha }{n} \log \Big (\frac {2}{\delta }\Big ) \right ). $$
-
-
High-Dimensional Statistics
-
Frontmatter
-
Chapter 7. Ordinary Least Squares
Junwei LuDieses Kapitel befasst sich mit der Methode der Ordinary Least Squares (OLS), einem Eckpfeiler linearer Regression. Es beginnt mit der Definition des linearen Regressionsmodells und der Einführung von Matrixnotationen für die Designmatrix, den Reaktionsvektor und den Rauschvektor. Der Text untersucht zwei primäre Ziele der linearen Regression: Vorhersagegenauigkeit und Parameterschätzung, wobei der Schwerpunkt auf der Festlegung des Designs liegt. Der OLS-Schätzer wird mit einer Formel in geschlossener Form und einer geometrischen Interpretation präsentiert, die veranschaulicht, wie OLS den nächstgelegenen Punkt im Raum findet, der von der Designmatrix zum Antwortvektor überspannt wird. Das Kapitel liefert auch Beweise für die geometrische Bedeutung jedes Eintrags in der OLS-Lösung und diskutiert die statistische Rate des mittleren quadratischen Fehlers für OLS. Darüber hinaus behandelt sie die Projektionsmatrix und ihre Rolle bei der Projektion von Vektoren auf den linearen Raum, der von den Säulen der Designmatrix überspannt wird. Das Kapitel schließt mit einem Theorem über den mittleren Quadratfehler der kleinsten Quadrate, das Einblicke in die statistischen Eigenschaften der OLS bietet.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractGiven the outcome \(Y_i\) and the covariates \(X_i\) for \(i = 1, \ldots , n\), a regression model assumeswhere \(\varepsilon _i\) is the error/noise. We typically assume that the error terms satisfy \(\mathbb {E} \varepsilon _i = 0\) and \(\epsilon _1, \ldots , \epsilon _n\) are independent.$$\displaystyle Y_i = f (X_i) + \varepsilon _i, \text{ for all } i = 1, \ldots , n, $$ -
Chapter 8. Compressive Sensing
Junwei LuDieses Kapitel vertieft sich in die Feinheiten hochdimensionaler linearer Modelle und konzentriert sich auf die Herausforderungen, die gewöhnliche kleinste Quadrate in spärlichen Dateneinstellungen darstellen. Es stellt das Konzept spärlicher linearer Modelle vor, bei denen nur wenige Merkmale ungleich Null sind, und untersucht die Grenzen traditioneller Schätzmethoden. Der Text stellt dann den Lasso-Schätzer vor, ein leistungsstarkes Werkzeug zur variablen Auswahl und Regulierung, und diskutiert seine geometrische Interpretation. Darüber hinaus deckt es die komprimierende Abtastung ab, eine Technik zur effizienten Signalwiederherstellung in hochdimensionalen Räumen. Das Kapitel bietet auch Einblicke in den Kegelzustand, der eine perfekte Erholung bei der Grundlagenverfolgung gewährleistet. Anhand klarer Erläuterungen und illustrativer Abbildungen bietet dieses Kapitel einen umfassenden Überblick über diese fortgeschrittenen Themen, was es zu einer unschätzbaren Ressource für Fachleute macht, die diese Methoden verstehen und in ihrer Arbeit anwenden wollen.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractIn the high-dimensional setting, we’re essentially looking at the same linear model \(Y = \mathbb {X} \beta + \varepsilon \) with \(\mathbb {X} \in \mathbb {R}^{n \times d}\). However, we now expect the number of features d is much larger than its sample size n. Under the high-dimensional setting, the ordinary least squares estimator will have troubles. If the features are linearly independent, we have \(\mathrm {rank} (\mathbb {X}) = n\). Then, \(\mathbb {X} \widehat {\beta }^{\mathrm {LS}} = P_{\mathbb {X}} Y = Y\), i.e., the ordinary least squares will overfit. Therefore, we need to invoke the parsimonious principle and introduce the following sparse linear model. -
Chapter 9. Restricted Isometry Property
Junwei LuDieses Kapitel befasst sich mit der Restricted Isometry Property (RIP), einem Schlüsselkonzept für komprimiertes Abtasten, das eine perfekte Signalwiederherstellung gewährleistet. Es befasst sich mit den Herausforderungen, Matrizen zu konstruieren, die die RIP-Bedingung erfüllen, und untersucht, wie diese Eigenschaft eine effiziente Signalkomprimierung ermöglicht. Das Kapitel liefert einen detaillierten Nachweis für eine vollkommene Erholung unter RIP und diskutiert die praktischen Auswirkungen der Verwendung zufälliger Matrizen zur Erfüllung der RIP-Kriterien. Darüber hinaus bietet es eine konkrete Methode zur Konstruktion von Matrizen, die die 3s-RIP-Bedingung erfüllen, und beantwortet kritische Fragen zur Signalwiederherstellung und Kompressionseffizienz. Am Ende des Kapitels werden die Leser verstehen, wie RIP den Prozess der Signalwiederherstellung vereinfacht und wie es angewandt werden kann, um hochdimensionale Signale effektiv zu komprimieren.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractIn the previous chapter, we introduce the problem of compressive sensing: how to find the sparse truth \(\beta ^*\) from the linear equation \(Y=\mathbb {X}\beta ^*\). Recall that we list three major questions for the compressive sensing:1.What is the algorithm to recover \(\beta ^*\)?2.What kind of matrix \(\mathbb {X}\) can guarantee the recovery?3.How efficiently can we compress \(\beta ^*\), i.e., how small can n be with respect to d?The first question is solved by the basis pursuit estimator \(\widehat \beta = \operatorname *{\text{arg min}}_{\beta } \|\beta \|_1\) such that \(Y = \mathbb {X}\beta \). The second question is partially answered in Theorem 6.6 of Chap. 6, as we show that the cone condition \(\mathbb {C}(S)\bigcap \mathrm {Null}(\mathbb {X})=0\) is a sufficient and necessary condition for the perfect recovery of basis pursuit in Theorem 6.6. However, the cone condition is not easy to use in practice. It is not straightforward to construct \(\mathbb {X}\) starting from the cone condition. In this chapter, we will discuss another sufficient condition for perfect recovery, called restricted isometry property, which is stronger but easier to implement. We will talk about how to construct \(\mathbb {X}\) based on this property and answer the third question. -
Chapter 10. Statistical Properties of Lasso
Junwei LuDieses Kapitel vertieft sich in die statistischen Eigenschaften des Lasso-Schätzers, einer Methode zur Schätzung hochdimensionaler linearer Modelle. Es beginnt mit einer Überprüfung des spärlichen linearen Modells und der Einführung des Restricted Eigenvalue (RE), eines entscheidenden Konzepts für das Verständnis von Lassos Leistung. Das Kapitel vergleicht die RE-Bedingung mit der Restricted Isometry Property (RIP), wobei hervorgehoben wird, dass die RE-Bedingung weniger restriktiv und für Lasso besser geeignet ist. Es bietet eine detaillierte Erklärung, warum die RE-Bedingung für die Analyse von Lasso notwendig ist, unterstützt durch visuelle Darstellungen der Landschaft mit den geringsten Quadratverlusten und der Hessischen Matrix. Das Kapitel stellt auch die statistische Rate des Lasso-Schätzers vor und diskutiert, wie die Rate von der Krümmung der Verlustfunktion und der Wahl des Tuning-Parameters abhängt. Es schließt mit einem konkreten Beispiel einer Designmatrix, die die RE-Bedingung erfüllt, und zeigt die praktischen Implikationen der theoretischen Analyse auf.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractIn this chapter, we return to the noisy linear regression. Recall the sparse linear model \(Y = \mathbb {X} \beta ^* + \varepsilon \), where \(\mathbb {X} \in \mathbb {R}^{n\times d}\) and \(\|\beta ^*\|_0 \le s\). We estimate the high-dimensional linear model via the Lasso estimatorIn this chapter, we will study the statistical properties of the Lasso estimator. Like the RIP condition for the basis pursuit, we also need conditions for Lasso.$$\displaystyle \widehat \beta = \operatorname *{\text{arg min}}_{\beta }\frac {1}{2n} \|Y-\mathbb {X}\beta \|_2^2 + \lambda \|\beta \|_1. $$ -
Chapter 11. Variations of Lasso
Junwei LuDieses Kapitel geht den Beschränkungen des Lasso-Schätzers nach und untersucht seine Erweiterungen in der hochdimensionalen Statistik. Zunächst werden die wichtigsten Beschränkungen des Lasso skizziert, einschließlich seiner Beschränkung auf lineare Modelle, Voreingenommenheit und Empfindlichkeit gegenüber Tuning-Parametern. Anschließend werden verschiedene Erweiterungen des Lasso diskutiert, wie das generalisierte Lasso für hochdimensionale Modelle, hochdimensionale Klassifikationsmodelle wie logistische Regression und lineare Diskriminanzanalyse sowie grafische Modelle zur Netzwerkvisualisierung. Außerdem werden innovative Ansätze zur Überwindung von Lassos Voreingenommenheiten und Empfindlichkeiten vorgestellt, darunter adaptives Lasso, SCAD-Strafe und Quadratwurzel-Lasso. Das Kapitel schließt mit einer Diskussion über die Anwendung von Lasso und seine Ausdehnung auf schwertaillierte Geräusche mittels Quantilregression. Während des gesamten Kapitels werden konkrete Beispiele und praktische Anwendungsbeispiele präsentiert, was es zu einer wertvollen Ressource für Fachleute macht, die ihr Verständnis von Lasso und seinen Erweiterungen verbessern wollen.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractIn the previous chapter, we study the high-dimensional linear model \(Y = \mathbb {X}\beta ^* + \epsilon \), with \(\mathbb {X} \in \mathbb {R}^{n \times d}\) and \(\|\beta ^*\|_0\le s\). We propose to estimate \(\beta ^*\) via Lasso estimatorWe consider two assumptions: (1) the design matrix satisfies the restricted eigenvalue condition and (2) the noises \(\varepsilon \) are independent sub-Gaussians with variance proxy \(\sigma ^2\). If we choose \(\lambda = C\sigma \sqrt {\log d/n}\) for some sufficiently large constant C, we show that the Lasso estimator has the statistical rate \(\| \widehat \beta ^{\mathrm {Lasso}} - \beta ^*\|_2 = O_P(\sqrt {s\log d/n})\).$$\displaystyle \widehat \beta ^{\mathrm {Lasso}} = \operatorname *{\text{arg min}}_{\beta } \frac {1}{2n}\|Y - \mathbb {X} \beta \|_2^2 + \lambda \|\beta \|_1. $$
-
-
High-Dimensional Optimization
-
Frontmatter
-
Chapter 12. Convexity and Subgradient
Junwei LuDieses Kapitel taucht ein in die Welt der konvexen Optimierung, einem entscheidenden Konzept zur Lösung hochdimensionaler Optimierungsprobleme. Es beginnt mit der Definition konvexer Mengen und Funktionen, deren Eigenschaften durch geometrische Interpretationen veranschaulicht werden. Das Kapitel führt dann in das Konzept der Subgradienten ein, die für den Umgang mit nicht glatten konvexen Funktionen unverzichtbar sind. Er untersucht die Methoden erster Ordnung, die bei der hochdimensionalen Optimierung besonders effizient sind, weil sie sich auf Gradienten und nicht auf hessische Matrizen stützen. In diesem Kapitel werden auch die optimalen Bedingungen sowohl für uneingeschränkte als auch für eingeschränkte konvexe Optimierungsprobleme diskutiert, wodurch ein klares Verständnis dafür geschaffen wird, wann eine Lösung tatsächlich das globale Minimum darstellt. Darüber hinaus beleuchtet er die praktischen Herausforderungen durch hochdimensionale Daten wie Speicherung und Berechnung und bietet Einblicke, wie diese Herausforderungen effektiv bewältigt werden können. Das Kapitel schließt mit einer Diskussion über die Bedeutung der Konvexität dafür, dass lokale Minima auch globale Minima sind, eine Eigenschaft, die den Optimierungsprozess erheblich vereinfacht.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractFrom the previous chapters, we can see that many estimators can be formulated as an optimization problem. -
Chapter 13. Gradient Descent
Junwei LuDieses Kapitel befasst sich mit dem Design und der Anwendung von Algorithmen für die Abstammung von Gradienten zur Lösung konvexer Optimierungsprobleme. Es beginnt mit dem uneingeschränkten Problem, in dem erklärt wird, wie die steilste Abfahrtsrichtung bestimmt wird und wie der Algorithmus des Gefälleabstiegs die objektive Funktion iterativ minimiert. Das Konzept der L-Glätte wird eingeführt, um gute Konvergenzeigenschaften zu gewährleisten, und die Konvergenzrate des Gefälleabstiegs wird gründlich analysiert. Das Kapitel erstreckt sich dann auf eingeschränkte Probleme und führt den Frank-Wolfe-Algorithmus ein, der sicherstellt, dass die Lösung innerhalb des Machbaren bleibt. Praxisbeispiele wie die Potenzialiteration zur Ermittlung des führenden Eigenvektors einer Matrix und das beschränkte Lasso-Problem veranschaulichen die Anwendung dieser Algorithmen. Schließlich wird in diesem Kapitel der beschleunigte Gefälleabstieg untersucht, der die Geschichte des Weges ausnutzt, um eine schnellere Konvergenz zu erreichen. Der Algorithmus des beschleunigten Gefälleabstiegs wird mit dem herkömmlichen Gefälleabstieg verglichen, was seine Vorteile und die Bedingungen hervorhebt, unter denen er die traditionelle Methode übertrifft. Während des gesamten Kapitels vermitteln detaillierte Beweise und visuelle Hilfsmittel ein umfassendes Verständnis des Verhaltens und der Konvergenzeigenschaften der Algorithmen.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractIn this chapter, we will start designing algorithms to solve the convex optimizationOur goal is to find the minimizer \(x^* = \operatorname *{\text{arg min}}_{x\in {M}}f(x)\). Let us start with the unconstrained problem first with \({M} = \mathbb {R}^d\). If we start our search for \(x^*\) at some value \(x_0\), we aim to move to the next point such that the value of \(f(x)\) becomes smaller.$$\displaystyle \min _{x \in {\mathcal X}} f(x), \text{ where }f\text{ and }{M}\text{ are convex}. $$ -
Chapter 14. Proximal Gradient Descent
Junwei LuDieses Kapitel befasst sich mit dem Algorithmus des proximalen Gradientenabstiegs, einem leistungsstarken Werkzeug zur Optimierung zusammengesetzter Verlustfunktionen. Es beginnt damit, den Algorithmus für die Absenkung des Gefälles und seine Konvergenzraten für reibungslose objektive Funktionen erneut zu untersuchen. Der Fokus verlagert sich dann auf den Umgang mit nicht glatten Strafzeiten, wie sie bei hochdimensionalen M-Schätzern wie Lasso üblich sind. Der Algorithmus des proximalen Gradientenabstiegs wird als Lösung eingeführt, um trotz der Unglätte der Objektivfunktion schnelle Konvergenzraten aufrechtzuerhalten. Das Kapitel bietet eine neue Perspektive auf den Abstieg des Gefälles und sieht darin eine Minimierung einer lokalen quadratischen Annäherung an die objektive Funktion. Anschließend modifiziert es diese Perspektive, um daraus den Algorithmus für den proximalen Gradienten-Abstieg abzuleiten. Zur Veranschaulichung der Anwendung des Algorithmus werden praktische Beispiele wie eingeschränkte Optimierung und Lasso bereitgestellt. In diesem Kapitel wird auch der Algorithmus des beschleunigten proximalen Gradientenabstiegs untersucht, der Nesterovs Beschleunigungsidee mit dem proximalen Gradientenabstieg kombiniert. Die Konvergenzraten dieser Algorithmen werden gründlich analysiert und Beweise für die theoretischen Behauptungen vorgelegt. Das Kapitel schließt mit einer Diskussion über die Lyapunov-Funktion, die verwendet wird, um die Konvergenzrate des beschleunigten Proximalgradientenabstiegsalgorithmus zu beweisen.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractIn the previous chapter, we introduce the gradient descent and accelerated gradient algorithm to solve the unconstrained optimization. We show the convergence rates of these two algorithms when the objective function is smooth. However, in Lasso \(\min _{\beta } \frac {1}{2}\|Y - \mathbb {X}\beta \|_2^2 + \lambda \|\beta \|_1\), the \(\ell _1\)-norm penalty term is not smooth. -
Chapter 15. Mirror Descent
Junwei LuDieses Kapitel taucht in die Welt der Optimierungsalgorithmen ein und konzentriert sich auf Mirror Descent und Bregman Divergence. Es beginnt mit der Einführung der proximalen Perspektive des Gefälleabstiegs und des Konzepts der Bregman-Divergenz, das eine Verallgemeinerung der quadratischen Norm darstellt. Der Text erklärt, wie Bregman Divergence zu effizienteren Algorithmen führen kann, indem es die Geometrie des Problems besser anpasst. Außerdem wird der Mirror Descent Algorithmus diskutiert, der Bregman Divergence im proximalen Term verwendet, und mit anderen Algorithmen wie dem Frank-Wolfe Algorithmus und Projected Gradient Descent verglichen. Das Kapitel bietet praktische Beispiele, wie die Wahrscheinlichkeitsvereinfachung, um zu veranschaulichen, wie man die richtige Bregman-Divergenz unter bestimmten Einschränkungen auswählt. Darüber hinaus wird Nesterovs Smoothing erforscht, eine Technik zur Annäherung von nicht glatten Funktionen an glatte Funktionen, und ihre Anwendung bei Optimierungsproblemen diskutiert. Der Text schließt mit einem Theorem, das die Konvergenzrate anhand von Nesterovs Glättungsidee zeigt. Während des gesamten Kapitels verwendet der Text klare Erklärungen und Visualisierungen, um komplexe Konzepte verständlicher zu machen.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractIn the previous chapter, we introduce the proximal perspective of the gradient descent. -
Chapter 16. Duality and ADMM
Junwei LuDieses Kapitel vertieft das Konzept der Dualität in der Optimierung und ihre Anwendung zur Lösung zusammengesetzter objektiver Funktionen. Es beginnt damit, die Dualität zu überprüfen, ihre Bedeutung für die Umwandlung von Urproblemen in duale Probleme hervorzuheben und dies mit dem Lasso-Problem zu veranschaulichen. Das Kapitel stellt dann die Alternating Direction Method of Multiplikators (ADMM) vor, einen leistungsstarken Algorithmus zur Lösung von Problemen bei der Kompositoptimierung. Es demonstriert die Anwendung von ADMM auf verschiedene Probleme, einschließlich des verschmolzenen Lassos, des graphischen Lassos und der Konsensoptimierung für massive Daten. Das Kapitel schließt mit einer Diskussion über die verteilte Natur von ADMM, was es zu einem wertvollen Werkzeug für groß angelegte Optimierungsaufgaben macht. Die Leser erhalten Einblicke in die Macht der Dualität und des ADMM und wie diese Methoden zur effizienten Lösung komplexer Optimierungsprobleme eingesetzt werden können.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractIn the previous chapters, we introduce the proximal gradient descent to solve the optimization problem \(\min _x f(x) + g(x)\), where f is smooth but g is not differentiable.
-
-
High-Dimensional Inference
-
Frontmatter
-
Chapter 17. High Dimensional Inference
Junwei LuDieses Kapitel vertieft sich in die Feinheiten hochdimensionaler statistischer Schlussfolgerungen und konzentriert sich auf Schätzungs- und Folgerungsprobleme. Es beginnt mit der Einführung der wichtigsten Ziele der Schätzung, wie Schätzer zu finden und ihre Konvergenzraten zu verstehen. Der Text wechselt dann zu Schlussfolgerungen und betont die Bedeutung von Unsicherheitsbeurteilung, Konfidenzintervallen und Hypothesentests. Ein wesentlicher Teil des Kapitels ist der hochdimensionalen Folgerung gewidmet, bei der die interessanten Parameter typischerweise größer sind als die Stichprobengrößen. Das Kapitel behandelt die Herausforderungen bei der Prüfung mehrerer Hypothesen, die familiäre Fehlerquote und die falsche Entdeckungsrate. Außerdem werden wichtige theoretische Ergebnisse wie der zentrale Grenzwertsatz und Slutskys Satz überprüft, die für das Verständnis der asymptotischen Normalität kleinster Quadrate von entscheidender Bedeutung sind. Das Kapitel schließt mit einer detaillierten Ableitung der asymptotischen Normalität für gewöhnliche Kleinstquadrate, die einen umfassenden Überblick über das Thema bietet.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractWe start the part of high-dimensional inference by introducing the problems in statistical inference. Given the statistical model \(\{\mathbb {P}_{\theta }|\theta \in \Theta \}\), we observe \(X_1,\ldots ,X_n \stackrel {iid}{\sim } \mathbb {P}_{\theta ^*}\) where \(\theta ^*\) is the truth. Here are the major goals to estimation and inference. -
Chapter 18. Debiased Lasso
Junwei LuDieses Kapitel befasst sich mit der unvoreingenommenen Lasso-Methode zur Durchführung von Schlussfolgerungen in hochdimensionalen linearen Modellen. Es beginnt damit, Konfidenzintervalle für den Lasso-Schätzer abzuleiten und ihn in eine Voreingenommenheit, einen Leitbegriff und einen Restbegriff zu zerlegen. Der Text beweist dann die asymptotische Normalität des unvoreingenommenen Lasso und zeigt, dass der Schätzer unter bestimmten Bedingungen in der Verteilung auf eine Normalverteilung konvergiert. Das Kapitel untersucht auch die Machbarkeit des CLIME-Schätzers und seine Rolle bei der Erfüllung der notwendigen Bedingungen für das unvoreingenommene Lasso. Darüber hinaus verallgemeinert er die Entbehrungsmethode auf allgemeine hochdimensionale M-Schätzer und diskutiert die Annahmen, die für eine asymptotische Normalität erforderlich sind. Das Kapitel schließt mit einem Vergleich zwischen Lasso und unvoreingenommenem Lasso, wobei die stärkeren Annahmen hervorgehoben werden, die für letzteres erforderlich sind. Diese detaillierte Untersuchung bietet wertvolle Einblicke in die unvoreingenommene Lasso-Methode und ihre Anwendung in der statistischen Schlussfolgerung.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractIn this chapter, we aim to conduct inference for high-dimensional linear model. Recall the sparse linear model \(Y = \mathbb {X} \beta ^* + \varepsilon \), where \(\mathbb {X} \in \mathbb {R}^{n\times d}\) and \(\|\beta ^*\|_0 \le s\). -
Chapter 19. Multiple Hypotheses
Junwei LuDieses Kapitel vertieft sich in die Feinheiten konformer Schlussfolgerungen und der Prüfung mehrerer Hypothesen und bietet einen soliden Rahmen für den Aufbau von Vertrauensintervallen, ohne sich auf unnötige Annahmen zu verlassen. Der Text beginnt mit der Erläuterung des Konzepts der konformen Folgerung, das darauf abzielt, Konfidenzintervalle für Vorhersagen mittels i.i.d. zu konstruieren. Zufallspaare. Sie unterstreicht die Bedeutung der Symmetrie und der gleichmäßigen Verteilung bei der Konstruktion dieser Intervalle, was letztlich zu einer Methode führt, die eine Überanpassung vermeidet und auf komplexere Rahmenwerke verallgemeinert werden kann. Anschließend verlagert das Kapitel seinen Schwerpunkt auf die Prüfung mehrerer Hypothesen, insbesondere in Szenarien, in denen die Anzahl der Hypothesen N sehr hoch sein kann, wie etwa in genomweiten Assoziationsstudien (GWAS). Er diskutiert die Herausforderungen bei der Steuerung der familiären Fehlerquote (FWER) und führt die Bonferroni-Korrektur ein, die zwar konservativ ist, aber eine einfache Methode zur Steuerung der FWER bietet. Der Text untersucht auch die maximale Statistik als Alternative zur Bonferroni-Korrektur und bietet eine effizientere Möglichkeit, p-Werte zu nutzen und FWER zu steuern. Das Kapitel schließt mit einer Beschreibung der nächsten Schritte bei der Schätzung des Quantitats maximaler Statistiken, die die Voraussetzungen für weitere Fortschritte in diesem Bereich schaffen. Während des gesamten Kapitels bietet der Text einen detaillierten und praktischen Ansatz zu diesen statistischen Methoden, was ihn zu einer unschätzbaren Ressource für Fachleute macht, die ihr Verständnis konformer Schlussfolgerungen und der Prüfung mehrerer Hypothesen verbessern wollen.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractThe conformal inference aims to build confidence intervals for predictions without any unnecessary assumptions, especially those about models. -
Chapter 20. False Discovery Rate
Junwei LuIn diesem Kapitel werden ausgeklügelte statistische Techniken zur Steuerung falscher Entdeckungsraten (FDR) und familienweiser Fehlerquoten (FWER) bei Hypothesentests untersucht. Es beginnt mit der Diskussion der Bootstrap-Methode des Gaußschen Multiplikators, die verwendet wird, um das Quantil der maximalen Statistik abzuschätzen, insbesondere wenn Statistiken abhängig und nur asymptotisch normal sind. Das Kapitel enthält ein detailliertes Verfahren zur Schätzung des Quantils der maximalen Statistik, einschließlich der Behandlung von Fällen, in denen die Kovarianzmatrix unbekannt ist. Darüber hinaus wird das Benjamin-Hochberg-Verfahren zur Kontrolle der falschen Entdeckungsrate untersucht, insbesondere wenn die p-Werte unabhängig sind. Das Kapitel enthält einen Beweis, der die Effektivität des Benjamin-Hochberg-Verfahrens bei der Kontrolle von FDR demonstriert. Überall bietet der Text praktische Beispiele und theoretische Einsichten, was ihn zu einem umfassenden Leitfaden für Fachleute macht, die ihre statistischen Analysefähigkeiten verfeinern wollen.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractWe will continue the discussion on control family-wise error rate via the maximal statistic. Given hypotheses \(\{ H_{0i} \}_{i=1}^N\), for each \(H_{0j}\), we have a statistic \(T_j\) such that for a single hypothesis, we will reject \(H_{0j}\) if \(T_j \ge q_{\alpha }\) where \(q_{\alpha } = \operatorname *{\text{arg min}}_t\mathbb {P}_{H_0}(|T_j|>t) \le \alpha \). -
Chapter 21. Knock-Off
Junwei LuDieses Kapitel geht der schwierigen Aufgabe nach, die falsche Entdeckungsrate (FDR) zu kontrollieren, wenn es um abhängige p-Werte bei der Prüfung statistischer Hypothesen geht. Es beginnt damit, die Definition von FDR und den Fall unabhängiger p-Werte erneut zu untersuchen, bevor es sich dem komplexeren Szenario abhängiger p-Werte zuwendet. Der Text stellt ein Rahmenwerk zur Auswahl von Merkmalen im Zusammenhang mit einer Antwortvariable wie Phänotypen oder SNPs vor und diskutiert den Einsatz von Permutationstests zur Kontrolle des FDR. Sie unterstreicht jedoch die Beschränkungen von Permutationstests anhand eines Gegenbeispiels und schlägt den Knock-off-Ansatz als Alternative vor. Bei der Knock-off-Methode werden Dummy-Variablen konstruiert und ein Knock-off-Score mit bestimmten Eigenschaften definiert. Das Kapitel bietet eine detaillierte Beschreibung des Knock-off-Verfahrens, einschließlich eines Nachweises seiner Gültigkeit anhand von Martyrien und des optimalen Stopptheorems. Er diskutiert auch die Einschätzung des Anteils der Falschentdeckungen und die Bedingungen, unter denen das Knock-off-Verfahren wirksam ist. Das Kapitel schließt mit einer Diskussion der Vorteile des Knock-off-Ansatzes und seiner potenziellen Anwendung in verschiedenen Bereichen.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractWe will continue the discussion of controlling the false discovery rate (FDR). When testing null hypotheses \(\{H_{0j}\}_{j=1}^d\), recall that the FDR is defined asIn the previous chapter, we discussed the case where the p-values corresponding to the \(\{H_{0j}\}_{j=1}^d\) were independent. Here, we consider the more challenging case where the p-values are dependent.$$\displaystyle \text{FDR} = \mathbb {E} \bigg ( \frac {\# \text{False Positives}}{\# \text{Rejected Hypotheses}} \bigg ). $$
-
-
Backmatter
- Titel
- Big Data Analysis
- Verfasst von
-
Junwei Lu
- Copyright-Jahr
- 2025
- Verlag
- Springer Nature Switzerland
- Electronic ISBN
- 978-3-032-03161-7
- Print ISBN
- 978-3-032-03160-0
- DOI
- https://doi.org/10.1007/978-3-032-03161-7
Die PDF-Dateien dieses Buches wurden gemäß dem PDF/UA-1-Standard erstellt, um die Barrierefreiheit zu verbessern. Dazu gehören Bildschirmlesegeräte, beschriebene nicht-textuelle Inhalte (Bilder, Grafiken), Lesezeichen für eine einfache Navigation, tastaturfreundliche Links und Formulare sowie durchsuchbarer und auswählbarer Text. Wir sind uns der Bedeutung von Barrierefreiheit bewusst und freuen uns über Anfragen zur Barrierefreiheit unserer Produkte. Bei Fragen oder Bedarf an Barrierefreiheit kontaktieren Sie uns bitte unter accessibilitysupport@springernature.com.