Skip to main content
main-content

Über dieses Buch

Dieses Buch erläutert, wie Informationen automatisch aus Bildern extrahiert werden. Mit dieser sehr aktuellen Frage beschäftigt sich das Buch mittels eines Streifzuges durch die Bildverarbeitung. Dabei werden sowohl die mathematischen Grundlagen vieler Verfahren der 2D- und 3D-Bildanalyse vermittelt als auch deren Nutzen anhand von Problemstellungen aus vielen Bereichen (Medizin, industrielle Bildverarbeitung, Objekterkennung) erläutert. Das Buch eignet sich sowohl für Studierende der Informatik, Mathematik und Ingenieurwissenschaften als auch für Anwender aus der industriellen Bildverarbeitung.

Inhaltsverzeichnis

Frontmatter

2D-Bildverarbeitung

Frontmatter

1. Elementare Grundlagen

Zusammenfassung
In den folgenden Abschnitten werden elementare Grundlagen und Probleme der 2D-Bildverarbeitung angesprochen. Von den Autoren erfolgte dabei die Auswahl der Probleme subjektiv und erhebt nicht den Anspruch irgendeiner Vollständigkeit. Ziel dieser Abschnitte ist es zu erkennen, wo die wesentlichen Unterschiede zwischen „analoger“ und „digitaler“ Bildverarbeitung liegen.
Herbert Süße, Erik Rodner

2. Die Operationen Faltung und Korrelation

Zusammenfassung
Die Operationen Faltung und Korrelation sind in vielen Wissenschaften bekannte und weit verbreitete Operationen. Die Korrelation ist in der Stochastik, Physik, Bildverarbeitung, Signaltheorie usw. eine weit verbreitete Operation, während die Faltung typischerweise in der Siganltheorie angesiedelt ist. Die Korrelation ist auf die Faltung zurückführbar, sodass vom mathematischen Standpunkt aus die Faltung als Operation ausreichen würde. Während die Faltung alle „schönen“ algebraischen Eigenschaften besitzt, hat die Korrelation kaum „vernünftige“ algebraische Eigenschaften, sie ist nicht einmal assoziativ. Da sie aber große Bedeutung in Anwendungen hat, ist es besser sie direkt zu benutzen als sie auf die Faltung zurückzuführen. In der Bildverarbeitung wird die Faltung häufig mit linearen Filtern identifiziert. Dies ist natürlich nicht ausreichend. Zusätzlich werden in diesem Zusammenhang oft nicht ganz korrekte Formulierungen verwendet. So ist die Aussage: „Lineare Filter werden durch eine Faltung beschrieben“ falsch. Die Faltung ist eine lineare Operation, aber zusätzlich noch verschiebungsinvariant. Daher ist richtig: die Faltung beschreibt ein lineares Filter, aber nicht jdes lineare Filter wird durch eine Faltung beschrieben.
Erik Rodner, Herbert Süße

3. Bildtransformationen

Zusammenfassung
Das Wort Fouriertransformation(en) werden wir im Folgenden mit FT abkürzen, sie ist benannt nach dem französischen Mathematiker Jean Baptiste Joseph Fourier (1768–1830). In Abhängigkeit vom verwendeten Bildmodell gibt es vier FT, unterscheidet man noch eine oder mehrere unabhängige Veränderliche, so erhöht sich dies noch. Wir werden stets die komplexe Schreibweise der FT benutzen, da sich dadurch viele Eigenschaften elegant und kompakt formulieren lassen, gleichzeitig erweitern wir die Anwendbarkeit auf komplexwertige Funktionen. Komplexwertige Funktionen werden wir insbesondere bei Konturen verwenden. Um die komplexe Schreibweise besser zu verstehen, ist die Eulersche Formel eigentlich die Grundlage, siehe (). Die folgenden Ausführungen dienen dazu, bekannte mathematische Grundlagen aufzuschreiben, die wir im Folgenden benötigen. Wir betrachten einen linearen Raum H mit einem komplexwertigen Skalarprodukt:
$$\displaystyle\langle a,b\rangle,\quad a,b\in H\colon$$
(3.1)
Bekannte Beispiele für Skalarprodukte sind:Wenn ein Skalarprodukt ist, dann ist auch ein Skalarprodukt. Normen von Elementen aus kann man viele angeben, aber eine wichtige Norm wird durch das Skalarprodukt induziert. Zwei Vektoren heißen orthogonal, wenn erfüllt ist. Der nächste wichtige Begriff ist der einer Basis des Raumes. Wir nennen die Menge eine Basis, wenn durch sie der ganze Raum aufgespannt wird. Die orthogonalen Basen spielen dabei die zentrale Rolle, weil bei diesen vieles einfacher wird. Die Basis heißt orthogonal, wenn gilt, wobei der Einheitsimpuls ist. Wir entwickeln einmal ein Element nach einer endlichen, orthonormalen Basis dann können wir die Koeffizienten sofort mit den Rechenregeln des Skalarproduktes angeben: Die Koeffizienten nennt man verallgemeinerte Fourierkoeffizienten, die Entwicklung nach der Basis ist dann die verallgemeinerte inverse Fouriertransformation. Nun bilden wir das Skalarprodukt von mit sich selbst: und erhalten die Grundgleichung welche als bezeichnet wird. Oft wird diese auch genannt, im Prinzip stellt sie die abstrakte Verallgemeinerung des Satzes des Pythagoras im rechtwinkligen Dreieck dar. Wenn keine besonderen Bemerkungen angebracht werden, dann gelten prinzipielle Aussagen für alle Bildmodelle, manchmal gibt es aber kleine Unterschiede, nehmen wir einmal Modell. Die Basisfunktionen fassen wir als Spaltenvektoren auf und schreiben sie in eine Matrix . Ebenso fassen wir alle Koefiizienten als Elemente eine Spaltenvektors auf, ebenso die Elemente als Spaltenvektor. Dann können wir schreiben: Wir können also für das Modell die Hin-und Rücktransformation kompakt in Matrixschreibweise notieren, wobei eine Matrix ist. Alle bisherigen Ausführungen gelten auch für unendlichdimensionale, orthogonale Basen, d. h. abzählbar viele Basiselemente. Nun kann man dies speziell für analoge Funktionen weitertreiben für überabzählbar viele Basisfunktionen, das -te Baisiselement wird zum τ-ten Basiselement: Die Summe wird zum Integral, so dass wir formal erhalten: Die Basisfunktionen nennt man dann oder. Die Koeffizienten erhalten wir dann wieder durch Analogiebetrachtungen: Die Koeffizienten nennt man nun bezüglich des Transformationskernes oder der stetigen (überabzählbaren) Basis .
Herbert Süße, Erik Rodner

4. Grundlegende Eigenschaften der Fouriertransformation

Zusammenfassung
In den folgenden Abschnitten sollen wesentliche Eigenschaften der Fouriertransformation nicht nur dargestellt werden, sondern wie sie insbesondere für die Bildverarbeitung nutzbringend verwendet werden können. Dabei werden generelle Eigenschaften für alle Typen der Fouriertransformation denjenigen Eigenschaften gegenübergestellt, die nur für spezielle Typen der Fouriertransformation gelten.
Herbert Süße, Erik Rodner

5. Abtasttheoreme

Zusammenfassung
In den folgenden Abschnitten soll das Abtastheorem hergeleitet und interpretiert werden. Eine verbale Einführung dazu gab es im Abschn. 1.1. Je nach Bildmodell gibt es ein Abtastheorem für Funktionen im endlichen Intervall oder im unendlichen Intervall. Die Herleitung unterscheidet sich nur durch die Art der verwendeten Mathematik, üblicherweise wird dies fast ausschließlich im unendlichen Intervall getan, dabei braucht man aber uneigentliche Integrale und Reihen. Viel einfacher ist die Mathematik im endlichen Intervall. Das mathematische Ergebnis kann demnach nicht formal gleich sein, die Interpretation ist aber dieselbe.
Herbert Süße, Erik Rodner

6. Orts-Frequenz-Darstellungen

Zusammenfassung
In der Siganlanalyse und Nachrichtentechnik wird theoretisch immer eine Funktion \(f(t)\) bezüglich des Modells A1\([-\infty,+\infty]\) betrachtet. Dies entspricht aber nie der Realität. In der Realität haben wir nur ein endliches Intervall zur Verfügung, außerhalb dieses Intervalles setzen wir die Funktion zu Null und erhalten damit eine Funktion \(f^{\prime}(t)\). Es soll aber vom Spektrum der Funktion \(f^{\prime}(t)\) auf das Spektrum von \(f(t)\) geschlossen werden. Ist dies überhaupt möglich? Die Funktion \(f^{\prime}(t)\) ergibt sich als Multiplikation von \(f(t)\) mit der Rechteckfunktion \(\text{rect}(a\cdot t)\). Nach dem Faltungstheorem gilt dann:
$$\displaystyle\alpha_{f^{\prime}(t)}(\nu)=\alpha_{f(t)\cdot\text{rect}(a\cdot t)}(\nu)=C\cdot\alpha_{f(t)}(\nu)*\alpha_{\text{rect}(a\cdot t)}(\nu).$$
(6.1)
Das Spektrum von \(f(t)\) wird also durch eine Faltung mit dem Spektrum der Fenster-Funktion „verschmiert“. Nun kann man statt der Rechteckfunktion eine andere Fenster-Funktion \(g(t)\) wählen, so dass diese „Verschmierung“ irgendeinem Zielkriterium unterworfen wird. Dazu betrachtet man das Leistungsspektrum \(|\alpha_{g}(t)|^{2}\) der Fensterfunktion \(g(t)\). Diese Leistungsspektren besitzen einen zentralen Peak und viele Nebenmaxima, die man als „Seitenkeulen“ (side lobes) bezeichnet. Die „Verschmierung“ ist sicher minimal, wenn man diese Seitenkeulen möglichst klein hält und gleichzeitig der zentrale Peak möglichst schnell abfällt. Dazu wird oft die Maßeinheit Dezibel benutzt:
$$\displaystyle\mathrm{dB}=10\cdot\log_{10}x.$$
(6.2)
Es bedarf in der konkreten Anwendung immer einer Erklärung, was für ein Verhältnis darstellt. Nun chrakterisiert man z. B. die Fensterfunktionen durch das Verhältnis der Höhe des ersten (größten) Nebenmaximums zur Höhe des zentralen Peaks und gibt diese Größe für die meisten Fensterfunktionen in (dB) an. Diese Größe sollte also möglichst groß sein. So ist sie z. B. für das Rechteckfenster gleich . Das Minus bedeutet nur, dass man eine Dämpfung meint und keine Verstärkung. Als eine weitere Größe dient die Bandbreite. Man definiert aber in diesem Zusammenhang eine spezielle Bandbreite, z. B. die berühmte Bandbreite , d. h. wann der zentrale Peak im Leistungsspektrum auf die Hälfte abgefallen ist. Diese Größe sollte möglichst klein sein. Auf diese Größen hin sind viele Fensterfunktionen untersucht worden, siehe z. B. . Die bekanntesten Fensterfunktionen sind :Bezüglich der beiden oben aufgeführten charakteristischen Größen des Leistungsspektrums der Fenster-Funktionen ist das Rechteck-Fenster das „schlechteste“ Fenster, und das Kaiser-Bessel-Fenster ist das „beste“ Fenster.
Herbert Süße, Erik Rodner

7. Filterentwurf im Frequenzraum

Zusammenfassung
Vom Gibbsschen Phänomen kennen wir schon den Begriff „idealer Tiefpass“. Dort haben wir bemerkt, dass beim idealen Tiefpass „Ringing-Artefakte“ in der Nähe von Kanten entstehen. Daher ist ein idealer Tiefpass im Sinne der Datenkompression überhaupt nicht ideal. Idealer Tiefpass heißt nun, wir multiplizieren die Fourierkoeffizienten eines Bildes mit der Rechteckfunktion. Wir schreiben dies einmal für das Modell \(A1[X]\) auf:
$$\displaystyle\alpha_{k}=\begin{cases}1&|k|\leq n\\ 0&\text{sonst}.\end{cases}$$
(7.1)
Durch die Multiplikation im Frequenzraum haben wir im Ortsraum eine Faltung des Bildes \(f(x)\) mit der Funktion \(h(x)\), deren Fouriertransformierte die Rechteckfunktion darstellt. Daher transformieren wir nun die Rechteckfunktion zurück:
$$\sqrt{X}\cdot h(x) =D_{n}(x)=\sum_{k=-n}^{n}1\cdot e^{+2\pi ik\frac{x}{X}}=1+2\cdot\sum_{k=1}^{n}\cos\left(2\pi k\frac{x}{X}\right)$$
$$ =\begin{cases}\frac{\sin((2n+1)\pi\frac{x}{X})}{\sin(\pi\frac{x}{X})}&x\neq l\cdot X\\ 2n+1&x=l\cdot X.\end{cases}$$
(7.2)
Herbert Süße, Erik Rodner

8. Filter im Ortsraum

Zusammenfassung
Im folgenden Kapitel werden wir uns mit dem Filtern direkt im Ortsraum beschäftigen und typische lineare aber auch nichtlineare Filter kennenlernen. Weiterhin werden wir die Vorteile von Richtungsfiltern aufzeigen.
Herbert Süße, Erik Rodner

9. Stochastische Bildsignale

Zusammenfassung
Da man Grauwerte \(x_{i,j}\) als Realisierungen von Zufallsvariablen \(X_{i,j}\) auffassen kann, kann man sich auch der Methoden der Stochastik bedienen. In diesem Sinne wird ein zweidimensionales Bild \(\mathbf{X}\) als stochastisches Feld (random field) bezeichnet. In der Regel brauchen wir dann noch ein Wahrscheinlichkeitsmaß, entweder \(P(\mathbf{X}=\mathbf{x})\) für diskrete Zufallsvariable oder eine Dichtefunktion \(f(\mathbf{x})\) für stetige Zufallsvariable. Das Hauptproblem liegt in Folgendem: wenn nur ein konkretes Bild gegeben ist, dann haben wir für das stochastische Feld nur eine Realisierung und mit einer Realisierung kann man in der Statistik ohne weitere Annahmen kaum etwas anfangen. Folglich reduziert man die Anzahl der Zufallsvariablen und gewinnt bei einem Bild immer mehr Realisierungen. Man nennt dies dann Statistik n-ter Ordnung, wobei n die Anzahl der Zufallsvariablen darstellt. Im Extremfall sind alle Grauwerte eines Bildes Realisierungen einer einzigen (n = 1) Zufallsvariablen X. Das Grauwerthistogramm des Bildes beschreibt dann die Verteilung dieser einzigen Zufallsvariablen und wird Statistik erster Ordnung genannt.
Herbert Süße, Erik Rodner

10. Bildsegmentierung

Zusammenfassung
Die Bildsegmentierung ist wohl eines der wichtigsten Gebiete der Bildverarbeitung. Wenn Bilder analysiert bzw. Szenen klassifiziert werden, setzt das in der Regel eine korrekte Segmentierung voraus. Klassische Bildverarbeitungsalgorithmen laufen oft in folgenden Schritten ab:
a)
Daten- oder Bildeingabe,
 
b)
Vorverarbeitung der Bilder mit Bildverbesserungsalgorithmen, z. B. diverse Filter zur Rauschunterdrückung, Filter zur Beleuchtungskorrektur, Verstärkung gewisser Eigenschaften, Detektion von „interessierenden“ Pixeln und vieles mehr,
 
c)
Segmentierung der Bilder in Regionen, Objekte mit geschlossenen Konturen oder Liniensegmente.
 
d)
Klassifikation und/oder Analyse der segmentierten Regionen, Objekte oder Liniensegmente.
 
e)
„Ausgabe“ der Analyseergebnisse.
 
Die Trennung der Segmentierung (Punkt c) von der anschließenden Klassifikation (Punkt d) ist genaugenommen so streng gar nicht möglich. Bei der Segmentierung klassifiziert man gewöhnlich schon etwas, ohne sich dessen bewusst zu sein.
Herbert Süße, Erik Rodner

11. Farbbildverarbeitung

Zusammenfassung
Oft werden in der Bildverarbeitung nur Grauwertbilder betrachtet. Mit der Entwicklung billiger Farbkameras ist es heute üblich auch Farbbilder zu betrachten, da die Farbe zusätzliche Informationen liefert. In diesem Zusammenhang hat sich der Begriff Color Vision herausgebildet. Im Zusammenhang mit Farben treten eine Menge von elementaren Grundbegriffen auf. Oft spricht man von Rot, Grün- und Blauauszügen, damit meint man eigentlich schon das RGB-Farbmodell. Es werden folglich drei Kanäle für ein Farbbild benötigt, d. h. pro Pixel benötigt man drei „Grautöne“. Dies ergibt mathematisch pro Pixel einen dreidimensionalen Vektor, folglich ist ein Farbbild ein Vektorfeld und man kann sich der Methoden aus der Vektoranalysis bedienen. Weiterhin kann man ein Farbbild als spezielles mehrkanaliges Bild auffassen, wobei für die Anzahl der Kanäle n = 3 gilt. Es gibt auch tatsächlich Multispektralkameras, die Bilder mit n > 3 liefern. Häufig wird auch der Begriff Echtfarbendarstellung benutzt. In der Computergrafik wird dieser Begriff benutzt, wenn pro Pixel 24 Bit zur Verfügung stehen, damit sind ca. 16 Millionen Farben darstellbar, und zwar alle, die das menschliche Auge unterscheiden kann. Ein Falschfarbenbild entspricht im Wesentlichen einem Echtfarbenbild, jedoch mit dem Unterschied, dass dem Rot-, Grün- und Blaukanal beliebige Wellenbereiche zugeordnet werden. Ein Pseudofarbbild ist dagegen etwas völlig anderes. Hier haben wir ein Grautonbild zur Verfügung, bei dem bestimmte Pixel oder Grauwerte künstlich eingefärbt werden, z. B. durch setzen von Farbtabellen. Diese Pseudofarbbilder treten häufig im Zusammenhang mit -Bildern oder Markierungsbildern auf. Diese Markierungsbilder haben zwei Funktionen:
Herbert Süße, Erik Rodner

12. Texturen

Zusammenfassung
Textur ist ein Begriff, den man den Eigenschaften der Oberfläche eines Objektes zuschreibt. Dieser Begriff ist nicht klar mathematisch definierbar, aber man hat intuitiv eine Vorstellung von einer Textur. Eine Textur kann aus Texturprimitiva oder Texturelementen zusammengesetzt sein, oft auch Texel genannt. Viele Beispiele für Texturen findet man im Brodatz-Album . Eine Texturbeschreibung ist auf jeden Fall skalenabhängig. Vergrößern wir z. B. eine Textur so, dass im Ausschnitt nur noch ein Texel zu sehen ist, dann würden wir dies nicht mehr als Textur bezeichnen. Verkleinern wir dagegen die Textur extrem, dass die Texel kaum noch aufgelöst werden, haben wir den Eindruck eines verrauschten Bildes. Verrauschten Bildern ordnen wir aber intuitiv keine Textur mehr zu. Texturen aus Texeln sind strukturierte, geordnete Texturen. Außerdem gibt es noch stochastische Texturen. Diese sind irregulär, aber dennoch visuell homogen. Hauptziele in der Bildverabeitung von Texturen sind:Umgangssprachlich ordnet man Texturen Eigenschaften zu wie: körnig, glatt, länglich, fein usw. Mit diesen Eigenschaften können wir aber algorithmisch nichts anfangen. Zur Texturbeschreibung gibt es im Wesentlichen drei Zugänge:Im Folgenden soll aber nur auf elementare statistische Merkmale eingegangen werden. Zusätzlich werden wir autoregressive Prozesse vorstellen, weil man damit synthetische Texturen generieren kann.
Herbert Süße, Erik Rodner

3D-Bildverarbeitung

Frontmatter

13. 3D-Geometrie

Zusammenfassung
Im folgenden Kapitel werden wir einige Basiskonzepte der 3D-Geometrie vorstellen, welche für die nachfolgenden Verfahren der 3D-Rekonstruktion wesentlich sind. Vorgestellt werden die notwendigen Werkzeuge zur Modellierung von projektiven Transformationen und Rotationen mittels homogener Koordinaten und Quaternionen.
Herbert Süße, Erik Rodner

14. Geometrie der Abbildungsprozesse

Zusammenfassung
Alle Modellvorstellungen über eine sinnvolle 3D \(\rightarrow\) 2D Abbildung werden als Kameramodelle bezeichnet. Es bezeichne \({\mathbf{x}}_{W}=(x_{W},y_{W},z_{W})^{T}\) einen Punkt in einem Weltkoordinatensystem. Weiterhin sei \({\mathbf{x}}_{K}=(x_{K},y_{K},z_{K})^{T}\) ein Punkt in einem 3D-Kamera-Koordinatensystem, wobei stets die z K -Achse senkrecht zur eigentlichen \((u,v)\)-Bildebene sei. Die Transformation vom Weltkoordinatensystem in das Kamerakoordinatensystem geschieht stets durch eine 3D \(\rightarrow\) 3D Bewegung, also durch eine Rotation (Rotationsmatrix \({\mathbf{R}}\)) und eine Translation \({\mathbf{t}}\). Der Sinn dieser Bewegung besteht darin: Die eigentlichen Abbildungsgleichungen sollen in einem festen Kamerakoordinatensystem beschrieben werden. Dazu benötigen wir die Koordinaten eines realen, abzubildenden Punktes in diesem Kamerakoordinatensystem. Dies ist aber in der Regel nicht möglich, sondern der abzubildende Punkt wird in einem völlig anderen Bezugssystem dargestellt, dem Weltkoordinatensystem. Daher müssen wir jetzt die Koordinaten umrechnen und dies geschieht durch Bewegung des Koordinatensystems. Die Rotation verlangt drei Parameter und die Translation ebenfalls drei Parameter. Diese sechs Parameter werden als Parameter der äußeren Orientierung einer Kamera bezeichnet:
$$\displaystyle{\mathbf{x}}_{K}={\mathbf{R}}\cdot{\mathbf{x}}_{W}+{\mathbf{t}}.$$
(14.1)
Wir schreiben diese Bewegung in homogenen Koordinaten auf:
$$\displaystyle\begin{pmatrix}x_{K}\\ y_{K}\\ z_{K}\\ 1\end{pmatrix}=\begin{pmatrix}r_{11}&r_{12}&r_{13}&t_{1}\\ r_{21}&r_{22}&r_{23}&t_{2}\\ r_{31}&r_{32}&r_{33}&t_{3}\\ 0&0&0&1\end{pmatrix}\cdot\begin{pmatrix}x_{W}\\ y_{W}\\ z_{W}\\ 1\end{pmatrix}=\tilde{\mathbf{RT}}\cdot\tilde{\mathbf{x}}_{W}.$$
(14.2)
Man beachte: Ist die letzte Koordinate gleich 1, dann stimmen kartesische mit den homogenen Koordinaten überein. Ist dies nicht der Fall, so setzen wir eine „Schlange“ über das Symbol.
Herbert Süße, Erik Rodner

15. Kamerakalibrierung

Zusammenfassung
Als Kamerakalibrierung bezeichnet man allgemein die Bestimmung der Abbildungsparameter einer Kamera, dabei ist das gewählte Modell völlig egal. Auch Verzeichnungsparameter müssen kalibriert werden, falls sie im gewählten Modell enthalten sind. Die klassische Methode ist die Kalibrierung einer Kamera mit einem 3D-Kalibrierkörper. Diese hat den Nachteil, dass man die Kalibrierkörper hoch genau herstellen muss und daher teuer sind. Weiterhin sind die Kalibrierkörper nicht flexibel einsetzbar. Daher wurden Methoden entwickelt, die auch ohne Kalibrierkörper funktionieren. Diese nutzen die Aufnahmen natürlicher Szenen und benötigen in der Regel mehrere Aufnahmen oder ungedreht mehrere Kameras. Aus mehreren Bildern werden dann Referenzpunkte bestimmt und zur Kalibrierung genutzt. Mit dieser Art Kalibrierung entstand der Begriff Selbstkalibrierung. Probleme der Kamerakalibrierung gibt es eigentlich nur noch bezüglich der Robustheit und Fehlerabschätzung. Moderne Forschungen beschäftigen sich außerdem mit dem Gebiet der „automatischen Kalibrierung in Multi-Kamerasystemen“. In den nächsten Abschnitten soll nur auf die elementaren Prinzipien der Kamerakalibrierung eingegangen werden.
Herbert Süße, Erik Rodner

16. 3D-Rekonstruktion

Zusammenfassung
Oft liegen von 3D-Objekten nur die Projektionen vor, d. h. bez. eines bestimmten Abbildungsmodelles (z. B. orthografische Projektion, Zentralprojektion usw.) haben wir ein 2D-Bild zur Verfügung. Das kann ein Bild von einer Kamera sein, dann sprechen wir von monokularer Rekonstruktion. Das können Bilder von zwei Kameras und mehreren Kameras sein, dann haben wir ein Stereo-Rekonstruktionsproblem zu lösen. Weiterhin gibt es viele Rekonstruktionsziele: Man kann die absolute Lage des 3D-Objektes in einem Weltkoordinatensystem berechnen oder man berechnet nur die Oberfläche des 3D-Objektes, unabhängig von der Raumlage. Manchmal werden sogar nur einige Maße des 3D-Objektes benötigt und nicht seine ganze Oberfläche. In der Medizin werden häufig Tomographiebilder benutzt, dies sind in der Regel vollständige 3D-Grauwert-oder sogar Farbbilder. Diese werden wiederum aus 2D-Grauwertbildern berechnet, wobei die 2D-Grauwertbilder als Projektionen der 3D-Bilder aufzufassen sind.
Unabhängig von der konkreten Aufgabe ist auf jeden Fall ein inverses Problem zu lösen und damit i. Allg. ein schwieriges Problem.
Herbert Süße, Erik Rodner

17. Tensoren in der Bildverarbeitung

Zusammenfassung
Der Begriff des Tensors wird in der Bildverarbeitung häufig verwendet. Das folgende Kapitel hat zum Ziel die mathematischen Grundlagen der Tensoralgebra vorzustellen, damit diese mathematisch exakt in der Bildverarbeitung eingesetzt werden können. Als Beispiele werden wir den trifokalen Tensor und den Strukturtensor betrachten.
Herbert Süße, Erik Rodner

Objekterkennung

Frontmatter

18. Maschinelles Lernen

Zusammenfassung
Im folgenden Kapitel werden wir einen Überblick über Verfahren des maschinellen Lernens bieten. Dabei werden wir uns auf etablierte Methoden konzentrieren, welche vor allem im Bereich der Bildverarbeitung Anwendung finden. Die Fähigkeit eine Art der automatischen Bildanalyse und -erkennung von Objekten durchzuführen, ist sowohl in der Robotik als auch bei zahlreichen Anwendungen zwingend notwendig. In den letzten Jahren lässt sich ein drastischer Anstieg an komplexen industriellen Problemstellungen verzeichnen, welche ohne Verfahren des maschinellen Lernens nicht realisierbar sind. Als prägnantes Beispiel sei hier die Fußgängerdetektion  und zahlreiche andere Fahrerassistenzsysteme aufgeführt. Weiterhin stößt die manuelle Optimierung von Parametern eines Algorithmus für eine gegebene Aufgabenstellung schnell an ihre Grenzen und die meisten Algorithmen der Bildverarbeitung besitzen Kontrollparameter welchen einen entscheidenden Einfluss auf die Ergebnisse haben. Methoden des maschinellen Lernens ermöglichen es einen Teil dieser Parameter automatisch aus gegebenen Daten zu lernen.
Das folgende Kapitel führt zunächst die unterschiedlichen Problemfelder des maschinellen Lernens ein, um dann aktuelle Klassifikationstechniken zu diskutieren. Insgesamt werden wir in diesem Buch nur die Grundzüge des maschinellen Lernens bei einfachen Klassifikationsaufgaben kennenlernen. Dem interessierten Leser sei zur weiteren Lektüre das englischsprachige Buch von Chris Bishop  empfohlen.
Herbert Süße, Erik Rodner

19. Momente, Matching und Merkmale

Zusammenfassung
Im folgenden Kapitel werden wir uns mit der Berechnung von Merkmalen und Statistiken sowie dem Lösen von Zuordnungsproblemen (Matching) beschäftigen. Ein besonderer Schwerpunkt liegt auf der Untersuchung von Invarianzeigenschaften von Momenten und davon abgeleiteten Größen. Wir werden auch lokale Merkmale kennenlernen, welche besonders für die Anwendung in der Objekterkennung im nächsten Kapitel wichtig sind.
Herbert Süße, Erik Rodner

20. Visuelle Erkennungsaufgaben

Zusammenfassung
Im nachfolgenden Kapitel werden wir beispielhaft ein paar Verfahren der visuellen Objekterkennung kennenlernen. Dabei handelt es sich oft um eine Kombination einer Merkmalsberechnung und eines Klassifikationsverfahrens. Das Gebiet der Objekterkennung zählt zu den aktivsten Forschungsbereichen in der Bildverarbeitung. Daher werden im Rahmen dieses Buches auch nur wichtige Grundprinzipien erläutert, welche in aktuellen Methoden Verwendung finden.
Herbert Süße, Erik Rodner

Mathematische Hilfsmittel

Frontmatter

21. Ausgleichsrechnung

Zusammenfassung
Auf Grund der diskreten Natur digitaler Bilder extrahiert man stets diskrete Strukturen aus den Bildern. Diese diskreten Strukturen müssen aber oft durch analoge Modelle beschrieben werden, d. h. aus den diskreten Werten muss man Parameter, Transformationen, geometrische Objekte usw. schätzen bzw. berechnen. Dies geschieht mit der Ausgleichsrechnung, zu der die verschiedentsten sogenannten Schätzer gehören. Wir hatten im Abschn. 18.3 schon Schätzer aus der Perspektive der Stochastik und Statistik betrachtet. Im Folgenden werden wir uns mit weiteren Aspekten der Ausgleichsrechnung beschäftigen, da sie ein fundamentales Basiswerkzeug der 2D- und 3D-Bildverarbeitung ist.
Herbert Süße, Erik Rodner

22. Lineare Algebra und Stochastik

Zusammenfassung
In direktem Zusammenhang zur Ausgleichsrechnung stehen die Begriffe der Singulärwertzerlegung und der Pseudoinversen, deshalb gehen wir auf diese Begriffe im Folgenden näher ein. Weiterhin sind gewisse Begriffe der Stochastik, wie z. B. die Normalverteilung, von besonderem Interesse für die angegegebenen Schätzer sowie für Verfahren des maschinellen Lernens.
Herbert Süße, Erik Rodner

Backmatter

Weitere Informationen