Eine wichtige Eigenschaft zahlreicher numerischer Methoden ist die Darstellung von kontinuierlichen Funktionen (z. B. Signalen) durch diskrete Bausteine (Atome) und deren Koeffizienten:
$$ f(t) = \sum _{k=0}^{\infty }f_{k} \psi _{k}(t). $$
(1)
Ein bekanntes Beispiel aus der Signalverarbeitung sind Fourierreihen, mit denen periodische Funktionen als Summe von Sinus- und Kosinusfunktionen dargestellt werden können, und das Abtasttheorem [
23], das eine Brücke zwischen kontinuierlichen zeitbeschränkten Signalen und den abgetasteten Werten des Signals an diskreten Stützstellen schlägt. Ganz klassisch werden häufig orthonormale Basen als Atome verwendet, es ist jedoch in vielen Anwendungen von Vorteil, redundante, also nicht eindeutige Darstellungen zu verwenden. Solche Darstellungen erlauben es zum Beispiel Spektrogramme ,,glatter” erscheinen zu lassen oder die Darstellung effizienter und robuster gegenüber Störungen und Rauschen zu machen. Für die Kurzzeit-Fourier-Transformation (STFT) [
12] (auch Gabor Transformation [
10] genannt) kann sogar gezeigt werden, dass es ohne Redundanz unmöglich ist, eine gut lokalisierte Darstellung zu haben, im Sinne, dass nur eine Zeit-Frequenz-Region nahe des jeweiligen Punkts diesen beeinflusst. Durch die Zeit-Frequenz-Unschärfe ist es jedoch nie möglich, hier eine beliebige Genauigkeit zu bekommen. Für ,,vernünftige” Funktionen/Signale zum Beispiel mit endlicher Energie (d.h.
\(f(t) \in L^{2}(\mathbb{R})\)) kann so ein darstellendes Erzeugendensystem durch Rahmen beschrieben werden. Ein Rahmen [
7,
8] in einem (Hilbert)-Raum ℋ ist eine Familie von Funktionen
\(\Psi = \left (\psi _{k}\right )\), wofür Konstanten
\(A,B > 0\) existieren, sodass
$$ A ||f||^{2} \le \sum \limits _{k\in K} |\langle f,\psi _{k} \rangle |^{2} \le B||f||^{2} $$
(2)
für alle
\(f \in \mathcal{H}\) gilt. Hier ist
\(k\in K\) aus einer (unendlich großen) Indexmenge
\(K\) , und
\(\langle f,g \rangle \) bezeichnet das innere Produkt im Hilbertraum. Z. B. für
\(f,g \in L^{2}(\mathbb{R})\) gilt:
\(\langle f,g \rangle = \int _{-\infty }^{\infty }f(t) g^{*}(t)dt\), wobei
\(g^{*}(t)\) die konjugiert komplexe Funktion zu
\(g(t)\) ist. Die auf den ersten Blick abstrakte Bedingung Gl. (
2) hat einige wichtige Konsequenzen [
4]:
-
Stabilität: Gl. (
2) stellt eine Beziehung zwischen einem Signal
\(f\) und den Koeffizienten
\(f_{k} = \langle f,\psi _{k} \rangle \) einer diskreten Darstellung her. Für moderate Rahmenparameterquotienten
\(\frac{B}{A}\) ist die Darstellung stabil, d.h. ähnliche Signale besitzen ähnliche Koeffizienten, und ähnliche Koeffizienten erzeugen umgekehrt wieder ähnliche Signale. Für numerische Verfahren bedeutet dies, dass die Konditionszahl der Transformation durch
\(\sqrt{\frac{B}{A}}\) bestimmt ist.
-
Verlustfreie Wiederherstellung: Eine Konsequenz der Bedingung ist, dass jedes Signal mit Hilfe eines Rahmens
\(\Psi \) zerlegt werden kann (Analyse),
und dass es mindestens einen dualen Rahmen
\(\Phi \) gibt, mit dem das Signal aus den Komponenten wieder
verlustfrei zusammengesetzt werden kann (Synthese), d.h.
$$ f(t) = \sum \limits _{k \in K} \langle f,\psi _{k}\rangle \phi _{k} = \sum \limits _{k \in K} \langle f,\phi _{k}\rangle \psi _{k}. $$
(3)
-
Redundanz: Im Allgemeinen ist die Darstellung mittels Rahmen nicht eindeutig, was wie oben beschrieben oft erst eine gute Darstellung erlaubt. Gegenüber Basen gibt es mehr Freiheiten, Rahmen mit besonderen Eigenschaften zu konstruieren, und falls bei einer möglichen Datenübertragung eine Komponente verrauscht ist oder verloren geht, ist ein Teil der Information immer noch in anderen Koeffizienten enthalten [
7]. Darüber hinaus erlaubt die Redundanz mehr als einen dualen Rahmen, der eine verlustfreie Wiederherstellung garantiert, was etwa in der Resynthese auch wieder mehr Optionen ermöglicht [
18].
-
Linearität: Das Zusammenspiel von Rahmen und dualem Rahmen erlaubt eine signalunabhängige, lineare Invertierung und eine einfache Manipulation von Signalen oder Signalteilen. Während viele akustische Phänomene inhärent nicht-linear sind, und daher ein Rahmen-Ansatz nur eine Approximation der Realität ist, sei darauf hingewiesen, dass die lineare Darstellung neben der Einfachheit auch unschlagbare Vorteile in der Interpretation bietet. Selbst wenn auf eine Darstellung mittels Rahmen eine nicht-lineare Manipulation folgt, ist es etwa immer noch klar, was mit Begriffen wie Bandbreite gemeint ist. In einer linearen Darstellung ist auch eine Trennung im Zeit-Frequenz-Bereich äquivalent zu einer Trennung in der Signaldomäne.
Die Rahmen-Theorie ist nicht auf unendlich dimensionale, kontinuierliche Räume, wie zum Beispiel Funktionenräume, beschränkt. Man kann die Theorie auch auf diskrete Räume (z.B den Raum
\(\ell ^{2}\) der (unendlichen) Folgen mit endlicher Energie) oder auch auf endlich-dimensionale Räume (z. B.
\(\mathbb{R}^{N}\) oder
\(\mathbb{C}^{N}\)) anwenden. Im letzteren Fall entspricht ein Rahmen wie oben schon erwähnt einem Erzeugendensystem, wie es aus der linearen Algebra bekannt ist. Jedoch erlaubt uns ein Rahmen in diesem Fall
immer, eine explizite Rekonstruktionsformel anzugeben und die Robustheit der Darstellung durch die Konditionszahl
\(\sqrt{\frac{B}{A}}\) zu beschreiben.
2.1 Rahmen-Multiplikatoren
Basierend auf der Darstellung mittels Rahmen ist es möglich, durch die Manipulation der Rahmenkoeffizienten einen zeitabhängigen Filter direkt in der Zeit-Frequenz-Ebene zu definieren. Durch das Zusammenspiel aus Analyse, Manipulation der Rahmenkoeffizienten mittels des Symbols (oder der Maske)
\(m_{k}\) und Resynthese mit Hilfe eines dualen Rahmens lässt sich somit ein Rahmenmultiplikator [
3,
9] durch
$$ M_{m,\Phi ,\Psi } f = \sum _{k\in K} m_{k} \langle f,\phi _{k} \rangle \psi _{k} $$
(4)
definieren. Diese Multiplikatoren treten in vielen verschiedenen wissenschaftlichen Disziplinen auf. In der
Mathematik werden sie für die Diagonalisierung von Operatoren [
22] verwendet. In der
Physik stellen sie eine mögliche Verbindung zwischen klassischer Mechanik und Quantenmechanik dar, sogenannte Quantisierungsoperatoren [
2]. In der
Signalverarbeitung ermöglichen sie es, zeitvariante Filter zu implementieren [
15], welche dann in der
Akustik eingesetzt werden, etwa für die Signaltrennung [
27]. Rahmen-Multiplikatoren treten daher nicht nur als mathematische Objekte auf [
6,
25], es werden auch deren Anwendungen studiert, wie zum Beispiel für die Entfernung von perzeptiv irrelevanten Zeit-Frequenz-Punkten [
5], oder auch als Möglichkeit, die Ähnlichkeit von Instrumenten [
17] oder Sprechern [
14] zu beurteilen.
Ein einfaches Beispiel, das etwa in der computergestützten auditorischen Szenenanalyse (CASA [
28]) aber auch für das Beispiel in Abschn.
4 verwendet wird, ist eine binäre Maske:
\(m_{k} = 1\), wobei
\(k\) in einer Untermenge
\(K' \subset K\) liegt. Für alle anderen
\(k\) gilt:
\(m_{k} = 0\). Mit dieser einfachen Maske ist es möglich, Komponenten aus Signalen zu schneiden.
2.2 Gabor-Rahmen
Gabor-Rahmen sind eine spezielle Art von Rahmen, die in der Signalverarbeitung sehr häufig vorkommen, und die den diskreten Unterbau zur Kurzzeit-Fourier-Transformation (STFT)
$$ S_{g}f(\tau _{k},\nu _{\ell }) = \int \limits _{-\infty }^{\infty }f(t) g(t- \tau _{k})e^{-2\pi \textrm{i}\nu _{\ell }t}dt $$
liefern. Die STFT wird u.a. verwendet, um Zeit-Frequenz-Darstellungen von Signalen zu generieren; Spektrogramme sind der (quadrierte) Absolutbetrag der STFT, oft in einer logarithmischen Darstellung. Dabei wird das Signal mit einem Fenster multipliziert, das (normalerweise) um den Zeitpunkt
\(\tau _{0} = 0\) konzentriert ist. Durch eine Fourier-Transformation kann dann diesem Zeitpunkt ein Spektrum mit Frequenzvariable
\(\nu _{\ell }\) zugeordnet werden. Das Fenster wird auf den Zeitpunkt
\(\tau _{k+1} = \tau _{k} + \Delta t\) verschoben und die ganze Prozedur wiederholt. Interpretieren wir die einzelnen Funktionen
\(g _{k,\ell }(t) = g(t-\tau _{k})e^{-2\pi \textrm{i}\nu _{\ell }t}\) als Atome eines Erzeugendensystems, kann gezeigt werden, dass unter bestimmten Bedingungen an das Fenster
\(g(t)\) und an die Parameter
\(\tau _{k}\) und
\(\nu _{\ell }\) das Gaborsystem
\(\mathcal{G}(g,\tau _{k},\nu _{\ell }) = (g_{k,\ell })_{k \in K, \ell \in L}\) einen s.g. Gabor-Rahmen bildet und somit die oben erwähnten Eigenschaften besitzt. Es kann auch gezeigt werden [
12], dass zu jedem Gabor-Rahmen mindestens ein dualer Rahmen existiert, der ebenfalls eine Gaborstruktur besitzt, d.h. der duale Rahmen ergibt sich aus (Zeit-)Translation und (Frequenz-)Modulation eines dualen Fensters
\(\tilde{g}\), und es gilt:
$$ f(t) = \sum _{k,\ell } f_{k,\ell } g_{k,\ell } \text{ mit } f_{k,\ell } = \langle f, \tilde{g}_{k,\ell } \rangle . $$
(5)
In einem Spektrogramm ergibt sich dann jeder Punkt als
\(|f_{k,\ell }|^{2}\). Da hier die Phaseninformation verloren geht, ist eine direkte Invertierung nicht trivial und führt zum Thema der Phasen-Rekonstruktion [
1,
19]. Daher wird normalerweise ein Multiplikator nicht auf das Spektrogramm selbst, sondern auf die dahinter liegenden komplexen Koeffizienten
\(f_{k,\ell }\) der Zeit-Frequenz-Darstellung mittels Rahmen angewandt.
Die Toolbox LTFAT (Large Time-Frequency Analysis Toolbox), die am ISF entwickelt und betreut wird [
20,
24], stellt in diesem Zusammenhang eine Vielzahl von nützlichen Funktionen zur Verfügung. Sie wird für Matlab/Octave entwickelt, beinhaltet C/C++ Implementierungen und eine Anbindung an Python ist gerade in Ausarbeitung. Sie ist open source, in vielen bekannten Linux-Distributionen bereits enthalten und fördert durch ihre freie Verfügbarkeit auch reproduzierbare Forschung.
So sollen möglichst viele Zeit-Frequenz- bzw. Rahmen-Implementierungen in diese Toolbox eingebunden, gut dokumentiert, gewartet und auch verwendet werden. Eine Bestimmung der Gaborkoeffizienten lässt sich in LTFAT zum Beispiel durch den einfachen Befehl dgtreal
bewerkstelligen, die Anwendung eines Rahmen-Multiplikators mit Hilfe von framemul
.