Der Einsatz von ML-Ansätzen in der Rechnungslegung, inkl. Unternehmensberichterstattung, Abschlussprüfung sowie Unternehmensanalyse und -bewertung, geht derzeit, soweit ersichtlich, über erste Pilotprojekte noch nicht sehr weit hinaus.
17 Dennoch lassen sich weitreichende Potenziale erkennen. In diesem Abschnitt werden diese Potenziale anhand dreier Forschungsbereiche beispielhaft illustriert.
3.1 ML-gestützte Schätzungen
ML-Ansätze sind prinzipiell einsatzbar für die Verbesserung von Prognosen und Schätzungen für Bilanzansatz und -bewertung sowie deren Plausibilisierung im Kontext der Abschlussprüfung. Solche Schätzungen gehen in vielfältige Bilanz- und GuV-Positionen ein. So enthalten die Anhänge von IFRS-Konzernabschlüssen Abschnitte, in denen das bilanzierende Unternehmen wesentliche Schätzungen und Beurteilungen durch das Management auflistet. Der Abschlussprüfer kommentiert diese regelmäßig in seinen Ausführungen zu besonders wichtigen Prüfungssachverhalten (sog.
Key Audit Matters, KAMs) im Bestätigungsvermerk, und Enforcement-Institutionen wie die Deutsche Prüfstelle für Rechnungslegung (DPR) und die European Securities Markets Authority (ESMA) machen diese regelmäßig zum Gegenstand ihrer Prüfungen.
18 Zu diesen wesentlichen Schätz- und Ermessenssachverhalten zählen u. a. der Goodwill und dessen Werthaltigkeitstest, aktivierte Entwicklungskosten, die Nutzungsdauern von Vermögenswerten des Anlagevermögens, Rückstellungen für leistungsorientierte Pensionsverpflichtungen und Prozessrisiken, die beizulegenden Zeitwerte von nicht auf aktiven Märkten gehandelten Finanzinstrumenten und als Finanzinvestition gehaltenen Immobilien sowie Posten aus der Umsatzrealisierung bei langfristiger Auftragsfertigung.
Aufgrund ihrer hohen ökonomischen Bedeutung und den mit ihrer Bewertung verbundenen bilanzpolitisch nutzbaren Ermessenspielräumen kommt diesen Sachverhalten in Forschung und Praxis hohe Aufmerksamkeit zu. Hieraus ergibt sich aus der Sicht von Abschlussprüfern (vgl. Marten et al.
2015, S. 301) und Adressaten, aber durchaus auch aus Erstellersicht, ein Bedarf nach unabhängigen, unverzerrten Schätzalgorithmen als Ersatz oder zumindest Beurteilungsmaßstab für Managementschätzungen (vgl. auch Ding et al.
2020). ML-Algorithmen kommen hier als Wegbereiter einer stärkeren Objektivierung von Schätzungen in Betracht. Während frühere Ansätze computergestützter Entscheidungsunterstützung primär auf regelbasierten (Experten‑) Systemen aufbauten, wird das größte Potenzial in der heutigen Zeit sinkender Informationsverarbeitungskosten und steigender (Massen‑) Datenverfügbarkeit zunehmend in selbstlernenden Systemen gesehen, die auf der Basis von Trainingsdaten ein Prognosemodell entwickeln und dessen Schätzfehler minimieren. Mithilfe dieses Prognosemodells werden dann auf der Basis von verfügbaren Inputdaten Schätzungen zukünftiger Ausprägungen der interessierenden Größen generiert.
Das Training von ML-Algorithmen für diese Aufgabe erfordert die Verfügbarkeit der jeweiligen Schätzungen bzw. Soll-Werte sowie der anschließenden Realisierungen bzw. Ist-Werte. Während diese Werte unternehmensintern regelmäßig vorliegen dürften,
19 stellt ihre aus externer Sicht i. d. R. fehlende Beobachtbarkeit eine Hürde für die RLF dar. Für die Entwicklung und Überprüfung von ML-Schätzalgorithmen sind empirische RW-Forscher daher auf die wenigen Fälle beschränkt, in denen die Datenverfügbarkeit hinreichend gut ist, oder sie sind auf Unternehmenskooperationen angewiesen, die ihnen Zugang zu internen Daten verschaffen.
Ein Beispiel für Forschung auf diesem Gebiet ist der Beitrag von Ding et al. (
2020), die mithilfe verschiedener ML-Algorithmen die Höhe von Rückstellungen und Schadenaufwendungen im Versicherungsgeschäft schätzen.
20 Die algorithmischen Schätzungen erweisen sich im Vergleich zu Managementschätzungen – und insbesondere in Kombination mit diesen – als insgesamt genauer und weniger stark mit bilanzpolitischen Anreizen assoziiert.
3.2 ML-gestützte Peer-Group-Bestimmung
Der Bestimmung von Peer Groups, also von Unternehmen mit vergleichbarem Rendite-Risiko-Profil, kommt nicht nur im Kontext der Unternehmensberichterstattung, sondern auch in der Abschlussprüfung sowie der Unternehmensanalyse und -bewertung eine große Bedeutung zu. Unternehmen suchen Benchmarks für die Herleitung von Renditezielen und den anschließenden Soll-Ist-Vergleich sowie für Zwecke der relativen Performancebeurteilung, Abschlussprüfer betrachten gegenwärtige und potenzielle Wettbewerber ihrer Mandanten bei der Risikoanalyse im Rahmen der Entwicklung der Prüfstrategie (vgl. Marten et al.
2015, S. 276; Kogan et al.
2019) und in der Unternehmensanalyse und -bewertung werden Peer Groups für die Ermittlung von kapitalmarktbasierten Beta-Faktoren, Kapitalkostensätzen und Bewertungs-Multiples benötigt (vgl. Dierkes und Sümpelmann
2019). In der RLF werden Peer Groups u. a. als Kontrollgruppe für die Abschätzung kausaler Effekte herangezogen (vgl. Ding et al.
2020).
Herkömmliche Ansätze wie der Rückgriff auf Branchenklassifikationen wie die US-amerikanische
Standard Industrial Classification (SIC) oder das
North American Industry Classification System (NAICS) sind aufgrund ihrer Statik nicht geeignet, dynamische Marktentwicklungen zu berücksichtigen, und eignen sich zudem häufig nicht zweckübergreifend. In der Literatur finden sich daher mittlerweile verschiedene Ansätze, die den Prozess der Peer-Group-Bestimmung mithilfe von ML-Algorithmen zu automatisieren, zu flexibilisieren sowie präziser und intersubjektiv nachvollziehbarer zu machen suchen. So verwenden Ding et al. (
2019) K‑Median-Clustering, einen automatisierten Peer-Selection-Ansatz, der die Ähnlichkeit der Finanzkennzahlen von Unternehmen mit Hilfe eines unbeaufsichtigten maschinellen Lernalgorithmus (
Unsupervised ML) erfasst. Der Clustering-Algorithmus teilt Beobachtungen dergestalt in sinnvolle Gruppen ein, dass die Beobachtungen in derselben Gruppe einander ähnlich sind und sich von Beobachtungen in anderen Gruppen unterscheiden. Auf diese Weise werden Unternehmen mit ähnlichen Finanzkennzahlen identifiziert, die annahmegemäß auf ähnliche Geschäftsmodelle und -tätigkeiten hindeuten.
Kennzahlenanalyse hat in der RLF eine lange Tradition, etwa um die Insolvenzwahrscheinlichkeit von Unternehmen zu beurteilen (vgl. schon Beaver
1966; Altman
1968; zum Einsatz künstlicher neuronaler Netze zu diesem Zweck vgl. schon Baetge
1998). Zudem werden Finanzkennzahlenmodelle verwendet, um wesentliche Bilanzierungsfehler (
Misstatements) zu erkennen (vgl. etwa Beneish
1997). Dementsprechend testen Ding et al. (
2020) die Leistungsfähigkeit ihrer Machine-Learning-gestützten Peer-Group-Bestimmung in diesen beiden Anwendungsbereichen und können zeigen, dass ihr Ansatz bestehende Insolvenz- und Misstatement-Prognosemodelle stärker verbessert als herkömmliche, statische Verfahren der Peer-Group-Bestimmung, die auf Branchenzugehörigkeit und Unternehmensgröße basieren.
Auf einem ähnlichen ML-Algorithmus wie bei Ding et al. (
2020) basieren die dynamischen Ansätze zur Peer-Group-Bestimmung von Hoberg und Phillips (
2010,
2016). Im Unterschied zu Ding et al. (
2020) verwenden Hoberg und Phillips jedoch keine Finanzkennzahlen, sondern bestimmen die Ähnlichkeit der Produktangebote von Unternehmen durch die automatisierte Analyse von textbasierten Produktbeschreibungen in den Geschäftsberichten (Form 10-K) US-amerikanischer Unternehmen. So schließen sich Unternehmen, deren Produktbeschreibungen sich stärker ähneln, z. B. häufiger und erfolgreicher in M&A-Transaktionen zusammen (Hoberg und Phillips
2010). Zudem erklären die so gebildeten Peer Groups zahlreiche Wettbewerbs- und Investitionsdynamiken auf Produktmärkten.
21
3.3 ML-Ansätze in der Abschlussprüfung
Die US-amerikanische Fachzeitschrift „Accounting Horizons“ widmete der digitalen Transformation der Abschlussprüfung in den Jahren 2015 und 2019 jeweils ein Sonderheft.
22 Neben dem bereits erwähnten Beitrag von Ding et al. (
2020) zur ML-gestützten Peer-Group-Bestimmung auf der Basis von Finanzkennzahlen (vgl. Abschn. 3.2) finden sich in dem 2019er „Data Analytics Forum“ weitere Beiträge, die z. T. ML-gestützte Anwendungen für die Abschlussprüfung vorschlagen. Sun (
2019) bietet einen Überblick über Funktionsweise und mögliche Einsatzgebiete von künstlichen neuronalen Netzen (
Deep Neural Networks) im Hinblick auf die Bereiche der Informationsgewinnung aus halb- (Textdaten) und unstrukturierten (Bild‑, Audio- und Video‑) Daten für Zwecke der Geschäftsmodell‑, Markt- und Risikoanalyse sowie der Unterstützung von Prüfungsurteilen mit halb- und unstrukturierten Daten als Prüfungsnachweisen. Der Beitrag schließt mit einer Diskussion von derzeit noch bestehenden Umsetzungsproblemen, insbesondere mangelnder Datenverfügbarkeit (bisher nicht hinreichend bestehende Audit Data Warehouses, die die Daten aller Mandanten enthalten), der Notwendigkeit, für jede Aufgabenstellung ein separates neuronales Netz zu trainieren und eine hinreichend große Menge an (oft manuell) klassifizierten Trainingsdaten zu generieren, sowie verbesserungsbedürftiger IT-Kenntnisse der Abschlussprüfer.
Eine konkrete Anwendung von ML-basierten Verfahren der automatisierten Textanalyse (vgl. dazu im Überblick Sellhorn et al.
2019) schlagen Yan und Moffitt (
2019) für den Bereich der Analyse von Vertragsdaten vor. Kunden‑, Leasing‑, Kredit- und sonstige Verträge stellen eine wesentliche Informationsquelle im Rahmen der Abschlussprüfung vor, werden aber auf Grund der zu ihrer detaillierten Analyse notwendigen Zeit und Expertise bisher i. d. R. lediglich stichprobenartig ausgewertet (vgl. für die US-Prüfungsstandards AICPA
2008). Das von den Verfassern vorgeschlagene
Contract Analytics Framework (CAF) umfasst die folgenden sechs Bereiche (vgl. Yan und Moffitt
2019, S. 112): (1) Dokumentenmanagement (Import und Verwaltung von Verträgen aus verschiedenen analogen und digitalen Quellen); (2) Inhaltsidentifikation (Identifizierung und Extraktion von prüfungsrelevanten Informationen, einschließlich Text, numerischen Daten und Tabellen); (3)
Cutoff Testing (zeitliche Informationen zu Vertragsdauern und -fristen); (4) Datenabgleich (Validierung automatisiert extrahierter Daten mit bestehenden Vertragsdatenquellen wie ERP-Systemen); (5) Versionsvergleich (Erkennung von Abweichungen zwischen Vertragsversionen sowie von einer ursprünglichen Vorlage); und (6) Prüfungshandlungen (Auflistung von Prüfungshandlungen, die auf Daten des
Contract Analytics Framework zugreifen). Probleme in der Umsetzung des CAF bestehen u. a. dort, wo Verträge handschriftliche Zusätze und Änderungen enthalten, deren fehlerfreie maschinelle Erfassung derzeit noch Probleme bereitet.
No et al. (
2019) schlagen ML-Ansätze im Rahmen von Einzelfallprüfungen vor. Vor allem in Prüffeldern mit Massentransaktionen kommt hier regelmäßig die klassische Stichproben- bzw. Auswahlprüfung zur Anwendung (vgl. etwa Marten et al.
2015, S. 351). Wird von dieser Vorgehensweise mithilfe datenanalytischer Ansätze zu Gunsten einer Vollerfassung des gesamten (transaktionalen) Datenbestandes eines bestimmten Prüffeldes abgewichen, kommt es häufig zur Entdeckung einer hohen Anzahl von Auffälligkeiten (
Exceptions, Outliers), die auf Falschdarstellungen hindeuten und daher vom Prüfer näher darauf untersucht werden müssen, ob ihnen tatsächlich Fehler zu Grunde liegen (vgl. No et al.
2019). Das manuelle Abarbeiten all dieser Auffälligkeiten, deren Anzahl diejenige, die im Rahmen von Stichprobenprüfungen auftreten, um ein Vielfaches übersteigt, ist regelmäßig nicht wirtschaftlich durchführbar. Daher steht der Prüfer vor dem Problem, aus den zahlreichen Auffälligkeiten diejenigen auswählen zu müssen, denen mit hoher Wahrscheinlichkeit ein Fehler zu Grunde liegt. Das von No et al. (
2019) vorgeschlagene Multidimensional Audit Data Selection (MADS) Konzept soll Prüfer in die Lage versetzen, die erkannten Auffälligkeiten automatisiert anhand des ihnen inhärenten Risikos zu priorisieren. Anwendungsbereiche erkennen No et al. (
2019) dort, wo schon heute datenanalytische Verfahren in der Abschlussprüfung zur Anwendung kommen, nämlich vor allem bei Buchungs- und Hauptbuchanalysen sowie in geringerem Umfang bei der Umsatzanalyse, der Prozessanalyse und der Derivatebewertung.
Die hier dargestellten Beiträge beruhen sämtlich auf der Idee der ML-gestützten Analyse des gesamten Datenbestandes eines Prüffeldes durch den Abschlussprüfer. Die entwickelten Anwendungsvorschläge sind teilweise noch nicht flächendeckend umsetzbar, da beispielsweise die benötigten Daten nicht (oder nicht in der benötigten digitalen Form) vorliegen und der derzeit bestehende regulatorische Rahmen der Prüfungsstandards nach wie vor von einem risikoorientierten Prüfungsansatz mit Stichproben ausgeht, innerhalb dessen die Verwertung von datenanalytisch gewonnenen Prüfungsnachweisen unklar ist. Das International Auditing and Assurance Standards Board (IAASB) steht dem Einsatz von Datenanalysetools in der Abschlussprüfung vorsichtig positiv gegenüber (IAASB
2017). Allerdings sei die Qualität der Datengrundlage entscheidend (Gefahr des „Garbage in, garbage out“).
Dementsprechend steht die Forschung zur tatsächlichen Verbreitung dieser Ansätze sowie ihrer Einflussfaktoren und Auswirkungen, etwa auf Prüfungshonorare und -qualität, bisher noch am Anfang. Erste Interviewstudien gehen der Frage nach, wie Datenanalysen und Prozessautomatisierung Rechnungslegung und Abschlussprüfung realiter bereits verändert haben. Vielfach werden hier aber Meinungen, Einschätzungen und Erwartungen mindestens ebenso abgefragt wie konkrete Aktivitäten und Fakten. Einzelne Studien gewähren hier erste Einblicke in die Anwendung von Robotics Process Automation, (Big) Data Analytics und ML. So befragen Cooper et al. (
2019) Wirtschaftsprüfer zur Nutzung von Robotic Process Automation (RPA) bzw. Software-Bots. Die Befragten sehen eine recht hohe Durchdringung in den Steuer- und Advisory-Abteilungen, gefolgt von der Abschlussprüfung selbst. Während RPA zu wahrgenommenen Effizienzgewinnen und Qualitätssteigerungen führe, gehe sie bisher nicht mit einem Verlust an Arbeitsplätzen einher. Auch sinkende Prüfungshonorare seien bisher nicht zu beobachten – wohl aber schwierigere Verhandlungen mit Mandanten über das zu vergütende Stundenvolumen. Cao et al. (
2015) ziehen für Big Data Analytics ähnliche Schlüsse, während Earley (
2015) eine verschärfte Erwartungslückenproblematik heraufziehen sehen. Gepp et al. (
2018) beurteilen in ihrem Überblicksbeitrag die Abschlussprüfung in puncto Technologieeinsatz nicht als Pionier, sondern erkennen die größten Potenziale für ML-gestützte Big-Data-Analysen in den Bereichen Insolvenz‑, Misstatement- und Aktienkursprognose.