Zum Inhalt

Lembda: Optimizing LLM Inference on Embedded Platforms via CPU/FPGA Co-processing

  • 2026
  • OriginalPaper
  • Buchkapitel
Erschienen in:

Aktivieren Sie unsere intelligente Suche, um passende Fachinhalte oder Patente zu finden.

search-config
loading …

Abstract

Dieses Kapitel untersucht die Herausforderungen und Lösungen für den Einsatz großer Sprachmodelle (Large Language Modells, LLMs) auf Edge-Geräten, wobei der Schwerpunkt auf dem Einsatz von eingebetteten FPGA-Plattformen liegt. Die Autoren schlagen ein Rahmenwerk zur Hardware-Software-Co-Optimierung vor, das Speicher- und Berechnungsprobleme durch W4A8-Quantisierung und CPU / FPGA-Co-Processing löst. Das Framework wurde auf der AMD Kria KV260 Plattform unter Verwendung des Qwen2.5-0.5B-Instruct Modells validiert und zeigt signifikante Leistungsverbesserungen. Schlüsselthemen sind die Quantisierung von Modellen, FPGA-Beschleunigung, CPU-Beschleunigung und Operator-Planung. Die Ergebnisse zeigen beträchtliche Beschleunigungen sowohl beim Vorfüllen als auch beim Dekodieren, was diesen Ansatz für Echtzeit-Anwendungen mit sensiblen Daten höchst relevant macht.

Sie haben noch keine Lizenz? Dann Informieren Sie sich jetzt über unsere Produkte:

Springer Professional "Wirtschaft+Technik"

Online-Abonnement

Mit Springer Professional "Wirtschaft+Technik" erhalten Sie Zugriff auf:

  • über 102.000 Bücher
  • über 537 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Maschinenbau + Werkstoffe
  • Versicherung + Risiko

Jetzt Wissensvorsprung sichern!

Springer Professional "Technik"

Online-Abonnement

Mit Springer Professional "Technik" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 390 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Maschinenbau + Werkstoffe




 

Jetzt Wissensvorsprung sichern!

Springer Professional "Wirtschaft"

Online-Abonnement

Mit Springer Professional "Wirtschaft" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 340 Zeitschriften

aus folgenden Fachgebieten:

  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Versicherung + Risiko




Jetzt Wissensvorsprung sichern!

Titel
Lembda: Optimizing LLM Inference on Embedded Platforms via CPU/FPGA Co-processing
Verfasst von
Jinwei Zhou
Chenhao Xue
Xiping Dong
Yi Ren
Jiaxing Zhang
Guangyu Sun
Xinnan Lin
Copyright-Jahr
2026
Verlag
Springer Nature Singapore
DOI
https://doi.org/10.1007/978-981-95-1021-4_35
Dieser Inhalt ist nur sichtbar, wenn du eingeloggt bist und die entsprechende Berechtigung hast.
    Bildnachweise
    AvePoint Deutschland GmbH/© AvePoint Deutschland GmbH, NTT Data/© NTT Data, Wildix/© Wildix, arvato Systems GmbH/© arvato Systems GmbH, Ninox Software GmbH/© Ninox Software GmbH, Nagarro GmbH/© Nagarro GmbH, GWS mbH/© GWS mbH, CELONIS Labs GmbH, USU GmbH/© USU GmbH, G Data CyberDefense/© G Data CyberDefense, FAST LTA/© FAST LTA, Vendosoft/© Vendosoft, Kumavision/© Kumavision, Noriis Network AG/© Noriis Network AG, WSW Software GmbH/© WSW Software GmbH, tts GmbH/© tts GmbH, Asseco Solutions AG/© Asseco Solutions AG, AFB Gemeinnützige GmbH/© AFB Gemeinnützige GmbH