Zum Inhalt

AsymServe: Demystifying and Optimizing LLM Serving Efficiency on CPU Acceleration Units

  • 2026
  • OriginalPaper
  • Buchkapitel
Erschienen in:

Aktivieren Sie unsere intelligente Suche, um passende Fachinhalte oder Patente zu finden.

search-config
loading …

Abstract

Dieses Kapitel untersucht die Optimierung von Large Language Model (LLM), die auf CPU-Beschleunigungseinheiten eingesetzt werden, wobei der Schwerpunkt auf den Herausforderungen und Lösungen im Zusammenhang mit asymmetrischen Softwareverhalten und Hardwareanforderungen liegt. Der Text stellt AsymServe vor, ein Rahmenwerk, das darauf ausgelegt ist, die CPU-Effizienz zu maximieren und gleichzeitig die LLM-Leistung sicherzustellen. Schlüsselthemen sind die Charakterisierung von LLM, das auf CPUs mit Beschleunigungseinheiten betrieben wird, das Design von AsymServe mit seinem Offline-Profiler und Online-Scheduler sowie die Bewertung seiner Leistung und Energieeffizienz. Die Evaluierungsergebnisse zeigen, dass AsymServe signifikante Verbesserungen bei Time-to-First-Token-Latenz, Durchsatz und Energieeffizienz im Vergleich zu modernen Methoden erzielt. Das Kapitel diskutiert auch die Beschränkungen und die zukünftige Arbeit, wobei das Potenzial für weitere Optimierungen und die Erforschung größerer und vielfältigerer LLMs hervorgehoben wird. Insgesamt bietet der Text einen detaillierten Überblick über den aktuellen Zustand und zukünftige Richtungen bei der Optimierung von LLM, die auf CPU-Beschleunigungseinheiten betrieben werden.

Sie haben noch keine Lizenz? Dann Informieren Sie sich jetzt über unsere Produkte:

Springer Professional "Wirtschaft+Technik"

Online-Abonnement

Mit Springer Professional "Wirtschaft+Technik" erhalten Sie Zugriff auf:

  • über 102.000 Bücher
  • über 537 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Maschinenbau + Werkstoffe
  • Versicherung + Risiko

Jetzt Wissensvorsprung sichern!

Springer Professional "Technik"

Online-Abonnement

Mit Springer Professional "Technik" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 390 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Maschinenbau + Werkstoffe




 

Jetzt Wissensvorsprung sichern!

Springer Professional "Wirtschaft"

Online-Abonnement

Mit Springer Professional "Wirtschaft" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 340 Zeitschriften

aus folgenden Fachgebieten:

  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Versicherung + Risiko




Jetzt Wissensvorsprung sichern!

Titel
AsymServe: Demystifying and Optimizing LLM Serving Efficiency on CPU Acceleration Units
Verfasst von
Xinkai Wang
Yiming Zhuansun
Chao Li
Jing Wang
Xiaofeng Hou
Lingyu Sun
Luping Wang
Minyi Guo
Copyright-Jahr
2026
Verlag
Springer Nature Singapore
DOI
https://doi.org/10.1007/978-981-95-1021-4_17
Dieser Inhalt ist nur sichtbar, wenn du eingeloggt bist und die entsprechende Berechtigung hast.
    Bildnachweise
    AvePoint Deutschland GmbH/© AvePoint Deutschland GmbH, NTT Data/© NTT Data, Wildix/© Wildix, arvato Systems GmbH/© arvato Systems GmbH, Ninox Software GmbH/© Ninox Software GmbH, Nagarro GmbH/© Nagarro GmbH, GWS mbH/© GWS mbH, CELONIS Labs GmbH, USU GmbH/© USU GmbH, G Data CyberDefense/© G Data CyberDefense, FAST LTA/© FAST LTA, Vendosoft/© Vendosoft, Kumavision/© Kumavision, Noriis Network AG/© Noriis Network AG, WSW Software GmbH/© WSW Software GmbH, tts GmbH/© tts GmbH, Asseco Solutions AG/© Asseco Solutions AG, AFB Gemeinnützige GmbH/© AFB Gemeinnützige GmbH