Natural Language Processing and Chinese Computing
13th National CCF Conference, NLPCC 2024, Hangzhou, China, November 1–3, 2024, Proceedings, Part IV
- 2025
- Buch
- Herausgegeben von
- Derek F. Wong
- Zhongyu Wei
- Muyun Yang
- Buchreihe
- Lecture Notes in Computer Science
- Verlag
- Springer Nature Singapore
Über dieses Buch
Über dieses Buch
The five-volume set LNCS 15359 - 15363 constitutes the refereed proceedings of the 13th National CCF Conference on Natural Language Processing and Chinese Computing, NLPCC 2024, held in Hangzhou, China, during November 2024.
The 161 full papers and 33 evaluation workshop papers included in these proceedings were carefully reviewed and selected from 451 submissions. They deal with the following areas: Fundamentals of NLP; Information Extraction and Knowledge Graph; Information Retrieval, Dialogue Systems, and Question Answering; Large Language Models and Agents; Machine Learning for NLP; Machine Translation and Multilinguality; Multi-modality and Explainability; NLP Applications and Text Mining; Sentiment Analysis, Argumentation Mining, and Social Media; Summarization and Generation.
Inhaltsverzeichnis
-
Summarization and Generation
-
Frontmatter
-
Activate Integrated Controllable Generation with Soft Prompt
Jingkun Ma, Runzhe Zhan, Derek F. Wong, Lidia S. ChaoDas Kapitel geht den Herausforderungen der kontrollierbaren Texterzeugung (CTG) anhand von vortrainierten Sprachmodellen (PLMs) nach. Es werden zwei Forschungsschwerpunkte diskutiert: Feinabstimmung und parametereffizientes Transferlernen (PETL). Die vorgeschlagene Activator-Methode adressiert die Beschränkungen statischer Steuermodule, indem sie Steuersignale dynamisch in weiche Eingabeaufforderungen umwandelt. Dieser Ansatz verbessert die Darstellung von Steuersignalen und integriert sie effektiv und zeigt überlegene Leistung bei verschiedenen CTG-Aufgaben. Das Kapitel führt auch kontrastive Strategien zur Aktivierung des Lernens und sofortige Isolationsverluste ein, um die Trainingsstabilität und die Effektivität der Kontrolle zu verbessern. Umfassende Experimente zur Generierung von Gedichten und zu Textaufgaben zeigen die Vielseitigkeit und Konkurrenzfähigkeit der Activator-Methode. Menschliche Bewertungen bestätigen weiter seine Überlegenheit bei der Erzeugung von kohärentem und natürlichem Text.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractParameter-efficient transfer learning (PETL) methods have gained significant adoption in downstream tasks due to their ability to reduce the cost of tuning pre-trained language models. However, a tradeoff between performance and efficiency remains. However, controllable Text Generation (CTG) requires a precise understanding of diverse constraints to mitigate potential degradation in generation quality. In contrast to single-attribute CTG, multi-attribute CTG amplifies the tuning complexity for PETL methods. To address this challenge, we propose Activator, a PETL approach that accommodates CTG tasks with higher diversity and offers fine-grained control. Activator leverages an external module to enhance optimization and enriches the soft prompt representations. Our experimental results on table-to-text and poetry generation tasks demonstrate that Activator exhibits remarkable competitiveness compared to other PETL methods when applied to both casual language model and sequence-to-sequence language models. Furthermore, we observe that Activator demonstrates strong performance even in extremely complex CTG scenarios. The source code is publicly available at https://github.com/NLP2CT/Activator. -
DDR-ECC: Dictionary-Driven Chinese ASR Entity Correction with Controllable Decoding
Dejun WangDas Kapitel "DDR-ECC: Wörterbuch-gesteuerte chinesische ASR-Entitätskorrektur mit kontrollierbarer Decodierung" befasst sich mit der Herausforderung von ASR-Entitätsfehlern in Sprachtranskriptionssystemen. Es führt einen neuartigen Ansatz ein, der wörterbuchgestützte Techniken mit einer kontrollierbaren Dekodierungsstrategie kombiniert, um die Erkennung und Korrektur von Einheiten zu verbessern. Die vorgeschlagene Methode, DDR-ECC, verwendet ein Wörterbuch-Fuzzy-Matching-Modul, um mögliche Einheiten abzurufen, und einen Wörterbuch-gesteuerten Kontextcodierer, um Eingaben und entsprechende Kandidaten gleichzeitig zu kodieren. Der wörterbuchgeführte Decoder dekodiert das Zeichen dann anhand übereinstimmender Ergebnisse, was die Genauigkeit der ASR-Fehlerkorrektur deutlich erhöht. Experimentelle Ergebnisse an drei öffentlich zugänglichen Datensätzen zeigen die Wirksamkeit der vorgeschlagenen Methode, insbesondere bei der Verbesserung der Fehlerkorrektur. Der Einsatz einer kontrollierbaren Decodierungsstrategie reduziert das Auftreten von Halluzinationen weiter und verbessert die Qualität der Fehlerkorrektur insgesamt. Das Kapitel definiert außerdem einen neuen Maßstab, den Toleranzgrad (TD), um unzumutbare Dekodierungsergebnisse zu messen. Der Open-Source-Code und die Daten erleichtern die weitere Forschung auf dem Gebiet der ASR-Fehlerkorrektur.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractASR error correction is an effective method for optimizing ASR recognition results. The current mainstream ASR error correction system is mainly based on the encoder-decoder structure, by learning the mapping of incorrect text to correct text in a data-driven approach. Although this approach showed good results in ASR error correction, it mainly solves the spelling errors that occur at high frequencies, while struggling with low-frequency ASR entity errors, especially those unseen entities in the training set. Another downside of the end-to-end structure is that it may produce unreasonable correction results during decoding due to the lack of controllable mechanism. Therefore, how to design a controllable ASR error correction decoding strategy becomes a critical problem. In this paper, we introduce DDR-ECC—a Dictionary-Driven Entity Correction model with Controllable Decoding for Chinese ASR. We first retrieve relevant entities from an entity dictionary based on the similarity of pinyin and phonetic information, and then fuse them with ASR text for joint encoding. Next, a controlled decoding strategy is proposed to generate more reasonable decoding results. Experimental results on three publicly available datasets, Aishell, MAGICDATA\(_\text {SMALL}\) and MAGICDATA\(_\text {OOV}\), demonstrate the effectiveness of our proposed method on ASR error correction, especially on ASR entity error correction. To be specific, compared to a solid encoder-decoder baseline(SC_BART) on the three datasets, the average SER and CER are decreased by 6.10% and 0.54% respectively, while the average F1 score of entity correction are improved by 9.06%. Finally, we define a new metric TD (tolerance degree) for measuring unreasonable decoding results, from which our proposed controllable decoding strategy can further improve the quality of error entity correction. Our code and data will be available at https://github.com/SeaEagleI/DDR-ECC. -
TiLTS:Tibetan Long Text Summarization Dataset
Yanrong Hao, Bo Chen, Xiaobing ZhaoDas Kapitel stellt TiLTS vor, einen tibetischen Langtext-Zusammenfassungs-Datensatz mit 36.507 Paaren (Dokument, Zusammenfassung), der deutlich größer ist als bestehende Datensätze wie Ti-SUM. Er diskutiert die Konstruktion des Datensatzes mithilfe maschineller Übersetzung und Feinabstimmung von Modellen, seine detaillierte Analyse und experimentelle Ergebnisse, die verschiedene Zusammenfassungs-Algorithmen vergleichen. Das Kapitel beleuchtet die Herausforderungen und Chancen, die TiLTS im Bereich der Verarbeitung natürlicher Sprache mit sich bringt, insbesondere für ressourcenarme Sprachen wie Tibetisch.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractHigh-quality datasets are crucial for advancing research in automatic text summarization. At present, summarization models for resource-rich languages like Chinese and English have made significant progress. However, for low-resource languages such as Tibetan, the lack of large-scale publicly available summarization datasets means that related research is still in its early stages. To address this gap, this paper constructs an open Tibetan summarization dataset, TiLTS. By collecting extensive texts from Tibetan news websites and leveraging resources from other languages, it obtains 36,507 (document, summary) pairs. Compared to the only publicly available Tibetan summarization dataset, Ti-SUM, TiLTS has clear advantages in both data size and challenge. This paper also conducts experiments and analyses using several summarization algorithms on this dataset. -
Enhancing Cross-Lingual Topic-Essay Generation with Knowledge and Topic Consistency Constraints
Huailing Gu, Yuxin Huang, Zhengtao Yu, Cunli MaoDas Kapitel vertieft sich in die Aufgabe der lingualen Erstellung von Themen-Essays, bei der es darum geht, schlüssige und flüssige Kurztexte in einer Zielsprache zu erstellen, die auf Stichwörtern aus einer Ausgangssprache basieren. Bestehende Forschungen konzentrieren sich in erster Linie auf maschinelle Übersetzung, sprachübergreifende Zusammenfassung und Dialoggenerierung. Die Autoren heben die Probleme der mangelnden Konsistenz zwischen generierten Texten und Eingabethemenwörtern sowie die Schwierigkeiten bei der semantischen Abstimmung zwischen Sprachen hervor. Sie schlagen eine Methode vor, die wissensbeschränktes Lernen durch Wissensdestillation und die Durchsetzung von Themenkonsistenz durch kosinale Ähnlichkeit integriert. Dieser Ansatz adressiert sowohl sprachübergreifende semantische Ausrichtung als auch Themen-Konsistenz-Probleme, was zu einer überlegenen Kurztexterzeugung führt. Die Methode wird durch Experimente mit selbstkonstruierten chinesisch-vietnamesischen und chinesisch-englischen Datensätzen validiert, die signifikante Verbesserungen gegenüber Basismodellen aufweisen. Das Kapitel schließt mit der Betonung der praktischen Anwendung der vorgeschlagenen Methode bei der Reduzierung menschlicher Anstrengungen und der Steigerung der Arbeitseffizienz bei Aufgaben wie Nachrichtenbearbeitung und E-Mail-Zusammenstellung.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractThe cross-lingual topic-essay generation task (CTEG) aims to generate sentence-level text in a target language based on input topic words from a source language. Recently, research on the generation of essays from topic words has primarily focused on monolingual settings. Extending this to cross-language scenarios requires overcoming challenges related to cross-language alignment and mitigating topic drift in the generated text. To address these challenges, we propose a novel cross-lingual topic-essay generation approach based on knowledge and topic consistency constraints. This approach extracts semantic alignment knowledge from a source language essay to a target language essay using a translation teacher model, which builds cross-lingual semantic alignment and guides the generation in the student model. Additionally, a cosine similarity-based topic consistency loss enhances the generated essays’ topic consistency relative to the input topic words. To validate the effectiveness of the proposed model, we constructed a dataset of 160,000 Chinese topic-Vietnamese essay pairs and a dataset of 350,000 Chinese topic-English essay pairs. Experimental results show that our model outperforms various baseline models in terms of various evaluation metrics on both the Chinese-Vietnamese and Chinese-English datasets. -
Sequential Structured Fusion of Image and Text for Enhanced Multimodal Abstractive Summarization
Rui He, Minjie Qiang, Hongling Wang, Zhongqing WangDas Kapitel vertieft sich in die fortgeschrittene Methode der sequentiellen strukturierten Verschmelzung von Bild und Text für eine verbesserte multimodale Zusammenfassung. Es führt ein neues Ausbildungsrahmenwerk, SSMAS, ein, das die Verschmelzung von Bild und Text durch kontrastives Lernen und Bildunterschriften-Generierung deutlich verbessert. Das Rahmenwerk enthält auch einen sequentiell strukturierten multimodalen Encoder, um die kontextuellen Beziehungen zwischen Bild und Text besser zu erfassen. Experimentelle Ergebnisse zeigen, dass die SSMAS bestehende Methoden übertrifft und ihr Potenzial zur Revolutionierung multimodaler Zusammenfassungsprozesse hervorhebt. Das Kapitel präsentiert auch einen umfangreichen sequentiellen strukturierten multimodalen Zusammenfassungs-Datensatz, SSMSum, der zur Weiterentwicklung der Forschung in diesem Bereich beiträgt.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractThe Multimodal Abstractive Summarization task aims to generate a concise summary using given multimodal data (textual and visual). Existing related research is still simple splicing and blending of information from multiple modalities, without considering the interaction between image and corresponding text and the contextual structural relationship of the image and text. We believe that these existing models can’t fully integrate multimodal information and leverage the Transformer’s ability to process sequential data. To this end, for MAS task, we use image captions that are highly correlated with the image for image fusion; and design image-text alignment tasks to improve the effectiveness of visual modalities in embedding text summary tasks; and propose a sequential structured image-text fusion method to enhance the model’s ability of sequences semantic understanding. Through these methods, we can give full play to the contribution of visual modality information to the summary task to enhance the MAS model, thereby generating more accurate summaries. We conducted experiments on related dataset and found that ROUGE-1, ROUGE-2, and ROUGE-L improved by 1.34, 1.64, and 1.32 compared to the baseline model. Additionally, we contributed a large-scale sequential structured multimodal abstractive summarization dataset. -
Preserving Content in Text Style Transfer via Normalizing Flow and Adversarial Learning
Jinqiao Dai, Pengsen Cheng, Yan Song, Jiayong LiuDas Kapitel befasst sich mit den Herausforderungen eines unbeaufsichtigten Textstiltransfers, insbesondere mit dem Thema der Erhaltung von Inhalten. Es schlägt ein neuartiges, flussbasiertes Redaktionsmodul vor, das mit einer Encoder-Decoder-Architektur und einem Lernmodul zur Verbesserung der Erhaltung von Inhalten kombiniert ist. Die theoretisch verlustfreien Transformationen des Strömungsmodells und der kontradiktorische Lernprozess werden eingesetzt, um die Auswirkungen des Stiltransfers auf den ursprünglichen Inhalt zu minimieren. Das Kapitel stellt außerdem umfangreiche Experimente und Vergleiche mit Benchmark-Methoden vor und zeigt die überlegene Leistung des vorgeschlagenen FST-Modells sowohl in Bezug auf die Genauigkeit der Stilübertragung als auch auf die Erhaltung des Inhalts. Zusätzlich enthält es Studien zur Evaluierung und Ablation am Menschen, um die Wirksamkeit des Modells weiter zu validieren.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractAn appropriate style can enhance the impact of social posts and comments. Although existing research is effective in accurately transferring text styles, it often results in some content loss, which disrupts the original semantic information. To address the issue of content preservation in style transfer, we extend the existing normalizing flow model and proposed a style editing module. By leveraging the transformation process of latent states in the flow model, we model the sentence content and style representations. On this basis, we accomplish style editing by replacing the original style representation with the target style. Additionally, to mitigate the impact of style editing on content representation, we introduce adversarial learning on the latent states before and after style editing, further optimizing the flow model to enhance content preservation. Extensive experiments on various datasets demonstrate that our method achieved an improvement of 3.9% in content preservation compared to the latest research. Additionally, our method attained an average style accuracy of 90.1%, proving its capability to enhance content preservation while ensuring accurate style transfer\(^1\)(\(^1\)The code is available at https://github.com/djqqiao/FST).
-
- Titel
- Natural Language Processing and Chinese Computing
- Herausgegeben von
-
Derek F. Wong
Zhongyu Wei
Muyun Yang
- Copyright-Jahr
- 2025
- Verlag
- Springer Nature Singapore
- Electronic ISBN
- 978-981-9794-40-9
- Print ISBN
- 978-981-9794-39-3
- DOI
- https://doi.org/10.1007/978-981-97-9440-9
Informationen zur Barrierefreiheit für dieses Buch folgen in Kürze. Wir arbeiten daran, sie so schnell wie möglich verfügbar zu machen. Vielen Dank für Ihre Geduld.