Natural Language Processing and Chinese Computing
13th National CCF Conference, NLPCC 2024, Hangzhou, China, November 1–3, 2024, Proceedings, Part IV
- 2025
- Buch
- Herausgegeben von
- Derek F. Wong
- Zhongyu Wei
- Muyun Yang
- Buchreihe
- Lecture Notes in Computer Science
- Verlag
- Springer Nature Singapore
Über dieses Buch
Über dieses Buch
The five-volume set LNCS 15359 - 15363 constitutes the refereed proceedings of the 13th National CCF Conference on Natural Language Processing and Chinese Computing, NLPCC 2024, held in Hangzhou, China, during November 2024.
The 161 full papers and 33 evaluation workshop papers included in these proceedings were carefully reviewed and selected from 451 submissions. They deal with the following areas: Fundamentals of NLP; Information Extraction and Knowledge Graph; Information Retrieval, Dialogue Systems, and Question Answering; Large Language Models and Agents; Machine Learning for NLP; Machine Translation and Multilinguality; Multi-modality and Explainability; NLP Applications and Text Mining; Sentiment Analysis, Argumentation Mining, and Social Media; Summarization and Generation.
Inhaltsverzeichnis
-
NLP Applications/Text Mining
-
Frontmatter
-
Retrieve-or-Copy: Enhancing Chinese Spelling Check with Retrieval and Copy Mechanism
Hong Ding, Qingyi Liu, Haitao Wang, Hejun WuIn diesem Kapitel wird das Framework Retrieve-or-Copy (RoC) vorgestellt, das zur Verbesserung der chinesischen Rechtschreibprüfung (CSC) entwickelt wurde. RoC enthält einen Fehlerdetektor zur Identifizierung falscher Zeichen, einen lernbaren Retriever zur Auswahl geeigneter Beispiele für die Korrektur und einen Kopiermechanismus auf Zeichenebene, um auf Eingabezeichen für korrekte Vorhersagen zuzugreifen. Das Rahmenwerk ist optimiert, um Korrekturleistung und Schlüsseffizienz zu verbessern, die Basismethoden zu übertreffen und bedeutende Fortschritte im Bereich der CSC aufzuzeigen. Experimentelle Ergebnisse zu verschiedenen Datensätzen unterstreichen die Effektivität und Effizienz von RoC und machen es zu einer herausragenden Lösung für Rechtschreibkorrekturaufgaben.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractRecent performance improvement of the Chinese Spelling Check (CSC) has shown the effectiveness of introducing a non-parametric memory component to retrieve similar examples. Nevertheless, most existing approaches only use this memory during testing, which hinders the memory retriever from adapting to the specific CSC model and leads to sub-optimal error correction. Furthermore, these approaches suffer from inefficient inference since they perform memory retrieval on every position throughout an entire sentence. This paper proposes a framework called Retrieve-or-Copy (RoC) to enhance the standard CSC model with an error detector, a learnable retriever, and a character-level copy mechanism. Specifically, in RoC, the error detector identifies incorrect characters before retrieval, enabling the retriever to focus solely on errors. By jointly optimizing the retriever and the CSC model with spelling error correction as the ultimate training objective, the retriever is more likely to find suitable examples for the CSC model to achieve better performance. Additionally, the copy mechanism allows the CSC model to access the correct character in the input to avoid over-correction. Experimental results demonstrate that RoC outperforms methods that only use non-parametric memory during testing and achieves comparable or even better performance than state-of-the-art CSC models on SIGHAN datasets. Our code is publicly available at https://github.com/dingdingtom/csc_roc. -
MJP: A Meta-learning Approach for Chinese Legal Judgment Prediction
Yuying Lang, Hongxu Hou, Wei Chen, Shuo SunDas Kapitel stellt MJP vor, einen Meta-Learning-Ansatz für die Vorhersage chinesischer Rechtsurteile, der fortgeschrittene Techniken nutzt, um die Herausforderungen bei niederfrequenten Rechtsdaten anzugehen. Durch den Einsatz von Meta-Learning und überwachtem kontrastivem Lernen optimiert MJP die Darstellung von Gesetzestexten und unterscheidet effektiv zwischen ähnlichen Fällen, wodurch die Vorhersagegenauigkeit und Robustheit verbessert wird. Die Methode wird durch umfangreiche Experimente mit großen und kleinen Datensätzen validiert, die ihre überlegene Leistung im Vergleich zu bestehenden Ansätzen belegen. Das Kapitel unterstreicht die Neuartigkeit von MJP im Umgang mit den Feinheiten legaler Textinhalte und seine Fähigkeit, Probleme des Datenungleichgewichts zu entschärfen, was es zu einer fesselnden Lektüre für diejenigen macht, die sich für die Schnittstelle zwischen rechtlicher KI und maschinellem Lernen interessieren.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractLegal judgment prediction (LJP) is an important task in legal AI that aims to predict outcomes based on the factual description of a case. Most current approaches are data-intensive and focus on introducing external knowledge to improve judgment prediction accuracy. However, they do not address the legal data imbalance problem well, and there is still a large gap between the prediction performance of low-frequency legal events and the overall average performance. Therefore, we propose a method that integrates meta-learning and contrastive learning for Chinese legal judgment prediction (MJP). The approach leverages transferred knowledge from the source category to discern the target category, achieved through constructing support sets and query sets. Additionally, it aligns legal text representations with optimizing metrics and trains the model to effectively distinguish between similar legal factual descriptions. In this way, the model is able to quickly learn effective feature representations from a small amount of labeled data and generalize to new categories. Experimental results show that our proposed approach effectively improves the performance of LJP, not only achieving better than the current model results on two real datasets but also surpassing the performance of other models under low resource settings. -
Contrastive Learning-Based Sequential Recommendation Model
Yuan Zhang, Minghua Nuo, Xiaoyu Jia, Yao WangDas Kapitel geht der Rolle des kontrastiven Lernens in sequentiellen Empfehlungsmodellen nach und hebt seine Vorteile bei der Verbesserung der Datendarstellung und der Lösung von Problemen der Datensparsamkeit hervor. Es zeigt die Grenzen aktueller positiver Probenahmemethoden auf und führt einen einzigartigen Ansatz ein, der von traditioneller kollaborativer Filterung inspiriert ist. Diese Methode nutzt Item-Co-occurence-Matrizen, um positive Graustufen-Proben zu konstruieren, was die Fähigkeit des Modells verbessert, personalisierte Empfehlungen abzugeben. Das Kapitel stellt außerdem ein adaptives Rahmenwerk für kontrastives Lernen vor, das bereichsübergreifende und bereichsübergreifende Perspektiven kombiniert und durch umfangreiche Experimente mit realen Datensätzen signifikante Verbesserungen bei der Effektivität von Empfehlungen aufzeigt.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractContrastive learning has demonstrated remarkable performance in sequential recommendation tasks. The core principle of it is to maximize consistency between the original and augmented data while increasing the distance between the original data and other instances, thereby facilitating the learning of more discriminative features. Nonetheless, such an approach has limitations and may inadvertently augment the distance between samples that belong to the same category in the feature space. To tackle the above problems, we propose a novel contrastive learning paradigm for sequential recommendation, termed CLSRec (Contrastive Learning-Based Sequential Recommendation Model). Our framework integrates cross-domain and intra-domain features through a meticulously designed contrastive loss function and introduces gray-scale positive sampling, aiming to address the inadequacy of focus on similar items in sequential recommendation. The proposed contrastive learning framework effectively captures intra-sequence item transition patterns and inter-sequence dependencies among items. Empirical evaluations on real-world datasets show that our model significantly outperforms advanced baseline models, validating its effectiveness in sequential recommendation scenarios. -
Enhancing Word-Level Completion for Masked Language Model with Multi-Model Fusion
Xinquan Chang, Junguo ZhuDas Kapitel geht auf die entscheidende Rolle der automatischen Vervollständigung auf Word-Ebene (WLAC) in Systemen der computergestützten Übersetzung (CAT) ein und unterstreicht die Notwendigkeit erhöhter Genauigkeit. Er diskutiert den aktuellen Stand der WLAC-Modelle und führt einen multimodellhaften Fusionsansatz ein, der statistische Algorithmen, semantische Wissensgrundlagen und vortrainierte Sprachmodelle kombiniert, um die Wortvorhersage zu verbessern. Die vorgeschlagene Methode zeigt signifikante Verbesserungen bei der Genauigkeit, insbesondere für englische Zielsprachen, und zeigt vielversprechende Ergebnisse bei der Erfassung von Wortbedeutungen aus verschiedenen Perspektiven. Das Kapitel enthält auch umfassende Experimente und statistische Analysen, die die Komplementarität der verschiedenen Methoden des multimodellen Fusionsansatzes veranschaulichen. Dieser innovative Ansatz stellt einen wesentlichen Fortschritt im Bereich der WLAC dar und schafft die Voraussetzungen für zukünftige Forschungs- und Optimierungsstrategien.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractWord-level completion can automatically complete words as the translator types character sequences. Word-level completion can accelerate the editing process of human translation and ensure the translation quality. Although significant progress has been made in the field, there may be multiple candidate words when models predict words. Multiple words make up a list of candidate words. We improve the existing model by determining the most credible word in the candidate word list. We propose a multi-model fusion method to increase the accuracy of word-level completion. The improved model can use multiple evaluation criteria (Lesk method, WordNet knowledge base, and pre-training model) to calculate the scores of words by classification and weighting. The word with the highest score is selected as the most credible word. The experimental results prove that our proposed method is effective. In De\(\longrightarrow \)En, our method improves the accuracy by 2.83%. In Zh\(\longrightarrow \)En, our method improves the accuracy by 2.77%. -
JumpLiteGCN: A Lightweight Approach to Hierarchical Text Classification
Teng Liu, Xiangzhi Liu, Yunfeng Dong, Xiaoming WuIn diesem Kapitel wird JumpLiteGCN vorgestellt, ein neuartiger Ansatz zur hierarchischen Textklassifizierung, der gewundene Graphennetzwerke mit Sprungverbindungen nutzt, um Effizienz und Leistung zu steigern. Durch die Vereinfachung der Netzwerkstruktur und die Integration von Sprungverbindungen erfasst und nutzt JumpLiteGCN effektiv hierarchische Beziehungen, was zu verbesserter Klassifizierungsgenauigkeit und Recheneffizienz führt. Der Aufsatz stellt auch eine adaptive Verlustfunktion vor, die Gewichte auf der Grundlage hierarchischer Beziehungen anpasst und die Leistung und Verallgemeinerungsfähigkeit des Modells weiter verbessert. Umfassende Experimente mit öffentlichen Datensätzen zeigen die Überlegenheit von JumpLiteGCN gegenüber bestehenden Methoden und unterstreichen sein Potenzial, hierarchische Textklassifizierungsaufgaben zu revolutionieren.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractHierarchical text classification poses a significant challenge in natural language processing due to its intricate label hierarchy. Existing text classification methods often face dual constraints of efficiency and performance. To overcome these challenges, this study proposes a lightweight graph convolutional network model enhanced with jump connections (JumpLiteGCN). This significantly reduces the model’s complexity and computational costs by simplifying the network structure. Moreover, integrating jump connection mechanisms enhances the flow of information in deep networks, better capturing and utilizing hierarchical label information, thus significantly improving classification accuracy. In addition, we propose an adaptive loss function weight calculation method that computes the label weights based on hierarchical relationships and applies them to loss function, enabling the model to focus more on the accurate prediction of important samples during training, further enhancing the model’s performance and generalization ability. Extensive experiments conducted on two public hierarchical text classification datasets demonstrate that our method surpasses existing state-of-the-art approaches across multiple key performance metrics while significantly reducing the model’s training and inference times. -
Enhancing Complex Causality Extraction via Improved Subtask Interaction and Knowledge Fusion
Jinglong Gao, Chen Lu, Xiao Ding, Zhongyang Li, Ting Liu, Bing QinDas Kapitel geht den Herausforderungen der Event Causality Extraction (ECE) nach und unterstreicht die Notwendigkeit verbesserter Interaktion und Wissensfusion zwischen Teilaufgaben. Es stellt UniCE vor, ein einheitliches Rahmenwerk, das diese Probleme angeht, indem es die Extraktion mehrerer Kausaleffektpaare verbessert und Wissen aus vortrainierten Sprachmodellen und Wissensgrafiken effektiv integriert. UniCE verwendet mehrschichtige Komponenten zur Ereignisextraktion und Relationsidentifikation, mit Mechanismen zur Interaktion mit Teilaufgaben und Wissensfusion. Umfangreiche Experimente zeigen, dass UniCE mit drei weit verbreiteten Datensätzen State-of-the-Art-Leistungen erzielt, die ChatGPT und andere Basismethoden übertreffen. Das Kapitel umfasst auch Ablationsstudien und Fallstudien, um die Wirksamkeit der vorgeschlagenen Mechanismen zu veranschaulichen, was es zu einer wertvollen Ressource für Forscher und Praktiker im Bereich der Verarbeitung natürlicher Sprache macht.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractEvent Causality Extraction (ECE) aims at extracting causal event pairs from texts. Despite ChatGPT’s recent success, fine-tuning small models remains the best approach for the ECE task. However, existing fine-tuning based ECE methods cannot address all three key challenges in ECE simultaneously: 1) Complex Causality Extraction, where multiple causal-effect pairs occur within a single sentence; 2) Subtask Interaction, which involves modeling the mutual dependence between the two subtasks of ECE, i.e., extracting events and identifying the causal relationship between extracted events; and 3) Knowledge Fusion, which requires effectively fusing the knowledge in two modalities, i.e., the expressive pretrained language models and the structured knowledge graphs. In this paper, we propose a unified ECE framework (UniCE) to address all three issues in ECE simultaneously. Specifically, we design a subtask interaction mechanism to enable mutual interaction between the two ECE subtasks. Besides, we design a knowledge fusion mechanism to fuse knowledge in the two modalities. Furthermore, we employ separate decoders for each subtask to facilitate complex causality extraction. Experiments on three benchmark datasets demonstrate that our method achieves state-of-the-art performance and outperforms ChatGPT with a margin of at least 30% F1-score. More importantly, our model can also be used to effectively improve the ECE performance of ChatGPT via in-context learning. -
Mathematical Reasoning via Multi-step Self Questioning and Answering for Small Language Models
Kaiyuan Chen, Jin Wang, Xuejie ZhangDas Kapitel stellt eine bahnbrechende Methode namens Multi-step Self-Questioning and Answering (M-SQA) zur Verbesserung der Denkfähigkeiten von Small Language Modellen (SLMs) vor. Indem M-SQA Multi-Task-Learning und komplexitätsbasiertes Prompting nutzt, leitet es SLMs, komplexe Probleme zu lösen, indem es zunächst einfachere Teilfragen meistert. Umfangreiche Experimente zeigen, dass M-SQA bestehende Methoden übertrifft und daher ein vielversprechender Ansatz zur Verbesserung der Effizienz und Leistung von SLMs bei mathematischen Denkaufgaben ist.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractMathematical reasoning is challenging for large language models (LLMs), while the scaling relationship concerning LLM capacity is under-explored. Existing works have tried to leverage the rationales of LLMs to train small language models (SLMs) for enhanced reasoning abilities, referred to as distillation. However, most existing distillation methods have not considered guiding the small models to solve problems progressively from simple to complex, which can be a more effective way. This study proposes a multi-step self questioning and answering (M-SQA) method that guides SLMs to solve complex problems by starting from simple ones. Initially, multi-step self-questioning and answering rationales are extracted from LLMs based on complexity-based prompting. Subsequently, these rationales are employed for distilling SLMs in a multi-task learning framework, during which the model learns to multi-step reason in a self questioning and answering way and answer each sub-question in a single step iteratively. Experiments on current mathematical reasoning tasks demonstrate the effectiveness of the proposed approach. -
High-Quality Distractors Generation for Human Exam Based on Reinforcement Learning from Preference Feedback
Ruofan Wang, Yuru Jiang, Yuyang Tao, Mengyuan Li, Xia Wang, Shili GeDas Kapitel geht auf die Komplexität der Erstellung qualitativ hochwertiger Ablenkungsmanöver für Fragen des englischen Leseverständnisses ein und betont die Notwendigkeit automatischer Erzeugungstechniken. Es identifiziert drei Schlüsselkriterien für die Bewertung von Ablenkungsmanövern: Legitimität, Irreführung und Vielfalt. Die Autoren schlagen einen neuartigen Ansatz, DGRL, vor, der große Sprachmodelle und verstärktes Lernen kombiniert, um Ablenkungsmanöver zu erzeugen, die diese Kriterien erfüllen. Experimentelle Ergebnisse zeigen die Effektivität der DGRL bei der Herstellung qualitativ hochwertiger Ablenkungsmanöver, die frühere Methoden übertreffen und das Potenzial des verstärkten Lernens in der Bildungsbewertung hervorheben.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractDistractors are incorrect answer options designed to mislead or confuse test-takers in multiple-choice reading comprehension questions. In real-world exam settings, creating distractors for English reading comprehension questions is complex and varied, with subjective and diverse evaluation standards. Developing a distractor generation technique that meets real-world requirements is a highly challenging task with significant research value. To address these challenges, we introduce DGRL (Distractors Generation based on Reinforcement Learning from preference feedback), a method using cutting-edge large language models trained through reinforcement learning to generate multiple distractors for real-world human exam. First, the distractor generation model is fine-tuned through supervised fine-tuning (SFT) on a reading comprehension question dataset. Then, using preference feedback reinforcement learning, we build and train a reward model to evaluate the quality of individual distractors. Combining the reward model with a diversity evaluation metric, we design an objective function and further train the fine-tuned model using reinforcement learning. Experiments show that the DGRL, after SFT and reinforcement learning, can generate multiple high-quality distractors that meet the real-world requirements in one go, serving as a valuable reference and aid in real-world question-setting for human exam. -
Modeling Comparative Logical Relation with Contrastive Learning for Text Generation
Yuhao Dan, Junfeng Tian, Jie Zhou, Ming Yan, Ji Zhang, Qin Chen, Liang HeDas Kapitel vertieft sich in die Aufgabe der Data-to-Text-Generierung (D2T) und konzentriert sich auf die Herausforderung, vergleichende logische Beziehungen (CLRs) zwischen Entitäten zu verbalisieren. Es unterstreicht die Bedeutung von CLRs für Entscheidungsfindung und Lernen und führt einen neuen Datensatz ein, den chinesischen Vergleichsdatensatz für logische Beziehungen (CLRD), um die Forschung in diesem Bereich zu erleichtern. Die vorgeschlagene CoLo-Methode verwendet eine zweistufige kontrastive Lernstrategie, um das Verständnis und die Generierung von Text mit korrekter vergleichender Logik zu verbessern. Die Methode umfasst die Erstellung positiver und negativer Proben, um die Fähigkeit des Modells zu verbessern, verschiedene Vergleichselemente präzise zu handhaben. Umfangreiche Experimente und menschliche Auswertungen bestätigen die Überlegenheit der CoLo-Methode bei der Erstellung qualitativ hochwertiger Beschreibungen mit vergleichenden logischen Zusammenhängen und machen sie zu einem bedeutenden Beitrag auf dem Gebiet der Erzeugung natürlicher Sprache.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractData-to-Text Generation (D2T), a classic natural language generation problem, aims at producing fluent descriptions for structured input data, such as a table. Existing D2T works mainly focus on describing the superficial associative relations among entities, while ignoring the deep comparative logical relations, such as A is better than B in a certain aspect with a corresponding opinion, which is quite common in our daily life. In this paper, we introduce a new D2T task named comparative logical relation generation (CLRG). Additionally, we propose a Comparative Logic (CoLo) based text generation method, which generates texts following specific comparative logical relations with contrastive learning. Specifically, we first construct various positive and negative samples by fine-grained perturbations in entities, aspects and opinions. Then, we perform contrastive learning in the encoder layer to have a better understanding of the comparative logical relations, and integrate it in the decoder layer to guide the model to correctly generate the relations. Noting the data scarcity problem, we construct a Chinese Comparative Logical Relation Dataset (CLRD), which is a high-quality human-annotated dataset and challenging for text generation with descriptions of multiple entities and annotations on their comparative logical relations. Extensive experiments show that our method achieves impressive performance in both automatic and human evaluations. -
MANet: A Multiview Attention Network for Automatic ICD Coding
Hualei Shen, Haizhu Wang, Guoqing Shangguan, Dong LiuDas Kapitel stellt MANet vor, ein bahnbrechendes tiefes neuronales Netzwerk, das dazu entwickelt wurde, den Kodierungsprozess der Internationalen Klassifikation von Krankheiten (ICD) zu automatisieren. Die traditionelle ICD-Kodierung durch medizinisches Fachpersonal ist zeitaufwändig und fehleranfällig, wodurch automatisierte Lösungen von entscheidender Bedeutung sind. MANet nimmt sich dieser Herausforderung an, indem es einen mehrdimensionalen Aufmerksamkeitsmechanismus einsetzt, der grobe, globale und lokale Merkmale aus klinischen Notizen extrahiert und verschmilzt, wodurch umfassendere und differenziertere Darstellungen entstehen. Dieser innovative Ansatz übertrifft bestehende Methoden, wie umfangreiche Experimente mit Benchmark-Datensätzen gezeigt haben. Das Kapitel enthält auch einen gründlichen Vergleich mit hochmodernen Modellen, wobei die überlegenen Lernfähigkeiten von MANet und sein Potenzial, das Informationsmanagement im Gesundheitswesen zu revolutionieren, hervorgehoben werden.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractAutomatically assigning multiple International Classification of Diseases (ICD) codes to a clinical note is challenging due to the unstructured and verbose nature of medical records. Currently, most methods employ deep neural networks to learn the representation of clinical notes from a single perspective. These single-view-based methods overlook the exploitation and fusion of multiview features to enhance the precision of ICD coding. In this paper, we propose a new Multiview Attention Network (MANet) to extract and fuse multiview features for ICD coding. MANet includes a specially designed multiview attention scheme to extract and fuse coarse, global, and local features from clinical notes. Additionally, a novel cascaded multilayer perceptron (MLP) block and a multiscale convolution block are designed to extract global and local features, respectively. Self-attention and cross-attention are integrated to effectively fuse these multiview features, generating more informative and discriminative representations. Extensive experiments conducted on the popular MIMIC-III and MIMIC-IV-ICD9 datasets demonstrate the superiority of our proposed MANet over state-of-the-art methods. On MIMIC-III, MANet achieves a Macro-AUC of 0.953, Micro-AUC of 0.993, Macro-F1 of 0.135, Micro-F1 of 0.596, precision at top 8 (P@8) of 0.773, and precision at top 15 (P@15) of 0.617. On MIMIC-IV-ICD9, MANet achieves a Macro-AUC of 0.968, Micro-AUC of 0.996, Macro-F1 of 0.146, Micro-F1 of 0.614, P@8 of 0.698, and P@15 of 0.526. -
Chinese Grammar Correction Model Based on Semantic Enhancement and Feedback Mechanism
Zhujian Zhang, Peiyu Zhao, Bo LiuDas Kapitel stellt ein chinesisches Grammatikkorrekturmodell vor, das semantische Verbesserungs- und Rückkopplungsmechanismen nutzt, um die Erkennung und Korrektur grammatikalischer Fehler zu verbessern. Es kategorisiert chinesische Grammatikfehler in vier Typen und adressiert Herausforderungen wie die begrenzte Größe der Datensätze und die Vielfalt der Fehlerformen. Das Modell verwendet die Pairwise Character Interaction (PCI) -Technik während des Trainings, um die Darstellung grammatikalischer Merkmale zu verbessern und einen feedbackbasierten Mechanismus während des Tests zur Erkennung und Korrektur von Mehrfachfehlern. Das PCI-Modul umfasst Untermodule für gegenseitiges Vektorlernen, semantische Zeichengenerierung und feindliche Interaktion. Der Feedback-Mechanismus verfeinert Korrekturen iterativ, was das Modell besonders effektiv im Umgang mit komplexen grammatikalischen Fehlern macht. Experimentelle Ergebnisse zeigen die überlegene Leistung des Modells auf verschiedenen Datensätzen der Chinesischen Grammatik-Fehlerdiagnose (CGED) und unterstreichen sein Potenzial für praktische Anwendungen in chinesischen Sprachlern- und Textverarbeitungssystemen.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractThe Chinese grammar detection and correction system can automatically identify error positions and correct erroneous characters. Currently, there are still challenges in the research, such as the limited size of publicly available Chinese error correction datasets, the diversity of Chinese grammar error forms, and the difficulty in representing the distribution of grammar errors. Additionally, pre-trained Chinese language models lack the ability to differentiate between similar characters or words, affecting the accuracy of Chinese sentence detection and correction. In this paper, we propose a model based on grammar enhancement and feedback mechanism. During the model training phase, the Pairwise Character Interaction (PCI) module is used to enhance the grammatical representation of the text encoder. It employs various gating mechanisms based on character pairs to highlight the semantic features of grammatical errors at erroneous character positions. Furthermore, during the testing phase, our model (PCIFM) utilizes a feedback mechanism to edit and iteratively correct erroneous results. The proposed model was evaluated on publicly available CGED datasets, achieving the highest detection F1 scores on the test sets of CGED 2017, CGED 2018, and CGED 2020, respectively. -
Domain Adaptation for Chinese Offensive Language Detection
Hao Ying, Qiongrong Ou, Chengjun Fan, Lin Mei, Shuyu Zhang, Xu XuDas Kapitel geht der kritischen Frage nach, wie beleidigende Sprache in den sozialen Medien Chinas erkannt werden kann, eine Herausforderung, die durch das Fehlen kommentierter Daten noch verschärft wird. Es führt Anpassungstechniken in Bereichen ein, um die Kluft zwischen Sprachen und Kulturen zu überbrücken und die Leistungsfähigkeit von Sprachmodellen zu verbessern. Die Studie bewertet verschiedene Modelle und Anpassungsmethoden und zeigt das Potenzial des Transferlernens in interkulturellen Kontexten auf. Die Ergebnisse bieten wertvolle Einblicke in die Verbesserung der Genauigkeit und Robustheit von Systemen zur Erkennung beleidigender Sprache, was sie zu einem Pflichtlektüre für Fachleute auf diesem Gebiet macht.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractAccurate detection of offensive language is crucial for maintaining harmony on social media platforms. However, the lack of well-annotated datasets makes it challenging to classify semantically Chinese offensive language using deep learning. To this end, we have studied how to transfer rich corpus knowledge from other languages to Chinese, exploring the impact of data from different cultural backgrounds on the detection of offensive language in Chinese under various conditions. We found that when enough Chinese corpus and labeling information are available, domain adaptation can prevent negative transfers caused by cultural differences while utilizing rich corpus knowledge to enhance detection performance. In a zero-shot learning environment, domain adaptation allows the effective transfer of corpus knowledge from specific languages to Chinese language detection tasks based on the model’s linguistic background, thereby enhancing the performance of monolingual models in cross-lingual tasks. Our research indicates that domain adaptation plays a positive role in cross-cultural transfer detection. -
An Enhanced Method for Mongolian-Chinese Neural Machine Translation Using Multilingual Datastores and Chinese-Centric Methods
Bailun Wang, Yatu Ji, Nier Wu, Xu Liu, Yanli Wang, Rui Mao, Chao Zhou, Yepai Jia, Chen Zhao, Qing-Dao-Er-Ji Ren, Na LiuDieses Kapitel befasst sich mit den Fortschritten der Neuronalen Maschinellen Übersetzung (NMT) für Sprachpaare mit geringen Ressourcen, insbesondere mit der mongolisch-chinesischen Übersetzung. Es beleuchtet die Herausforderungen, die sich aus der Knappheit paralleler Korpora ergeben, und führt eine neue Methode ein, die mehrsprachige k-next neighbour machine translation (kNN-MT) mit chinesisch-zentrischen Techniken kombiniert. Durch den Aufbau eines mehrsprachigen Datenspeichers und den Einsatz innovativer Verlustfunktionen und Re-Ranking-Techniken zeigt die Studie wesentliche Verbesserungen bei der Übersetzungsqualität. Das Kapitel behandelt auch die Integration von kontrastivem Lernen und den Aufbau eines reichhaltigen mehrsprachigen Datenspeichers, der die Fähigkeit des Modells verbessert, Aufgaben der Sprachübersetzung mit geringen Ressourcen effektiv zu bewältigen. Experimentelle Ergebnisse zeigen die signifikanten Verbesserungen, die durch diesen Ansatz erreicht wurden, und machen ihn zu einer wertvollen Ressource für Forscher und Praktiker im Bereich der maschinellen Übersetzung.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractLow-resource language translation remains a significant challenge in natural language processing, particularly for the Mongolian-Chinese language pair under the “Belt and Road” initiative. Existing translation systems struggle with this pair due to the scarcity of high-quality data. This paper addresses these challenges by combining multilingual k-nearest-neighbor machine translation (kNN-MT) with Chinese-centric methods. We constructed a robust multilingual datastore and introduced an incomplete-trust loss function to effectively manage low-quality data. Additionally, we implemented re-ranking techniques to further enhance the robustness and accuracy of the translation model. The experimental results indicate that this combined approach significantly improves Mongolian-Chinese translation quality on the mBART model, with a BLEU score increase of 3.81 points and a TER score decrease of 0.0531 points. Our findings demonstrate that integrating kNN-MT with Chinese-centric methods and employing advanced loss functions and re-ranking techniques can effectively address data scarcity and quality issues, leading to substantial improvements in translation performance for low-resource language pairs. -
From Claim to Evidence: Verifying Chinese Health Claims with Medical Literature
Chaoyuan Zuo, Yishuang Liu, Chenlu Wang, Ritwik BanerjeeDas Kapitel geht der entscheidenden Bedeutung der Überprüfung gesundheitsbezogener Angaben in Online-Nachrichtenartikeln nach, insbesondere solchen aus chinesischen Quellen, um die Verbreitung von Fehlinformationen zu verhindern. Es beleuchtet die Entwicklung von Verifikationsmethoden, einschließlich des Einsatzes automatisierter Faktenprüfungstechnologien und externer Beweisquellen wie Wikipedia. Die Autoren stellen einen spezialisierten Datensatz vor, der für Aufgaben zur Informationsgewinnung konzipiert wurde und 8.647 gesundheitsbezogene Angaben aus chinesischen Nachrichtenquellen und biomedizinischen Literaturdokumenten enthält. Der Verifikationsprozess gliedert sich in zwei Phasen: das Abrufen einer Kandidatenliste von Abstracts und die Neueinstufung mittels eines transformatorbasierten Cross-Encoders. Das Kapitel diskutiert auch die Herausforderungen, Ansprüche aufgrund sprachlicher und stilistischer Unterschiede mit wissenschaftlicher Literatur in Einklang zu bringen. Die Autoren präsentieren Experimente mit verschiedenen Algorithmen und Modellen, die die Effektivität domänenspezifischen Wissens bei der Informationsgewinnung demonstrieren. Das Kapitel schließt mit der Betonung der Notwendigkeit eines verantwortungsvollen Medienkonsums und sorgfältiger Faktenprüfung, um genaue Gesundheitsinformationen zu fördern.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractEnsuring the accuracy of health claims in media is vital for public well-being, and evidence-based claim verification is critical in achieving this goal. However, identifying relevant biomedical literature as evidence for health claims is particularly challenging, especially within cross-genre and cross-lingual contexts. We propose an ad hoc information retrieval (IR) task to identify support for Chinese health claims obtained from Chinese news sources. We demonstrate the feasibility of such a task by presenting experiments on a novel dataset of pairs of Chinese health claims and English biomedical literature. We describe a two-step methodology comprising (i) a selection of the most relevant candidates from 764K research papers, and (ii) a final re-ranking of this selection. Our comprehensive experimental research demonstrates that incorporating domain-specific information significantly enhances retrieval accuracy and claim verification efficacy. This strategy is a major step toward improving the credibility of public health information dissemination and reducing the prevalence of falsehoods in health journalism. -
Part-of-Speech and Confusion-Set Constrained Language Model for Vietnamese Spelling Correction Corpus Construction
Ying Li, Xin Chen, Xiao Liu, Ling Dong, Zhengtao Yu, Cunli MaoDas Kapitel konzentriert sich auf die Herausforderung der vietnamesischen Rechtschreibfehlerkorrektur (VSEC) und stellt einen neuartigen Ansatz zur Konstruktion eines qualitativ hochwertigen Korpus vor, der sprachliche Beschränkungen und Verwirrungssituationen berücksichtigt. Es konstruiert zunächst ein grundlegendes Korpus durch ASR-Generierung und menschliche Anmerkungen und setzt diese Einschränkungen dann ein, um verschiedene Pseudokorpora zu generieren. Die Methode verbessert sowohl Seq2Seq- als auch Seq2Edit-Modelle und zeigt signifikante Verbesserungen bei der Rechtschreibfehlerkorrektur. Die Arbeit umfasst auch eine detaillierte Analyse der Auswirkungen von POS- und Verwirrungsinformationen, die deren komplementären Charakter bei der Erzeugung von Korpus offenbaren. Das Kapitel schließt mit der Hervorhebung der Wirksamkeit der vorgeschlagenen Methode bei der Nachahmung praktischer Datenverteilungen und der Konstruktion eines stabilen und vielfältigen Pseudokorpus.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractSupervised spelling error correction models have achieved outstanding performances on rich-source languages. However, these models are difficult to directly apply to Vietnamese spelling correction due to the corpus scarcity. To address this issue, we first construct a basic high-quality Vietnamese Spelling Correction (ViSC) corpus via automatic speech recognition (ASR) generation and human annotation. Then, we propose a part-of-speech and confusion-set double-constrained method to mimic the practical error distribution and use them as external knowledge to guide the large language models (LLMs) to construct diverse pseudo data. Finally, we exploit pseudo corpora to pre-train and ViSC corpus to fine-tune spelling error correction models. Experiments on the benchmark dataset show that our proposed corpus construction method consistently outperforms various baselines, leading to state-of-the-art results on all Vietnamese-specific pre-trained language model-enhanced spelling correction models. Detailed analysis demonstrates that part-of-speech and confusion-set are complementary and significant in controlling a stable and diverse corpus generation. In-depth comparison experiments reveal that the proper utilization of pseudo corpus is essential for improving Vietnamese spelling error correction. Besides, we release our codes and constructed corpus at https://github.com/DarkFanta3y/VSEC_corpus to facilitate future research. -
Identifying Speakers and Addressees of Quotations in Novels with Prompt Learning
Yuchen Yan, Hanjie Zhao, Senbin Zhu, Hongde Liu, Zhihong Zhang, Yuxiang JiaDas Kapitel geht der entscheidenden Rolle nach, Sprecher und Adressaten in neuartigen Zitaten zu identifizieren, um Charakterbeziehungen aufzudecken. Es stellt JY-QuotePlus vor, ein neues chinesisches Korpus, das sowohl Sprecher als auch Adressaten enthält, und vergleicht die Leistung von fein abgestimmten, vortrainierten Modellen mit großen Sprachmodellen zu dieser Aufgabe. Die Autoren verwenden einen maschinellen Leseverständnis-Ansatz und entwerfen spezifische Anregungen, um die Leistung des Modells zu verbessern. Experimentelle Ergebnisse zeigen, dass fein abgestimmte Modelle die allgemeinen großen Sprachmodelle übertreffen, was die Wirksamkeit der vorgeschlagenen Methode unterstreicht. Das Kapitel bietet auch eine detaillierte Analyse des Korpus und diskutiert zukünftige Forschungsrichtungen in diesem Bereich.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractQuotations in literary works, especially novels, are important to create characters, reflect character relationships, and drive plot development. Current research on quotation extraction in novels primarily focuses on quotation attribution, i.e., identifying the speaker of the quotation. However, the addressee of the quotation is also important to construct the relationship between the speaker and the addressee. To tackle the problem of dataset scarcity, we annotate the first Chinese quotation corpus with elements including speaker, addressee, speaking mode and linguistic cue. We propose prompt learning-based methods for speaker and addressee identification based on fine-tuned pre-trained models. Experiments on both Chinese and English datasets show the effectiveness of the proposed methods, which outperform methods based on zero-shot and few-shot large language models. -
Knowledge-Enhanced Utterance Domain Classification with Keywords-Assisted Concept Denoising Network
Peijie Huang, Boxi Huang, Yuhong Xu, Weiting Chen, Jia LiDas Kapitel geht den Herausforderungen der Klassifizierung von Äusserungsdomänen in Spoken Language Understanding (SLU) -Systemen nach und beleuchtet die Grenzen datengestützter neuronaler Klassifikationsmodelle. Es führt ein Keyword-gestütztes Konzept zur Denozialisierung von Netzwerken ein, das sowohl lokale als auch globale Keywords nutzt, um externes Wissen zu verfeinern, wodurch die Leistung der Domänenklassifizierung für Äußerungen erheblich verbessert wird. Die Methodik wird durch umfangreiche Experimente mit chinesischen SLU-Datensätzen validiert, die im Vergleich zu bestehenden Modellen bessere Ergebnisse zeigen. Der innovative Ansatz der Verwendung von Schlüsselwörtern zur Unterscheidung wertvoller Konzepte vom Rauschen hebt dieses Kapitel im Bereich der Verarbeitung natürlicher Sprache ab.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractUtterance Domain Classification (UDC) is essential for Spoken Language Understanding (SLU), a task analogous to short text classification. Short texts are often challenging to understand due to their lack of context, necessitating the enrichment of their semantic representation with supplementary information such as concepts from external knowledge bases. However, the inclusion of concepts introduces noise, making the selection of valuable concepts challenging. This paper proposes a UDC method employing keyword-guided signals to enhance the purity of external knowledge. We use two keyword extraction strategies to construct two types of keywords. A keyword-assisted concept denoising module addresses the concept noise problem, and a knowledge injection module is designed to better integrate concepts into the model. Experimental results on two Chinese SLU datasets demonstrate that our model achieves state-of-the-art performance. -
Don’t Click the Bait: Title Debiasing News Recommendation via Cross-Field Contrastive Learning
Yijie Shu, Xiaokun Zhang, Youlin Wu, Bo Xu, Liang Yang, Hongfei LinDas Kapitel befasst sich mit dem weit verbreiteten Problem des Klickköders in Nachrichtenempfehlungen, der Nutzer in die Irre führen und das Vertrauen in die Authentizität von Nachrichten verringern kann. Traditionelle Methoden stützen sich häufig stark auf Nachrichtentitel, die anfällig für Klickköder sind. Die Autoren schlagen das TDNR-C-Rahmenwerk vor, das kontrastives, feldübergreifendes Lernen nutzt, um Titel und abstrakte Informationen zu vergleichen und so das durch Clickbait verursachte Rauschen zu verringern. Das Rahmenwerk umfasst ein MultiField Knowledge Extraction Modul, um eine vorzeitige Integration verrauschter Informationen zu verhindern, und ein Cross-Field Contrastive Learning Modul, um die semantische Relevanz zwischen Titeln und Abstracts zu erhöhen. Umfangreiche Experimente und Fallstudien zeigen die Wirksamkeit von TDNR-C bei der Verringerung von Klickködern und der Verbesserung der Genauigkeit von Nachrichtenempfehlungen. Das Kapitel unterstreicht die Bedeutung abstrakter Informationen für die Bereitstellung authentischer Nachrichteninhalte und den innovativen Einsatz kontrastiver Lerntechniken, um der Clickbait-Herausforderung zu begegnen.KI-Generiert
Diese Zusammenfassung des Fachinhalts wurde mit Hilfe von KI generiert.
AbstractNews recommendation emerges as a primary means for users to access content of interest from the vast amount of news. The title clickbait extensively exists in news domain and increases the difficulty for news recommendation to offer satisfactory services for users. Fortunately, we find that news abstract, as a critical field of news, aligns cohesively with the news authenticity. To this end, we propose a Title Debiasing News Recommendation with Cross-field Contrastive learning (TDNR-C\(^{2}\)) to overcome the title bias by incorporating news abstract. Specifically, a multi-field knowledge extraction module is devised to extract multi-view knowledge about news from various fields. Afterwards, we present a cross-field contrastive learning module to conduct bias removal via contrasting learned knowledge from title and abstract fileds. Experimental results on a real-world dataset demonstrate the superiority of the proposed TDNR-C\(^{2}\) over existing state-of-the-art methods. Further analysis also indicates the significance of news abstract for title debiasing.
-
- Titel
- Natural Language Processing and Chinese Computing
- Herausgegeben von
-
Derek F. Wong
Zhongyu Wei
Muyun Yang
- Copyright-Jahr
- 2025
- Verlag
- Springer Nature Singapore
- Electronic ISBN
- 978-981-9794-40-9
- Print ISBN
- 978-981-9794-39-3
- DOI
- https://doi.org/10.1007/978-981-97-9440-9
Informationen zur Barrierefreiheit für dieses Buch folgen in Kürze. Wir arbeiten daran, sie so schnell wie möglich verfügbar zu machen. Vielen Dank für Ihre Geduld.