Skip to main content
Erschienen in: Advances in Data Analysis and Classification 2/2015

01.06.2015 | Regular Article

Correspondence analysis of textual data involving contextual information: CA-GALT on principal components

verfasst von: Mónica Bécue-Bertaut, Jérôme Pagès

Erschienen in: Advances in Data Analysis and Classification | Ausgabe 2/2015

Einloggen

Aktivieren Sie unsere intelligente Suche, um passende Fachinhalte oder Patente zu finden.

search-config
loading …

Abstract

Correspondence analysis on an aggregated lexical table is a typical practice in textual analysis in which a contextual categorical variable is used to aggregate documents, depending on the categories to which they belong. This work generalises this approach and considers several quantitative, categorical or mixed contextual variables. The result is a new method that we have called ‘correspondence analysis on a generalised aggregated lexical table’. A favoured application derives from surveys by questionnaire, including both open-ended and closed questions. The free-text answers are encoded into a respondents \(\times \) words frequency table called a lexical table. The closed questions, either quantitative or categorical, form the contextual variables. The primary objective is to establish a typology of the variables and a typology of the words from their mutual relationships as grasped from jointly analysing the textual and contextual tables. Validation tests are offered, particularly in the form of confidence ellipses. The comprehensive and numerous properties of the method, similar to correspondence analysis properties, are detailed. Promising results are obtained as indicated by an application to a marketing survey conducted among 1,000 respondents.

Sie haben noch keine Lizenz? Dann Informieren Sie sich jetzt über unsere Produkte:

Springer Professional "Wirtschaft+Technik"

Online-Abonnement

Mit Springer Professional "Wirtschaft+Technik" erhalten Sie Zugriff auf:

  • über 102.000 Bücher
  • über 537 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Maschinenbau + Werkstoffe
  • Versicherung + Risiko

Jetzt Wissensvorsprung sichern!

Springer Professional "Technik"

Online-Abonnement

Mit Springer Professional "Technik" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 390 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Maschinenbau + Werkstoffe




 

Jetzt Wissensvorsprung sichern!

Springer Professional "Wirtschaft"

Online-Abonnement

Mit Springer Professional "Wirtschaft" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 340 Zeitschriften

aus folgenden Fachgebieten:

  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Versicherung + Risiko




Jetzt Wissensvorsprung sichern!

Literatur
Zurück zum Zitat Balbi S, Giordano G (2001) A factorial technique for analyzing textual data with external information. In: Borra S, Rocci R, Vichi M, Schader M (eds) Advances in classification and data analysis. Springer, Heidelberg, pp 169–176 Balbi S, Giordano G (2001) A factorial technique for analyzing textual data with external information. In: Borra S, Rocci R, Vichi M, Schader M (eds) Advances in classification and data analysis. Springer, Heidelberg, pp 169–176
Zurück zum Zitat Balbi S, Misuraca M (2010) A doubly projected analysis for lexical tables. In: Skiadas CH (ed) Advances in data analysis, statistics for industry and technology. Birkhäuser, Boston, pp 13–19 Balbi S, Misuraca M (2010) A doubly projected analysis for lexical tables. In: Skiadas CH (ed) Advances in data analysis, statistics for industry and technology. Birkhäuser, Boston, pp 13–19
Zurück zum Zitat Bécue-Bertaut M, Pagès J (2004) A principal axes method for comparing multiple contingency tables: mfact. Comput Stat Data Anal 45:481–503CrossRefMATH Bécue-Bertaut M, Pagès J (2004) A principal axes method for comparing multiple contingency tables: mfact. Comput Stat Data Anal 45:481–503CrossRefMATH
Zurück zum Zitat Bécue-Bertaut M, Pagès J (2008) Multiple factor analysis and clustering of a mixture of quantitative, categorical and frequency data. Comput Stat Data Anal 52:3255–3268CrossRefMATH Bécue-Bertaut M, Pagès J (2008) Multiple factor analysis and clustering of a mixture of quantitative, categorical and frequency data. Comput Stat Data Anal 52:3255–3268CrossRefMATH
Zurück zum Zitat Benzécri JP (1973) L’Analyse des Données., Tome I: L’Analyse des Correspondances. Dunod, Paris Benzécri JP (1973) L’Analyse des Données., Tome I: L’Analyse des Correspondances. Dunod, Paris
Zurück zum Zitat Benzécri JP (1981) Pratique de l’Analyse des Données, Tome III., Linguistique & Lexicologie. Dunod, Paris Benzécri JP (1981) Pratique de l’Analyse des Données, Tome III., Linguistique & Lexicologie. Dunod, Paris
Zurück zum Zitat Brandimarte P (2011) Quantitative methods: an introduction for business management. Wiley, On line library Brandimarte P (2011) Quantitative methods: an introduction for business management. Wiley, On line library
Zurück zum Zitat D’Ambra L, Lauro NC (1982) Analisi in component principali in rapport ad un sottospazio di referimento. Riv Stat Appl 15:51–67 D’Ambra L, Lauro NC (1982) Analisi in component principali in rapport ad un sottospazio di referimento. Riv Stat Appl 15:51–67
Zurück zum Zitat Escofier B, Pagès J (2008) Analyses factorielles simples et multiples, 4th edn. Dunod, Paris Escofier B, Pagès J (2008) Analyses factorielles simples et multiples, 4th edn. Dunod, Paris
Zurück zum Zitat Esposito Vinzi V (2001) Exploratory methods for comparative analysis. Chemometr Intell Lab 58:275–286CrossRef Esposito Vinzi V (2001) Exploratory methods for comparative analysis. Chemometr Intell Lab 58:275–286CrossRef
Zurück zum Zitat Härdle K, Simar L (2012) Applied Multivariate Statistical Analysis. Springer, LondonCrossRefMATH Härdle K, Simar L (2012) Applied Multivariate Statistical Analysis. Springer, LondonCrossRefMATH
Zurück zum Zitat Jollife IT (1982) A note on the use of principal components in regression. Appl Stat 31:300–303CrossRef Jollife IT (1982) A note on the use of principal components in regression. Appl Stat 31:300–303CrossRef
Zurück zum Zitat Lauro NC, D’Ambra L (1984) L’analyse non symétrique des correspondances. In: Diday E, Jambu M, Lebart L, Pagès J, Tomassone R (eds) Data analysis and informatics, vol III. North Holland, Amsterdam Lauro NC, D’Ambra L (1984) L’analyse non symétrique des correspondances. In: Diday E, Jambu M, Lebart L, Pagès J, Tomassone R (eds) Data analysis and informatics, vol III. North Holland, Amsterdam
Zurück zum Zitat Lebart L, Salem A, Berry L (1998) Exploring textual data. Kluwer, DordrechtCrossRef Lebart L, Salem A, Berry L (1998) Exploring textual data. Kluwer, DordrechtCrossRef
Zurück zum Zitat Lebart L, Piron M, Morineau A (2006) Statistique exploratoire multidimensionnelle. Visualisation et inférence en fouilles de données, 4th edn. Dunod, Paris Lebart L, Piron M, Morineau A (2006) Statistique exploratoire multidimensionnelle. Visualisation et inférence en fouilles de données, 4th edn. Dunod, Paris
Zurück zum Zitat Lebreton JD, Chessel D, Prodon R, Yoccoz N (1988) L’analyse des relations espèces-milieu par l’analyse canonique des correspondances. i. variables de milieu quantitatives. Acta Oecol 9:53–67 Lebreton JD, Chessel D, Prodon R, Yoccoz N (1988) L’analyse des relations espèces-milieu par l’analyse canonique des correspondances. i. variables de milieu quantitatives. Acta Oecol 9:53–67
Zurück zum Zitat Legendre P, Legendre L (1998) Numerical ecology, 2nd edn. Elsevier Science, AmsterdamMATH Legendre P, Legendre L (1998) Numerical ecology, 2nd edn. Elsevier Science, AmsterdamMATH
Zurück zum Zitat Massy WF (1965) Principal components regression in exploratory statistical research. J Am Stat Assoc 60:234–256CrossRef Massy WF (1965) Principal components regression in exploratory statistical research. J Am Stat Assoc 60:234–256CrossRef
Zurück zum Zitat Murtagh F (2005) Correspondence analysis and data coding with java and R. Chapman & Hall, Boca RatonCrossRef Murtagh F (2005) Correspondence analysis and data coding with java and R. Chapman & Hall, Boca RatonCrossRef
Zurück zum Zitat Preda C, Saporta G. (2005) PLS regression on a stochastic process. Comput Stat Data Anal 48:149–158 Preda C, Saporta G. (2005) PLS regression on a stochastic process. Comput Stat Data Anal 48:149–158
Zurück zum Zitat Saporta G (2011) Probabilités, analyse des données et statistiques, 3rd edn. Technip, Paris Saporta G (2011) Probabilités, analyse des données et statistiques, 3rd edn. Technip, Paris
Zurück zum Zitat Takane Y (1997) CPCA: a comprehensive theory. In: Proceedings of the 1997 IEEE international conference on systems, man and cybernetics (SMC). IEEE, Orlando, pp 35–40 Takane Y (1997) CPCA: a comprehensive theory. In: Proceedings of the 1997 IEEE international conference on systems, man and cybernetics (SMC). IEEE, Orlando, pp 35–40
Zurück zum Zitat Takane Y, Yanai H, Mayekawa S (1991) Relationships among several methods of linearly constrained correspondence analysis. Psychometrika 56:667–684CrossRefMATHMathSciNet Takane Y, Yanai H, Mayekawa S (1991) Relationships among several methods of linearly constrained correspondence analysis. Psychometrika 56:667–684CrossRefMATHMathSciNet
Zurück zum Zitat ter Braak CJF (1986) Canonical correspondence analysis: a new eigenvector technique for multivariate direct gradient analysis. Ecology 67:1167–1179CrossRef ter Braak CJF (1986) Canonical correspondence analysis: a new eigenvector technique for multivariate direct gradient analysis. Ecology 67:1167–1179CrossRef
Zurück zum Zitat ter Braak CJF (1987) Canoco—a FORTRAN program for canonical community ordination by [partial] [detrended] [canonical] correspondence analysis (version 2.1), ITI-TNO Institute of Applied Computer Sciences, Wageningen ter Braak CJF (1987) Canoco—a FORTRAN program for canonical community ordination by [partial] [detrended] [canonical] correspondence analysis (version 2.1), ITI-TNO Institute of Applied Computer Sciences, Wageningen
Zurück zum Zitat Tufféry S (2005) Data mining et statistique décisionnelle. Technip, Paris Tufféry S (2005) Data mining et statistique décisionnelle. Technip, Paris
Metadaten
Titel
Correspondence analysis of textual data involving contextual information: CA-GALT on principal components
verfasst von
Mónica Bécue-Bertaut
Jérôme Pagès
Publikationsdatum
01.06.2015
Verlag
Springer Berlin Heidelberg
Erschienen in
Advances in Data Analysis and Classification / Ausgabe 2/2015
Print ISSN: 1862-5347
Elektronische ISSN: 1862-5355
DOI
https://doi.org/10.1007/s11634-014-0171-9

Weitere Artikel der Ausgabe 2/2015

Advances in Data Analysis and Classification 2/2015 Zur Ausgabe