Skip to main content
Erschienen in:

09.01.2020

An Impartial Trimming Approach for Joint Dimension and Sample Reduction

verfasst von: Luca Greco, Antonio Lucadamo, Pietro Amenta

Erschienen in: Journal of Classification | Ausgabe 3/2020

Einloggen

Aktivieren Sie unsere intelligente Suche, um passende Fachinhalte oder Patente zu finden.

search-config
loading …

Abstract

Reduzierte und faktorielle k-Mittel sind Techniken zur Datenreduzierung, die sich gut zur gleichzeitigen Dimensionierung und Probenreduzierung durch PCA und Clustering eignen. Das Auftreten von Datenunzulänglichkeiten kann Standardanalysen entkräften. Tatsächlich kann die Kontamination in den vorliegenden Daten die zugrunde liegende Clusterstruktur der Daten verbergen. Ein attraktiver Ansatz zur Entwicklung robuster Gegenstücke zu faktoriellen und reduzierten k-Mitteln wird durch unvoreingenommenes Trimmen gegeben. Die Idee ist, einen Bruchteil der Beobachtungen zu verwerfen, die als am weitesten von den Zentroiden entfernt ausgewählt werden. Das endliche Probenverhalten der vorgeschlagenen Methoden wurde durch einige numerische Studien und reale Datenbeispiele untersucht.

Sie haben noch keine Lizenz? Dann Informieren Sie sich jetzt über unsere Produkte:

Springer Professional "Wirtschaft+Technik"

Online-Abonnement

Mit Springer Professional "Wirtschaft+Technik" erhalten Sie Zugriff auf:

  • über 102.000 Bücher
  • über 537 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Maschinenbau + Werkstoffe
  • Versicherung + Risiko

Jetzt Wissensvorsprung sichern!

Springer Professional "Technik"

Online-Abonnement

Mit Springer Professional "Technik" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 390 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Maschinenbau + Werkstoffe




 

Jetzt Wissensvorsprung sichern!

Springer Professional "Wirtschaft"

Online-Abonnement

Mit Springer Professional "Wirtschaft" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 340 Zeitschriften

aus folgenden Fachgebieten:

  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Versicherung + Risiko




Jetzt Wissensvorsprung sichern!

Literatur
Zurück zum Zitat Atkinson, A. (1994). Fast very robust methods for the detection of multiple outliers. Journal of the American Statistical Association, 89(428), 1329–1339.MATHCrossRef Atkinson, A. (1994). Fast very robust methods for the detection of multiple outliers. Journal of the American Statistical Association, 89(428), 1329–1339.MATHCrossRef
Zurück zum Zitat Cerioli, A., & Farcomeni, A. (2011). Error rates for multivariate outlier detection. Computational Statistics & Data Analysis, 55(1), 544–553.MathSciNetMATHCrossRef Cerioli, A., & Farcomeni, A. (2011). Error rates for multivariate outlier detection. Computational Statistics & Data Analysis, 55(1), 544–553.MathSciNetMATHCrossRef
Zurück zum Zitat Croux, C., Filzmoser, P., Fritz, H. (2013). Robust sparse principal component analysis. Technometrics, 55(2), 202–214.MathSciNetCrossRef Croux, C., Filzmoser, P., Fritz, H. (2013). Robust sparse principal component analysis. Technometrics, 55(2), 202–214.MathSciNetCrossRef
Zurück zum Zitat Cuesta-Albertos, J., Gordaliza, A., Matrán, C. (1997). Trimmed k-means: an attempt to robustify quantizers. The Annals of Statistics, 25(2), 553–576.MathSciNetMATHCrossRef Cuesta-Albertos, J., Gordaliza, A., Matrán, C. (1997). Trimmed k-means: an attempt to robustify quantizers. The Annals of Statistics, 25(2), 553–576.MathSciNetMATHCrossRef
Zurück zum Zitat De Soete, G., & Carroll, J.D. (1994). K-means clustering in a low-dimensional euclidean space. In: New approaches in classification and data analysis (pp. 212–219). Springer. De Soete, G., & Carroll, J.D. (1994). K-means clustering in a low-dimensional euclidean space. In: New approaches in classification and data analysis (pp. 212–219). Springer.
Zurück zum Zitat Dotto, F., Farcomeni, A., García-Escudero, L.A., Mayo-Iscar, A. (2017). A fuzzy approach to robust regression clustering. Advances in Data Analysis and Classification, 11(4), 691–710.MathSciNetMATHCrossRef Dotto, F., Farcomeni, A., García-Escudero, L.A., Mayo-Iscar, A. (2017). A fuzzy approach to robust regression clustering. Advances in Data Analysis and Classification, 11(4), 691–710.MathSciNetMATHCrossRef
Zurück zum Zitat Dotto, F., Farcomeni, A., García-Escudero, L.A., Mayo-Iscar, A. (2018). A reweighting approach to robust clustering. Statistics and Computing, 28(2), 477–493.MathSciNetMATHCrossRef Dotto, F., Farcomeni, A., García-Escudero, L.A., Mayo-Iscar, A. (2018). A reweighting approach to robust clustering. Statistics and Computing, 28(2), 477–493.MathSciNetMATHCrossRef
Zurück zum Zitat Farcomeni, A. (2009). Robust double clustering: a method based on alternating concentration steps. Journal of Classification, 26(1), 77–101.MathSciNetMATHCrossRef Farcomeni, A. (2009). Robust double clustering: a method based on alternating concentration steps. Journal of Classification, 26(1), 77–101.MathSciNetMATHCrossRef
Zurück zum Zitat Farcomeni, A., & Greco, L. (2015). Robust methods for data reduction. CRC press. Farcomeni, A., & Greco, L. (2015). Robust methods for data reduction. CRC press.
Zurück zum Zitat Frank, A., & Asuncion, A. (2010). UCI Machine learning repository university of california school of information and computer science. Irvine, CA. Frank, A., & Asuncion, A. (2010). UCI Machine learning repository university of california school of information and computer science. Irvine, CA.
Zurück zum Zitat Gallegos, M., & Ritter, G. (2005). A robust method for cluster analysis. Annals of Statistics, 347–380. Gallegos, M., & Ritter, G. (2005). A robust method for cluster analysis. Annals of Statistics, 347–380.
Zurück zum Zitat Garcia-Escudero, L.A., & Gordaliza, A. (1999). Robustness properties of k means and trimmed k means. Journal of the American Statistical Association, 94(447), 956–969.MathSciNetMATH Garcia-Escudero, L.A., & Gordaliza, A. (1999). Robustness properties of k means and trimmed k means. Journal of the American Statistical Association, 94(447), 956–969.MathSciNetMATH
Zurück zum Zitat García-Escudero, L.A., Gordaliza, A., Matrán, C. (2003). Trimming tools in exploratory data analysis. Journal of Computational and Graphical Statistics, 12(2), 434–449.MathSciNetCrossRef García-Escudero, L.A., Gordaliza, A., Matrán, C. (2003). Trimming tools in exploratory data analysis. Journal of Computational and Graphical Statistics, 12(2), 434–449.MathSciNetCrossRef
Zurück zum Zitat García-Escudero, L.A., Gordaliza, A., Matrán, C., Mayo-Iscar A. (2011). Exploring the number of groups in robust model-based clustering. Statistics and Computing, 21(4), 585–599.MathSciNetMATHCrossRef García-Escudero, L.A., Gordaliza, A., Matrán, C., Mayo-Iscar A. (2011). Exploring the number of groups in robust model-based clustering. Statistics and Computing, 21(4), 585–599.MathSciNetMATHCrossRef
Zurück zum Zitat Gebeyaw M. (2017). Web scraping and applied clustering global happiness and social progress index. datasciencepluscom. Gebeyaw M. (2017). Web scraping and applied clustering global happiness and social progress index. datasciencepluscom.
Zurück zum Zitat Gordaliza, A. (1991). Best approximations to random variables based on trimming procedures. Journal of Approximation Theory, 64(2), 162–180.MathSciNetMATHCrossRef Gordaliza, A. (1991). Best approximations to random variables based on trimming procedures. Journal of Approximation Theory, 64(2), 162–180.MathSciNetMATHCrossRef
Zurück zum Zitat Greco, L., & Farcomeni, A. (2016). A plug-in approach to sparse and robust principal component analysis. Test, 25(3), 449–481.MathSciNetMATHCrossRef Greco, L., & Farcomeni, A. (2016). A plug-in approach to sparse and robust principal component analysis. Test, 25(3), 449–481.MathSciNetMATHCrossRef
Zurück zum Zitat Helliwell, J., Layard, R., Sachs, J. (2017). World happiness report 2017. Helliwell, J., Layard, R., Sachs, J. (2017). World happiness report 2017.
Zurück zum Zitat Hubert, L., & Arabie, P. (1985). Comparing partitions. Journal of Classification, 2(1), 193–218.MATHCrossRef Hubert, L., & Arabie, P. (1985). Comparing partitions. Journal of Classification, 2(1), 193–218.MATHCrossRef
Zurück zum Zitat Kaufman, L., & Rousseeuw, P. (2009). Finding groups in data: an introduction to cluster analysis Vol. 344. New York: Wiley. Kaufman, L., & Rousseeuw, P. (2009). Finding groups in data: an introduction to cluster analysis Vol. 344. New York: Wiley.
Zurück zum Zitat Rocci, R., Gattone, S.A., Vichi, M. (2011). A new dimension reduction method: Factor discriminant k-means. Journal of Classification, 28(2), 210–226.MathSciNetMATHCrossRef Rocci, R., Gattone, S.A., Vichi, M. (2011). A new dimension reduction method: Factor discriminant k-means. Journal of Classification, 28(2), 210–226.MathSciNetMATHCrossRef
Zurück zum Zitat Rocke, D.M., & Woodruff, D.L. (1996). Identification of outliers in multivariate data. Journal of the American Statistical Association, 91(435), 1047–1061.MathSciNetMATHCrossRef Rocke, D.M., & Woodruff, D.L. (1996). Identification of outliers in multivariate data. Journal of the American Statistical Association, 91(435), 1047–1061.MathSciNetMATHCrossRef
Zurück zum Zitat Rousseeuw, P., & Driessen, K. (1999). A fast algorithm for the minimum covariance determinant estimator. Technometrics, 41(3), 212–223.CrossRef Rousseeuw, P., & Driessen, K. (1999). A fast algorithm for the minimum covariance determinant estimator. Technometrics, 41(3), 212–223.CrossRef
Zurück zum Zitat Timmerman, M., Ceulemans, E., Kiers, H.A., Vichi, M. (2010). Factorial and reduced k-means reconsidered. Computational Statistics & Data Analysis, 54(7), 1858–1871.MathSciNetMATHCrossRef Timmerman, M., Ceulemans, E., Kiers, H.A., Vichi, M. (2010). Factorial and reduced k-means reconsidered. Computational Statistics & Data Analysis, 54(7), 1858–1871.MathSciNetMATHCrossRef
Zurück zum Zitat Vichi, M., & Kiers, H. (2001). Factorial k-means analysis for two-way data. Computational Statistics & Data Analysis, 37(1), 49–64.MathSciNetMATHCrossRef Vichi, M., & Kiers, H. (2001). Factorial k-means analysis for two-way data. Computational Statistics & Data Analysis, 37(1), 49–64.MathSciNetMATHCrossRef
Zurück zum Zitat Vichi, M., Rocci, R., Kiers, H.A. (2007). Simultaneous component and clustering models for three-way data: within and between approaches. Journal of Classification, 24(1), 71–98.MathSciNetMATHCrossRef Vichi, M., Rocci, R., Kiers, H.A. (2007). Simultaneous component and clustering models for three-way data: within and between approaches. Journal of Classification, 24(1), 71–98.MathSciNetMATHCrossRef
Zurück zum Zitat Zou, H., Hastie, T., Tibshirani, R. (2006). Sparse principal component analysis. Journal of Computational and Graphical Statistics, 15(2), 265–286.MathSciNetCrossRef Zou, H., Hastie, T., Tibshirani, R. (2006). Sparse principal component analysis. Journal of Computational and Graphical Statistics, 15(2), 265–286.MathSciNetCrossRef
Metadaten
Titel
An Impartial Trimming Approach for Joint Dimension and Sample Reduction
verfasst von
Luca Greco
Antonio Lucadamo
Pietro Amenta
Publikationsdatum
09.01.2020
Verlag
Springer US
Erschienen in
Journal of Classification / Ausgabe 3/2020
Print ISSN: 0176-4268
Elektronische ISSN: 1432-1343
DOI
https://doi.org/10.1007/s00357-019-09354-0