Skip to main content
Erschienen in: Soft Computing 8/2016

12.05.2015 | Methodologies and Application

A study of large-scale data clustering based on fuzzy clustering

verfasst von: Yangyang Li, Guoli Yang, Haiyang He, Licheng Jiao, Ronghua Shang

Erschienen in: Soft Computing | Ausgabe 8/2016

Einloggen

Aktivieren Sie unsere intelligente Suche, um passende Fachinhalte oder Patente zu finden.

search-config
loading …

Abstract

Large-scale data are any data that cannot be loaded into the main memory of the ordinary. This is not the objective definition of large-scale data, but it is easy to understand what the large-scale data is. We first introduce some present algorithms to clustering large-scale data, some data stream clustering algorithms based on FCM algorithms are also introduced. In this paper, we propose a new structure to cluster large-scale data and two new data stream clustering algorithms based on the structure are propose in Sects. 3 and 4. In our method, we load the objects in the dataset one by one. We set a threshold of the membership, if the membership of one object and a cluster center is bigger than the threshold, the object is assigned to the cluster and the location of nearest cluster center will be updated, else the object is put into the temporary matrix; we call it pool. When the pool is full, we cluster the data in the pool and update the location of cluster centers. The two algorithms are based on the data stream structure. The difference of the two algorithms is the how the objects in the data are weighed. We test our algorithms on handwritten digits images dataset and several large-scale UCI datasets and make a comparison with some presented algorithms. The experiments proved that our algorithm is more suitable to cluster large-scale datasets.

Sie haben noch keine Lizenz? Dann Informieren Sie sich jetzt über unsere Produkte:

Springer Professional "Wirtschaft+Technik"

Online-Abonnement

Mit Springer Professional "Wirtschaft+Technik" erhalten Sie Zugriff auf:

  • über 102.000 Bücher
  • über 537 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Maschinenbau + Werkstoffe
  • Versicherung + Risiko

Jetzt Wissensvorsprung sichern!

Springer Professional "Wirtschaft"

Online-Abonnement

Mit Springer Professional "Wirtschaft" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 340 Zeitschriften

aus folgenden Fachgebieten:

  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Versicherung + Risiko




Jetzt Wissensvorsprung sichern!

Springer Professional "Technik"

Online-Abonnement

Mit Springer Professional "Technik" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 390 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Maschinenbau + Werkstoffe




 

Jetzt Wissensvorsprung sichern!

Literatur
Zurück zum Zitat Cheng T, Goldgof D, Hall L (1995) Fast clustering with application to fuzzy rule generation. In: Proceedings of IEEE international conference fuzzy system, Tokyo, Japan, pp 2289–2295. doi:10.1109/FUZZY.1995.409998 Cheng T, Goldgof D, Hall L (1995) Fast clustering with application to fuzzy rule generation. In: Proceedings of IEEE international conference fuzzy system, Tokyo, Japan, pp 2289–2295. doi:10.​1109/​FUZZY.​1995.​409998
Zurück zum Zitat Guha S, Rastogi R, Shim K (1998) CURE: an efficient clustering algorithm for large databases. In: Proceedings of ACM-SIGMOD international conference management of data (SIGMOD’ 98), ACM Press. New York, pp 73–84. doi:10.1016/S0306-4379(01)00008-4 Guha S, Rastogi R, Shim K (1998) CURE: an efficient clustering algorithm for large databases. In: Proceedings of ACM-SIGMOD international conference management of data (SIGMOD’ 98), ACM Press. New York, pp 73–84. doi:10.​1016/​S0306-4379(01)00008-4
Zurück zum Zitat Hore P, Hall LO, Goldgof DB (2007) Single pass fuzzy c means. IEEE international fuzzy systems conference, Imperial College, London, UK, 23–26 July, 2007, Proceedings pp 1–7. doi:10.1109/FUZZY.2007.4295372 Hore P, Hall LO, Goldgof DB (2007) Single pass fuzzy c means. IEEE international fuzzy systems conference, Imperial College, London, UK, 23–26 July, 2007, Proceedings pp 1–7. doi:10.​1109/​FUZZY.​2007.​4295372
Zurück zum Zitat Zhang T, Ramakrishnan R, Livny M (1996) BIRCH: an efficient data clustering method for very large databases. In: Proceedings ACM SIGMOD conference, Montreal, Canada, pp 103–114. doi:10.1145/233269.233324 Zhang T, Ramakrishnan R, Livny M (1996) BIRCH: an efficient data clustering method for very large databases. In: Proceedings ACM SIGMOD conference, Montreal, Canada, pp 103–114. doi:10.​1145/​233269.​233324
Metadaten
Titel
A study of large-scale data clustering based on fuzzy clustering
verfasst von
Yangyang Li
Guoli Yang
Haiyang He
Licheng Jiao
Ronghua Shang
Publikationsdatum
12.05.2015
Verlag
Springer Berlin Heidelberg
Erschienen in
Soft Computing / Ausgabe 8/2016
Print ISSN: 1432-7643
Elektronische ISSN: 1433-7479
DOI
https://doi.org/10.1007/s00500-015-1698-1

Weitere Artikel der Ausgabe 8/2016

Soft Computing 8/2016 Zur Ausgabe

Premium Partner