Skip to main content

2018 | OriginalPaper | Buchkapitel

Training Neural Networks Using Predictor-Corrector Gradient Descent

verfasst von : Amy Nesky, Quentin F. Stout

Erschienen in: Artificial Neural Networks and Machine Learning – ICANN 2018

Verlag: Springer International Publishing

Aktivieren Sie unsere intelligente Suche, um passende Fachinhalte oder Patente zu finden.

search-config
loading …

Abstract

We improve the training time of deep feedforward neural networks using a modified version of gradient descent we call Predictor-Corrector Gradient Descent (PCGD). PCGD uses predictor-corrector inspired techniques to enhance gradient descent. This method uses a sparse history of network parameter values to make periodic predictions of future parameter values in an effort to skip unnecessary training iterations. This method can cut the number of training epochs needed for a network to reach a particular testing accuracy by nearly one half when compared to stochastic gradient descent (SGD). PCGD can also outperform, with some trade-offs, Nesterov’s Accelerated Gradient (NAG).

Sie haben noch keine Lizenz? Dann Informieren Sie sich jetzt über unsere Produkte:

Springer Professional "Wirtschaft+Technik"

Online-Abonnement

Mit Springer Professional "Wirtschaft+Technik" erhalten Sie Zugriff auf:

  • über 102.000 Bücher
  • über 537 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Maschinenbau + Werkstoffe
  • Versicherung + Risiko

Jetzt Wissensvorsprung sichern!

Springer Professional "Technik"

Online-Abonnement

Mit Springer Professional "Technik" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 390 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Maschinenbau + Werkstoffe




 

Jetzt Wissensvorsprung sichern!

Springer Professional "Wirtschaft"

Online-Abonnement

Mit Springer Professional "Wirtschaft" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 340 Zeitschriften

aus folgenden Fachgebieten:

  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Versicherung + Risiko




Jetzt Wissensvorsprung sichern!

Fußnoten
1
One caution ought to be mentioned here: brain predictions also enable prejudices, so one must be careful how much trust is placed in predictions.
 
2
Note that the jacobian, J, is not specific to the column of \(A_{t+1}\).
 
Literatur
1.
Zurück zum Zitat Andrychowicz, M., et al.: Learning to learn by gradient descent by gradient descent. In: NIPS (2016) Andrychowicz, M., et al.: Learning to learn by gradient descent by gradient descent. In: NIPS (2016)
2.
Zurück zum Zitat Beck, A., et al.: A fast iterative shrinkage-thresholding algorithm for linear inverse problems. SIAM J. Imaging Sci. 2(1), 183–202 (2009)MathSciNetCrossRef Beck, A., et al.: A fast iterative shrinkage-thresholding algorithm for linear inverse problems. SIAM J. Imaging Sci. 2(1), 183–202 (2009)MathSciNetCrossRef
3.
Zurück zum Zitat Cassioli, A., et al.: An incremental least squares algorithm for large scale linear classification. Eur. J. Oper. Res. 224(3), 560–565 (2013)MathSciNetCrossRef Cassioli, A., et al.: An incremental least squares algorithm for large scale linear classification. Eur. J. Oper. Res. 224(3), 560–565 (2013)MathSciNetCrossRef
4.
Zurück zum Zitat Daniel, C., et al.: Learning step size controllers for robust neural network training. In: AAAI (2016) Daniel, C., et al.: Learning step size controllers for robust neural network training. In: AAAI (2016)
5.
Zurück zum Zitat Dozat, T.: Incorporating Nesterov momentum into Adam. In: ICLR Workshop (2016) Dozat, T.: Incorporating Nesterov momentum into Adam. In: ICLR Workshop (2016)
6.
Zurück zum Zitat Duchi, J., et al.: Adaptive subgradient methods for online learning and stochastic optimization. JMLR 12, 2121–2159 (2011)MathSciNetMATH Duchi, J., et al.: Adaptive subgradient methods for online learning and stochastic optimization. JMLR 12, 2121–2159 (2011)MathSciNetMATH
8.
Zurück zum Zitat Ho, Q., et al.: More effective distributed ML via a stale synchronous parallel parameter server. In: NIPS, pp. 1223–1231 (2013) Ho, Q., et al.: More effective distributed ML via a stale synchronous parallel parameter server. In: NIPS, pp. 1223–1231 (2013)
9.
Zurück zum Zitat Hratchian, H., et al.: Steepest descent reaction path integration using a first-order predictor-corrector method. J. Chem. Phys. 133(22), 224101 (2010)CrossRef Hratchian, H., et al.: Steepest descent reaction path integration using a first-order predictor-corrector method. J. Chem. Phys. 133(22), 224101 (2010)CrossRef
10.
Zurück zum Zitat Kingma, D., et al.: Adam: a method for stochastic optimization. In: ICLR (2015) Kingma, D., et al.: Adam: a method for stochastic optimization. In: ICLR (2015)
11.
Zurück zum Zitat Krizhevsky, A.: Learning multiple layers of features from tiny images. Technical report, Computer Science, University of Toronto (2009) Krizhevsky, A.: Learning multiple layers of features from tiny images. Technical report, Computer Science, University of Toronto (2009)
12.
Zurück zum Zitat Krizhevsky, A.: cuda-convnet. Technical report, Computer Science, University of Toronto (2012) Krizhevsky, A.: cuda-convnet. Technical report, Computer Science, University of Toronto (2012)
13.
Zurück zum Zitat Krizhevsky, A., et al.: ImageNet classification with deep convolutional neural networks. In: NIPS, pp. 1106–1114 (2012) Krizhevsky, A., et al.: ImageNet classification with deep convolutional neural networks. In: NIPS, pp. 1106–1114 (2012)
14.
Zurück zum Zitat Luca, M.D., et al.: Optimal perceived timing: integrating sensory information with dynamically updated expectations. Sci. Rep. 6, 28563 (2016)CrossRef Luca, M.D., et al.: Optimal perceived timing: integrating sensory information with dynamically updated expectations. Sci. Rep. 6, 28563 (2016)CrossRef
17.
Zurück zum Zitat Nesterov, Y.: A method of solving a convex programming problem with convergence rate o(1/sqr(k)). Soviet Mathematics Doklady 27, 372–376 (1983)MATH Nesterov, Y.: A method of solving a convex programming problem with convergence rate o(1/sqr(k)). Soviet Mathematics Doklady 27, 372–376 (1983)MATH
18.
Zurück zum Zitat Netzer, Y., et al.: Reading digits in natural images with unsupervised feature learning. In: NIPS Workshop on Deep Learning and Unsupervised Feature Learning (2011) Netzer, Y., et al.: Reading digits in natural images with unsupervised feature learning. In: NIPS Workshop on Deep Learning and Unsupervised Feature Learning (2011)
19.
Zurück zum Zitat Polyak, B.: Some methods of speeding up the convergence of iteration methods. USSR Comput. Math. Math. Phys. 4(5), 1–17 (1964)CrossRef Polyak, B.: Some methods of speeding up the convergence of iteration methods. USSR Comput. Math. Math. Phys. 4(5), 1–17 (1964)CrossRef
20.
Zurück zum Zitat Scieur, D., et al.: Regularized nonlinear acceleration. In: NIPS (2016) Scieur, D., et al.: Regularized nonlinear acceleration. In: NIPS (2016)
21.
Zurück zum Zitat Simonetto, A., et al.: Prediction-correction methods for time-varying convex optimization. In: IEEE Asilomar Conference on Signals, Systems and Computers (2015) Simonetto, A., et al.: Prediction-correction methods for time-varying convex optimization. In: IEEE Asilomar Conference on Signals, Systems and Computers (2015)
22.
Zurück zum Zitat Süli, E., et al.: An Introduction to Numerical Analysis, pp. 325–329 (2003) Süli, E., et al.: An Introduction to Numerical Analysis, pp. 325–329 (2003)
23.
Zurück zum Zitat Tieleman, T., et al.: Lecture 6a - rmsprop. COURSERA: Neural Networks for Machine Learning (2012) Tieleman, T., et al.: Lecture 6a - rmsprop. COURSERA: Neural Networks for Machine Learning (2012)
25.
Zurück zum Zitat Zhang, Y., et al.: Prediction-adaptation-correction recurrent neural networks for low-resource language speech recognition. arXiv:1510.08985 (2015) Zhang, Y., et al.: Prediction-adaptation-correction recurrent neural networks for low-resource language speech recognition. arXiv:​1510.​08985 (2015)
26.
Zurück zum Zitat Zhang, Y., et al.: Speech recognition with prediction-adaptation-correction recurrent neural networks. In: IEEE ICASSP (2015) Zhang, Y., et al.: Speech recognition with prediction-adaptation-correction recurrent neural networks. In: IEEE ICASSP (2015)
Metadaten
Titel
Training Neural Networks Using Predictor-Corrector Gradient Descent
verfasst von
Amy Nesky
Quentin F. Stout
Copyright-Jahr
2018
DOI
https://doi.org/10.1007/978-3-030-01424-7_7

Premium Partner