Skip to main content

Einführung in die Item-Response-Theorie (IRT)

  • Chapter
  • First Online:
Testtheorie und Fragebogenkonstruktion

Zusammenfassung

In diesem Kapitel erfolgt eine Einführung in die Item-Response-Theorie (IRT). Die grundlegende testtheoretische Idee der IRT besteht darin, die Wahrscheinlichkeit eines gezeigten Antwortverhaltens („Response“) einer Person bei einem Item (z. B. das Bejahen/Nichtbejahen einer Aussage in einem Einstellungstest bzw. das Lösen/Nichtlösen einer Aufgabe in einem Leistungstest) in Form einer (zumeist einfachen) Wahrscheinlichkeitsfunktion zu beschreiben. Das Kapitel beginnt mit verschiedenen Grundüberlegungen zu dichotomen Itemformaten und ihren Zusammenhängen. Danach erfolgt eine Einführung in die Latent-Trait-Modelle in Abgrenzung zu Latent-Class-Modellen. Das dichotome Rasch-Modell (1PL-Modell) bildet ein sehr grundlegendes Modell der IRT. Hier werden Konzepte der Rasch-Homogenität, Itemcharakteristische Funktionen (IC-Funktionen), Joint Scale, Interpretationen von Item- und Personenparametern, Parameternormierung, Spezifische Objektivität, Parameterschätzung und Modellpassung behandelt. Das 2PL-Modell und 3PL-Modell nach Birnbaum und ihre Eigenschaften werden danach vorgestellt. Abschließend wird ein Ausblick auf weitere IRT-Modelle gegeben.

This is a preview of subscription content, log in via an institution to check access.

Access this chapter

Chapter
USD 29.95
Price excludes VAT (USA)
  • Available as PDF
  • Read on any device
  • Instant download
  • Own it forever
eBook
USD 54.99
Price excludes VAT (USA)
  • Available as EPUB and PDF
  • Read on any device
  • Instant download
  • Own it forever
Hardcover Book
USD 69.99
Price excludes VAT (USA)
  • Durable hardcover edition
  • Dispatched in 3 to 5 business days
  • Free shipping worldwide - see info

Tax calculation will be finalised at checkout

Purchases are for personal use only

Institutional subscriptions

Literatur

  • Amelang, M., Bartussek, D., Stemmler, G. & Hagemann, D. (2006). Differentielle Psychologie und Persönlichkeitsforschung (6. Aufl.). Stuttgart: Kohlhammer.

    Google Scholar 

  • Amthauer, R. (1970). Intelligenz-Struktur-Test (I-S-T 70). Göttingen: Hogrefe.

    Google Scholar 

  • Andersen, E. B. (1973). A goodness of fit test for the Rasch model. Psychometrika, 38, 123–140.

    Google Scholar 

  • Andersen, E. B. (1995). Polytomous Rasch models and their estimation. In G. H. Fischer & I. W. Molenaar (Eds.), Rasch models: Foundations, recent developments, and applications (pp. 271–291). New York: Springer.

    Google Scholar 

  • Andrich, D. (1978). A rating formulation for ordered response categories. Psychometrika, 43, 561–573.

    Google Scholar 

  • Bock, R. D. & Aitkin, M. (1981). Marginal maximum likelihood estimation of item parameters: Application of an EM algorithm. Psychometrika, 46, 443–459.

    Google Scholar 

  • Bock, R. D. & Lieberman, M. (1970). Fitting a response model for dichotomously scored items. Psychometrika, 35, 179–197.

    Google Scholar 

  • Bortz, J. & Schuster, C. (2010). Statistik für Human- und SozialwissenschaftlerSpringer-Lehrbuch (7. Aufl.). Berlin, Heidelberg: Springer.

    Google Scholar 

  • Cai, L. & Thissen, D. (2014). Modern approaches to parameter estimation in item response theory. In S. P. Reise & D. Revicki (Eds.), Handbook of Item Response Theory Modeling: Applications to Typical Performance Assessment. New York, NY: Taylor & Francis.

    Google Scholar 

  • Carstensen, C. H., Frey, A., Walter, O. & Knoll, S. (2007). Technische Grundlagen des dritten internationalen Vergleichs. In M. Prenzel, C. Artelt, J. Baumert, W. Blum, M. Hammann, E. Klieme & R. Pekrun (Hrsg.), PISA 2006. Die Ergebnisse der dritten internationalen Vergleichsstudie (S. 367–390). Münster: Waxmann.

    Google Scholar 

  • Eid, M. & Schmidt, K. (2014). Testtheorie und Testkonstruktion. Göttingen: Hogrefe.

    Google Scholar 

  • Fahrenberg, J., Hampel, R. & Selg, H. (2001). Das Freiburger Persönlichkeitsinventar FPI-R mit neuer Normierung. Handanweisung (7. Aufl.). Göttingen: Hogrefe.

    Google Scholar 

  • Fischer, G. H. (1974). Einführung in die Theorie psychologischer Tests. Bern: Huber.

    Google Scholar 

  • Fischer, G. H. (1983). Neuere Testtheorie. In J. Bredenkamp & H. Feger (Hrsg.), Messen und Testen (S. 604–692). Göttingen: Hogrefe.

    Google Scholar 

  • Fischer, G. H. (1995a). Linear logistic models for change. In G. H. Fischer & I. W. Molenaar (Eds.), Rasch models: Foundations, recent developments, and applications (pp. 157–180). New York: Springer.

    Google Scholar 

  • Fischer, G. H. (1995b). The linear logistic test model, In G. H. Fischer & I. W. Molenaar (Eds.), Rasch models: Foundations, recent developments, and applications (pp. 131–155). New York: Springer.

    Google Scholar 

  • Fischer, G. H. (1996). IRT-Modelle als Forschungsinstrumente der Differentiellen Psychologie. In K. Pawlik (Hrsg.), Grundlagen und Methoden der Differentiellen Psychologie (S. 673–729). Göttingen: Hogrefe.

    Google Scholar 

  • Fischer, G. H. & Molenaar, I. W. (Eds.). (1995). Rasch models: Foundations, recent developments, and applications. New York: Springer.

    Google Scholar 

  • Fischer, G. H. & Parzer, P. (1991). An extension of the rating scale model with an application to the measurement of treatment effects. Psychometrika, 56, 637–651.

    Google Scholar 

  • Fischer, G. H. & Ponocny, I. (1995). Extended rating scale and partial credit models for assessing change. In G. H. Fischer, I. W. Molenaar (Eds.). Rasch models: Foundations, recent developments, and applications (pp. 353–370). New York: Springer.

    Google Scholar 

  • Formann, A. K. (1984). Die Latent-Class-Analyse. Weinheim: Beltz.

    Google Scholar 

  • Formann, A. K. (1993). Some simple latent class models for attitudinal scaling in the presence of polytomous items. Methodika, 7, 62–78.

    Google Scholar 

  • Gittler, G. (1990). Dreidimensionaler Würfeltest (3DW). Ein Rasch-skalierter Test zur Messung des räumlichen Vorstellungsvermögens. Weinheim: Beltz.

    Google Scholar 

  • Gittler, G. & Wild, B. (1988). Der Einsatz des LLTM bei der Konstruktion eines Itempools für das adaptive Testen. In K. D. Kubinger (Hrsg.), Moderne Testtheorie (S. 115–139). Weinheim: Psychologie Verlags Union.

    Google Scholar 

  • Glas, C. A. W. & Verhelst, N. D. (1989). Extensions of the partial credit model. Psychometrika, 54, 635–659.

    Google Scholar 

  • Guttmann, G. & Ettlinger, S. C. (1991). Susceptibility to stress and anxiety in relation to performance, emotion, and personality: The ergopsychometric approach. In C. D. Spielberger, I. G. Sarason, J. Strelau & J. M. T. Brebner (Eds.), Stress and anxiety (Vol. 13, pp. 23–52). New York: Hemisphere Publishing Corporation.

    Google Scholar 

  • Hartig, J. (2007). Skalierung und Definition von Kompetenzniveaus. In E. Klieme & B. Beck (Hrsg.) 2007. Sprachliche Kompetenzen – Konzepte und Messung. DESI-Studie (Deutsch Englisch Schülerleistungen International) (S. 83–99). Weinheim: Beltz.

    Google Scholar 

  • Hartig, J., Klieme, E. & Leutner, D. (Eds.). (2008). Assessment of competencies in educational contexts. Göttingen: Hogrefe.

    Google Scholar 

  • Holland, P. & Wainer, H. (1993). Differential item functioning. New York: Erlbaum.

    Google Scholar 

  • Klauer, K. C. (1991). An exact and optimal standardized person fit test for assessing consistency with the Rasch model. Psychometrika, 56, 213–228.

    Google Scholar 

  • Klauer, K. C. (1995). The assessment of person fit. In G. H. Fischer & I. W. Molenaar (Eds.), Raschmodels: Foundations, recent developments, and applications (pp. 97–110). New York: Springer.

    Google Scholar 

  • Klieme, E., Baumert, J., Köller, O. & Bos, W. (2000). Mathematische und naturwissenschaftliche Grundbildung: Konzeptuelle Grundlagen und die Erfassung und Skalierung von Kompetenzen. In J. Baumert, W. Bos & R. H. Lehmann (Hrsg.) TIMSS/III. Dritte internationale Mathematik- und Naturwissenschaftsstudie. Band 1: Mathematische und naturwissenschaftliche Grundbildung am Ende der Pflichtschulzeit. Opladen: Leske + Buderich.

    Google Scholar 

  • Köller, O. (1993). Die Identifikation von Ratern bei Leistungstests mit Hilfe des Mixed-Rasch-Modells. Vortrag auf der 1. Tagung der Fachgruppe Methoden der Deutschen Gesellschaft für Psychologie in Kiel. Empirische Pädagogik (o. A.).

    Google Scholar 

  • Kubinger, K. D. (1995). Einführung in die Diagnostik. Weinheim: Psychologie Verlags Union.

    Google Scholar 

  • Kubinger, K. D. (2003). Adaptives Testen. In K. D. Kubinger & R. S. Jäger (Hrsg.), Schlüsselbegriffe der Psychologischen Diagnostik. Weinheim: Beltz PVU.

    Google Scholar 

  • Kubinger, K. D. & Wurst, E. (2000). Adaptives Intelligenz Diagnostikum (AID 2). Göttingen: Hogrefe.

    Google Scholar 

  • Lord, F. M. (1980). Applications of item response theory to practical testing problems. Hillsdale: Erlbaum.

    Google Scholar 

  • Lord, F. N. & Nowick, M. R. (1968). Statistical theories of mental test scores. Reading, MA: Addison-Wesley.

    Google Scholar 

  • Masters, G. N. (1982). A Rasch model for partial credit scoring. Psychometrika, 47, 149–174.

    Google Scholar 

  • Masters, G. N. & Wright, B. D. (1984). The essential process in a family of measurement models. Psychometrika, 49, 529–544.

    Google Scholar 

  • Molenaar, I. W. & Hoijtink, H. (1990). The many null distributions of person fit indices. Psychometrika, 55, 75–106.

    Google Scholar 

  • Müller, H. (1987). A Rasch model for continuous ratings. Psychometrika, 52, 165–181.

    Google Scholar 

  • Müller, H. (1999). Probabilistische Testmodelle für diskrete und kontinuierliche Ratingskalen. Bern: Huber.

    Google Scholar 

  • OECD (2017). PISA 2015 Technical Report. Paris: OECD.

    Google Scholar 

  • Rasch, G. (1961). On general laws and the meaning of measurement in psychology. In J. Neyman (Ed.), Proceedings of the Fourth Berkeley Symposium on Mathematical Statistics and Probability (Vol. 4, pp. 321–333). Berkeley, CA: University of California Press.

    Google Scholar 

  • Rost, J. (1988). Quantitative und qualitative probabilistische Testtheorie. Bern: Huber.

    Google Scholar 

  • Rost, J. (1990). Rasch models in latent classes: An integration of two approaches to item analysis. Applied Psychological Measurement, 14, 271–282.

    Google Scholar 

  • Rost, J. (2004). Lehrbuch Testtheorie – Testkonstruktion (2. Aufl.). Bern: Huber.

    Google Scholar 

  • Rost, J. (2006). Item-Response-Theorie. In F. Petermann & M. Eid (Hrsg.), Handbuch der psychologischen Diagnostik. Göttingen: Hogrefe.

    Google Scholar 

  • Rost, J. & Spada, H. (1983). Die Quantifizierung von Lerneffekten anhand von Testdaten. Zeitschrift für Differentielle und Diagnostische Psychologie, 4, 29–49.

    Google Scholar 

  • Scheiblechner, H. (1972). Das Lernen und Lösen komplexer Denkaufgaben. Zeitschrift für experimentelle und angewandte Psychologie, 19, 476–506.

    Google Scholar 

  • Snijders, T. A. B. (2001). Asymptotic Null Distribution of Person Fit Statistics with Estimated Person Parameter. Psychometrika, 66, 331–342.

    Google Scholar 

  • Strauß, B., Köller, O. & Möller, J. (1996). Geschlechtsrollentypologien – eine empirische Prüfung des additiven und des balancierten Modells. Zeitschrift für Differentielle und Diagnostische Psychologie, 17, 67–83.

    Google Scholar 

  • Strobl, C. (2012). Das Rasch-Modell: Eine verständliche Einführung für Studium und Praxis (Sozialwissenschaftliche Forschungsmethoden). Hampp, Mering.

    Google Scholar 

  • Strobl, C., Kopf, J. & Zeileis, A. (2010). Wissen Frauen weniger oder nur das Falsche? Ein statistisches Modell für unterschiedliche Aufgaben-Schwierigkeiten in Teilstichproben. In S. Trepte & M. Verbeet (Hrsg.), Allgemeinbildung in Deutschland. Erkenntnisse aus dem SPIEGEL-Studentenpisa-Test (S. 255–272). Wiesbaden: VS Verlag für Sozialwissenschaften.

    Google Scholar 

  • Tarnai, C. & Rost, J. (1990). Identifying aberrant response patterns in the Rasch model. The Q Index. Sozialwissenschaftliche Forschungsdokumentation. Münster: Institut für sozialwissenschaftliche Forschung e. V.

    Google Scholar 

  • van den Wollenberg, A. L. (1988). Testing a latent trait model. In R. Langeheine & J. Rost (Eds.), Latent trait and latent class models (pp. 31–50). New York: Plenum.

    Google Scholar 

  • Warm, T. (1989). Weighted likelihood estimation of ability in item response theory. Psychometrika, 54(3), 427–450.

    Google Scholar 

  • Wright, B. D. & Masters, G. N. (1982). Rating scale analysis. Chicago: MESA Press.

    Google Scholar 

Download references

Author information

Authors and Affiliations

Authors

Corresponding author

Correspondence to Augustin Kelava .

Editor information

Editors and Affiliations

Rights and permissions

Reprints and permissions

Copyright information

© 2020 Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature

About this chapter

Check for updates. Verify currency and authenticity via CrossMark

Cite this chapter

Kelava, A., Moosbrugger, H. (2020). Einführung in die Item-Response-Theorie (IRT). In: Moosbrugger, H., Kelava, A. (eds) Testtheorie und Fragebogenkonstruktion. Springer, Berlin, Heidelberg. https://doi.org/10.1007/978-3-662-61532-4_16

Download citation

  • DOI: https://doi.org/10.1007/978-3-662-61532-4_16

  • Published:

  • Publisher Name: Springer, Berlin, Heidelberg

  • Print ISBN: 978-3-662-61531-7

  • Online ISBN: 978-3-662-61532-4

  • eBook Packages: Psychology (German Language)

Publish with us

Policies and ethics