Skip to main content
Log in

Schwierigkeitserzeugende Aufgabenmerkmale bei Multiple-Choice-Aufgaben zur Experimentierkompetenz im Biologieunterricht: Eine Replikationsstudie

  • Original Paper
  • Published:
Zeitschrift für Didaktik der Naturwissenschaften Aims and scope Submit manuscript

Zusammenfassung

Die Entwicklung von Instrumenten zur Erhebung von Experimentierkompetenz ist ein bedeutsames Aufgabenfeld der Biologiedidaktik. Diese Studie repliziert Befunde einer Vorgängerstudie zur schwierigkeitserzeugenden Wirkung der Merkmale Aufgabenkomplexität (niedrig, hoch), Teilkompetenz (Suche im Hypothesenraum, Testen von Hypothesen, Analyse von Evidenz) und Aufgabenkontext (sechs verschiedene Kontexte) bei Multiple-Choice-Aufgaben zur Experimentierkompetenz im Biologieunterricht. Durch systematische Kombination der drei Merkmale wurden 36 Aufgaben konstruiert. Zur Erklärung der schwierigkeitserzeugenden Wirkung der Aufgabenkontexte wurden deren Bekanntheit, Interessantheit und Relevanz („Kontext-Personen-Valenzen“) erhoben. 708 Schülerinnen und Schüler (8. und 9. Jahrgangsstufe) haben die Aufgaben bearbeitet. Zur Analyse der schwierigkeitserzeugenden Wirkung der Aufgabenmerkmale wurde das Linear Logistische Test-Modell (LLTM) eingesetzt. Zusammenfassend konnten die Befunde der Vorgängerstudie zur schwierigkeitserzeugenden Wirkung der Aufgabenkomplexität und der Teilkompetenzen erfolgreich repliziert werden. Ebenso zeigten sich signifikante Effekte der Kontext-Personen-Valenzen auf die Schwierigkeit der Multiple-Choice-Aufgaben. Insgesamt zeigen die Ergebnisse, dass die Aufgabenkomplexität, die Teilkompetenz sowie die Bekanntheit, Interessantheit und Relevanz von Aufgabenkontexten bei der Konzeption von Tests zur Experimentierkompetenz im Biologieunterricht berücksichtigt werden sollten.

Abstract

The development of instruments to assess experimental competencies is an important part of biology education research. This study replicates findings of a previous study about the effect of the characteristics task complexity (low, high), competence aspect (forming hypotheses, planning experiments, analyzing data), and task context (six different contexts) on the difficulty of multiple-choice-tasks assessing experimental competencies in biology education. 36 tasks were developed by systematically combining the three characteristics. In order to explain the difficulty generating effect of the task contexts, their familiarity, interestingness, and relevance (“context-person-valences”) were assessed. 708 students (grades 8 and 9) answered the tasks. The Linear Logistic Test-Model (LLTM) was applied to analyze the characteristics’ contribution to task difficulty. Summarizing, the findings of the previous study regarding the difficulty generating effect of task complexity and competence aspect could be replicated successfully. Significant effects of the context-person-valences on the difficulty of the multiple-choice-tasks were found as well. In total, the findings of this study show that the task complexity, the competence aspect, as well as the familiarity, interestingness and relevance of the task contexts should be taken into account when developing tests for the assessment of experimental competencies in biology education.

This is a preview of subscription content, log in via an institution to check access.

Access this article

Price excludes VAT (USA)
Tax calculation will be finalised during checkout.

Instant access to the full article PDF.

Abb. 1
Abb. 2
Abb. 3
Abb. 4

Notes

  1. Im LLTM mit der Teilkompetenz Testen von Hypothesen als Vergleichsstandard ergeben sich ebenfalls signifikante Unterschiede in der Aufgabenschwierigkeit zwischen Testen von Hypothesen und Suche im Hypothesenraum; wobei Suche im Hypothesenraum signifikant schwerer ist (\(\alpha _{k}\)= 0,388, SE \(\alpha _{k}\)= 0,076, CI95%: 0,239/0,536).

Literatur

  • Baghaei, P., & Kubinger, K. (2015). Linear logistic test modeling with R. Practical Assessment, Research & Evaluation, 20, 1–11.

    Google Scholar 

  • Burnham, K., & Anderson, D. (2000). Model selection and inference: a practical information-theoretic approach. New York: Springer.

    Google Scholar 

  • Cho, S.-J., Gilbert, J., & Goodwin, A. (2013). Explanatory multidimensional multilevel random item response model. Psychometrika, 78, 830–855.

    Article  Google Scholar 

  • Clough, E., & Driver, R. (1986). A study of consistency in the use of students’ conceptual frameworks across different task contexts. Science Education, 70, 473–496.

    Article  Google Scholar 

  • Cochran, W., & Cox, G. (1957). Experimental designs. New York: Wiley.

    Google Scholar 

  • Dasgupta, A., Anderson, T., & Pelaez, N. (2014). Development and validation of a rubric for diagnosing students’ experimental design knowledge and difficulties. CBE – Life Sciences Education, 13, 265–284.

    Google Scholar 

  • Embretson, S. (1983). Construct validity. Psychological Bulletin, 93, 179–197.

    Article  Google Scholar 

  • Embretson, S., & Daniel, R. (2008). Understanding and quantifying cognitive complexity level in mathematical problem solving items. Psychology Science Quarterly, 50, 328–344.

    Google Scholar 

  • Fanelli, D. (2012). Negative results are disappearing from most disciplines and countries. Scientometrics, 90, 891–904.

    Article  Google Scholar 

  • Fischer, G. (1995). The linear logistic test model. In G. Fischer & I. Molenaar (Hrsg.), Rasch models (S. 131–155). New York: Springer.

    Chapter  Google Scholar 

  • Fleischer, J., Koeppen, K., Kenk, M., Klieme, E., & Leutner, D. (2013). Kompetenzmodellierung. Zeitschrift für Erziehungswissenschaft, 16(S1), 5–22.

    Article  Google Scholar 

  • Frey, A. (2006). Strukturierung und Methoden zur Erfassung von Kompetenz. Bildung und Erziehung, 59, 125–166.

    Article  Google Scholar 

  • Frey, A., Hartig, J., & Rupp, A. (2009). An NCME instructional module on booklet designs in large-scale assessments of student achievement: theory and practice. Educational Measurement: Issues and Practice, 28, 39–53.

    Article  Google Scholar 

  • Glug, I. (2009). Entwicklung und Validierung eines Multiple-Choice-Tests zur Erfassung prozessbezogener naturwissenschaftlicher Grundbildung (Doctoral dissertation). Christian-Albrechts-Universität, Kiel. Retrieved from http://eldiss.uni-kiel.de/macau/receive/dissertation_diss_00003649

  • Gut, C. (2012). Modellierung und Messung experimenteller Kompetenz. Berlin: Logos.

    Google Scholar 

  • Hammann, M., Phan, T., & Bayrhuber, H. (2007). Experimentieren als Problemlösen. Zeitschrift für Erziehungswissenschaft, 10(S8), 33–49.

    Google Scholar 

  • Hartig, J. (2008). Kompetenzen als Ergebnisse von Bildungsprozessen. In N. Jude, J. Hartig & E. Klieme (Hrsg.), Kompetenzerfassung in pädagogischen Handlungsfeldern (S. 15–25). Bonn & Berlin: BMBF.

    Google Scholar 

  • Hartig, J., & Frey, A. (2012). Konstruktvalidierung und Skalenbeschreibung in der Kompetenzdiagnostik durch die Vorhersage von Aufgabenschwierigkeiten. Psychologische Rundschau, 63, 43–49.

    Article  Google Scholar 

  • Hartig, J., Frey, A., Nold, G., & Klieme, E. (2012). An application of explanatory item response modeling for model-based proficiency scaling. Educational and Psychological Measurement, 72, 665–686.

    Article  Google Scholar 

  • Höttecke, D., & Rieß, F. (2015). Naturwissenschaftliches Experimentieren im Lichte der jüngeren Wissenschaftsforschung. Zeitschrift für Didaktik der Naturwissenschaften, 21, 127–139.

    Article  Google Scholar 

  • Ioannidis, J. (2005). Why most published research findings are false. PLoS Medicine, 2, 696–701.

    Google Scholar 

  • Kalyuga, S., & Renkl, A. (2010). Expertise reversal effect and its instructional implications. Instructional Science, 38, 209–215.

    Article  Google Scholar 

  • Kambach, M., & zu Belzen, U. A. (2016). Wie experimentieren Lehramtsstudierende der Biologie? In M. Hammann & U. Gebhard (Hrsg.), Lehr- und Lernforschung in der Biologiedidaktik. Band 7 (S. 229–246). Innsbruck: Studienverlag.

    Google Scholar 

  • Kane, M. (2013). Validating the interpretations and uses of test scores. Journal of Educational Measurement, 50, 1–73.

    Article  Google Scholar 

  • Kauertz, A., Fischer, H., Mayer, J., Sumfleth, E., & Walpulski, M. (2010). Standardbezogene Kompetenzmodellierung in den Naturwissenschaften der Sekundarstufe I. Zeitschrift für Didaktik der Naturwissenschaften, 16, 135–153.

    Google Scholar 

  • Klieme, E., Hartig, J., & Rauch, D. (2008). The concept of competence in educational contexts. In J. Hartig, E. Klieme & D. Leutner (Hrsg.), Assessment of competencies in educational contexts (S. 3–22). Göttingen: Hogrefe.

    Google Scholar 

  • KMK (2005). Sekretariat der Ständigen Konferenz der Kultusminister der Länder. In der BRD] (Hrsg.), Bildungsstandards im Fach Biologie für den Mittleren Schulabschluss. München & Neuwied: Wolters Kluwer.

    Google Scholar 

  • Köchy, K. (2006). Lebewesen im Labor. Philosophia naturalis, 43, 74–110.

    Article  Google Scholar 

  • Krell, M. (2017). Evaluating an instrument to measure mental load and mental effort considering different sources of validity evidence. Cogent Education, 4, 1280256.

    Article  Google Scholar 

  • Krell, M., & Krüger, D. (2011). Forced Choice-Aufgaben zur Evaluation von Modellkompetenz im Biologieunterricht: Empirische Überprüfung konstrukt- und merkmalsbezogener Teilkompetenzen. Erkenntnisweg Biologiedidaktik, 10, 53–68.

    Google Scholar 

  • Krell, M., & Vierarm, A. (2016). Analyse schwierigkeitserzeugender Aufgabenmerkmale bei einem Multiple-Choice-Test zum Experimentieren. In M. Hammann & U. Gebhard (Hrsg.), Lehr- und Lernforschung in der Biologiedidaktik. Band 7 (S. 283–298). Innsbruck: Studienverlag.

    Google Scholar 

  • Krell, M., Reinisch, B., & Krüger, D. (2015). Analyzing students’ understanding of models and modeling referring to the disciplines biology, chemistry, and physics. Research in Science Education, 45, 367–393.

    Article  Google Scholar 

  • Lamal, P. (1991). On the importance of replication. In J. Neuliep (Hrsg.), Replication research in the social sciences (S. 31–35). Newbury Park: SAGE.

    Google Scholar 

  • Leucht, M., Harsch, C., Pant, H., & Köller, O. (2012). Steuerung zukünftiger Aufgabenentwicklung durch Vorhersage der Schwierigkeiten eines Tests für die erste Fremdsprache Englisch durch Dutch Grid Merkmale. Diagnostica, 58, 31–44.

    Article  Google Scholar 

  • Linacre, J. (2002). What do infit and outfit, mean-square and standardized mean? Rasch Measurement Transactions, 16, 878.

    Google Scholar 

  • Mahner, M., & Bunge, M. (1997). Foundations of biophilosophy. Berlin: Springer.

    Book  Google Scholar 

  • Mair, P., & Hatzinger, R. (2007). Extended Rasch modeling. Journal of Statistical Software, 20, 1–20.

    Article  Google Scholar 

  • Mannel, S., Walpuski, M., & Sumfleth, E. (2015). Erkenntnisgewinnung: Schülerkompetenzen zu Beginn der Jahrgangsstufe 5 im naturwissenschaftlichen Anfangsunterricht. Zeitschrift für Didaktik der Naturwissenschaften, 21, 99–110.

    Article  Google Scholar 

  • Mathesius, S., Upmeier zu Belzen, A., & Krüger, D. (2014). Kompetenzen von Biologiestudierenden im Bereich der naturwissenschaftlichen Erkenntnisgewinnung. Erkenntnisweg Biologiedidaktik, 13, 73–88.

    Google Scholar 

  • Meier, M., & Wellnitz, N. (2013). Beobachten, Vergleichen und Experimentieren mit Wasserflöhen. Praxis der Naturwissenschaften. Biologie in der Schule, 62, 4–9.

    Google Scholar 

  • Messick, S. (1995). Validity of psychological assessment. American Psychologist, 50, 741–749.

    Article  Google Scholar 

  • Nehm, R. H., & Ridgway, J. (2011). What do experts and novices „see“ in evolutionary problems? Evolution: Education and Outreach, 4, 666–679.

    Google Scholar 

  • Neuliep, J., & Crandall, R. (1993). Reviewer bias against replication research. Journal of Social Behavior and Personality, 8, 21–29.

    Google Scholar 

  • Opfer, J., Nehm, R. H., & Ha, M. (2012). Cognitive foundations for science assessment design. Journal of Research in Science Teaching, 49, 744–777. https://doi.org/10.1002/tea.21028.

    Article  Google Scholar 

  • Prenzel, M., Häußler, P., Rost, J., & Senkbeil, M. (2002). Der PISA-Naturwissenschaftstest: Lassen sich die Aufgabenschwierigkeiten vorhersagen? Unterrichtswissenschaft, 30, 120–135.

    Google Scholar 

  • Roesler, M., Wellnitz, N., & Mayer, J. (2014). Motivationale Einflüsse auf schriftliche Testleistungen im Fach Biologie. Erkenntnisweg Biologiedidaktik, 13, 179–195.

    Google Scholar 

  • Roesler, M., Wellnitz, N., & Mayer, J. (2016). Die Rolle affektiver Variablen bei der Bearbeitung kontextualisierter Testaufgaben. In M. Hammann & U. Gebhard (Hrsg.), Lehr- und Lernforschung in der Biologiedidaktik (S. 265–281). Innsbruck: Studienverlag.

    Google Scholar 

  • Rost, J. (2004). Lehrbuch Testtheorie – Testkonstruktion. Bern: Huber.

    Google Scholar 

  • Schecker, H., Neumann, K., Theyßen, H., Eickhorst, B., & Dickmann, M. (2016). Stufen experimenteller Kompetenz. Zeitschrift für Didaktik der Naturwissenschaften, 22, 197–213.

    Article  Google Scholar 

  • Schiefele, U., Krapp, A., & Schreyer, I. (1993). Metaanalyse des Zusammenhangs von Interesse und schulischer Leistung. Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie, 10, 120–148.

    Google Scholar 

  • Schmidt, S. (2009). Shall we really do it again? The powerful concept of replication is neglected in the social sciences. Review of General Psychology, 13, 90–100. https://doi.org/10.1037/a0015108.

    Article  Google Scholar 

  • Schnotz, W., & Baadte, C. (2015). Surface and deep structures in graphics comprehension. Memory & Cognition, 43, 605–618.

    Article  Google Scholar 

  • Schreiber, N., Theyßen, H., & Schecker, H. (2016). Process-oriented and product-oriented assessment of experimental skills. In N. Papadouris, A. Hadjigeorgiou & C. Constantinou (Hrsg.), Insights from research in science teaching and learning. Contributions from science education research 2 (S. 29–43). Cham: Springer.

    Chapter  Google Scholar 

  • Shavelson, R. (2013). On an approach to testing and modeling competence. Educational Psychologist, 48, 73–86.

    Article  Google Scholar 

  • Stiller, J., Hartmann, S., Mathesius, S., Straube, P., Tiemann, R., Nordmeier, V., Krüger, D., & Upmeier zu Belzen, A. (2016). Assessing scientific reasoning. Assessment & Evaluation in Higher Education, 41, 721–732.

    Article  Google Scholar 

  • Vorholzer, A., von Aufschnaiter, C., & Kirschner, S. (2016). Entwicklung und Erprobung eines Tests zur Erfassung des Verständnisses experimenteller Denk- und Arbeitsweisen. Zeitschrift für Didaktik der Naturwissenschaften, 22, 25–41.

    Article  Google Scholar 

  • van Vorst, H., Dorschu, A., Fechner, S., Kauertz, A., Krabbe, H., & Sumfleth, E. (2015). Charakterisierung und Strukturierung von Kontexten im naturwissenschaftlichen Unterricht. Zeitschrift für Didaktik der Naturwissenschaften, 21, 29–39.

    Article  Google Scholar 

  • Weinert, F. (2001). Vergleichende Leistungsmessungen an Schulen – eine umstrittene Selbstverständlichkeit. In F. Weinert (Hrsg.), Leistungsmessungen in Schulen (S. 17–31). Weinheim & Basel: Beltz.

    Google Scholar 

  • Wellnitz, N., & Mayer, J. (2013). Erkenntnismethoden in der Biologie. Zeitschrift für Didaktik der Naturwissenschaften, 19, 315–345.

    Google Scholar 

  • Werner, M., Schwanewedel, J., & Mayer, J. (2014). Does the context make a difference? In C. Constantinou, N. Papadouris & A. Hadjigeorgiou (Hrsg.), E-Book proceedings of the ESERA 2013 conference (S. 81–89). Nicosia: European Science Education Research Association. Retrieved from http://www.esera.org/media/eBook_2013/Strand%208/ESERA_eBook_Part_8.pdf.

    Google Scholar 

  • Werner, M., Schwanewedel, J., & Mayer, J. (2015). Bewertungskompetenz und der Einfluss von Kontexten und Kontext-Personen-Valenzen. In U. Gebhard, M. Hammann & B. Knälmann (Hrsg.), Bildung durch Biologieunterricht (S. 58–59). Hamburg: Universität Hamburg.

    Google Scholar 

  • Wilson, M., & De Boeck, P. (2004). Descriptive and explanatory item response models. In P. De Boeck & M. Wilson (Hrsg.), Explanatory item response models (S. 43–74). New York: Springer.

    Chapter  Google Scholar 

  • Wright, B., & Linacre, J. (1994). Reasonable mean-square fit values. Rasch Measurement Transactions, 8, 370.

    Google Scholar 

  • Wu, M. L., Adams, R., & Wilson, M. (2007). ACER ConQuest version 2.0: Generalised item response modelling software. Camberwell: ACER Press.

    Google Scholar 

  • Yong, E. (2012). Bad copy: In the wake of high-profile controversies, psychologists are facing up to problems with replication. Nature, 485, 298–300.

    Article  Google Scholar 

Download references

Author information

Authors and Affiliations

Authors

Corresponding author

Correspondence to Moritz Krell.

Caption Electronic Supplementary Material

Rights and permissions

Reprints and permissions

About this article

Check for updates. Verify currency and authenticity via CrossMark

Cite this article

Krell, M. Schwierigkeitserzeugende Aufgabenmerkmale bei Multiple-Choice-Aufgaben zur Experimentierkompetenz im Biologieunterricht: Eine Replikationsstudie. ZfDN 24, 1–15 (2018). https://doi.org/10.1007/s40573-017-0069-0

Download citation

  • Received:

  • Accepted:

  • Published:

  • Issue Date:

  • DOI: https://doi.org/10.1007/s40573-017-0069-0

Schlüsselwörter

Keywords

Navigation