Alles, was die praktische Planung, Durchführung und Nutzung von Evaluationen betrifft. Potentiell können hier also Entscheider und Nutzer, (angehende) Evaluatoren, aber auch sonstige Akteure und Interessierte Informationen dazu finden, wie man Evaluationen plant, durchführt und nutzt.
Subject: Evaluation budget as a %% of program expenditure
Date: Sat, 27 Nov 2004 14:04:15 +1000
From: Sonia Whiteley
I realise this is a topic that comes up on almost an annual basis (Sept 2003 at last count) but I was wondering whether there were any new thoughts on the issue.
I'm more interested in large-scale programs - at least $5 million plus Aussie $$s - where evaluation is built into the program from day 1 (ie as the program is being carefully crafted from policy).
What percentage of the program (not the organisational) budget should be allocated to evaluation?
What actually happens in the real world of program evalution budgets?
Does this differ across across departments/areas of responsibility? Or more specifically, are health department budgets, for example, generally larger percentagewise than those from education or the environment?
Any pointers to recent references or case studies would be greatly appreciated.
Many thanks
Sonia Whiteley
EVALTALK - American Evaluation Association (AEA) Discussion List. See also
the website: http://www.eval.org
To unsubscribe from EVALTALK, send e-mail to listserv@bama.ua.edu
with only the following in the body: UNSUBSCRIBE EVALTALK
To get a summary of commands, send e-mail to listserv@bama.ua.edu
with only the following in the body: INFO REFCARD
To use the archives, go to this web site: http://bama.ua.edu/archives/evaltalk.html For other problems, contact a list owner at kbolland@sw.ua.edu or carolyn.sullins@wmich.edu
Welche Anforderungen?
Wer macht Evaluation?
Date: Wed, 21 Jul 2004 08:29:49 +0100
From: bill fearSubject: Agendas, decisions and using evaluation The debate about the role of the evaluator in relation to getting the evaluation used has had a long and perennial history re-emerging, as ever, about once every five years. There are a couple, or more, important points that are consistent (IMESHO):
1) No evaluator has the right to assume that their findings will, or should, be used as a number of people have just recently noted. This right is the preserve of auditors. 2) There are two ways to maximise the value of an evaluation: a) involve stakeholders from the off (Patton); b) link evaluation to budgets (Australia; the Netherlands). 3) Most interestingly, a piece of work by by the NAO (probably by Chelimsky and published around 5-8 years ago; sorry, I have a real problem remembering references) showed that high quality evaluations tend to be rejected initially. However, these same evaluations usually have an impact around five years - that's 5 years - later, usually at the conceptual level. Ergo, an acid test of a good evaluation that has been carried out independently of stakeholders may well be the degree of initial resistance and rejection. Indeed, it may be that an evaluation has more impact if the evaluator does not try to get it taken account of. Just think through what we know about decision making.
On that point, any good evaluator surely must, surely absolutely must, have an understanding of decision making from the individual level to the organisational level.
Helpful references are:
at an individual level
www.bps.org.uk then click on 'publications' then 'the psychologist' then 'search the psychologist online' then 'volume 15 (2002)' then 'volume 15 part 2(February 2002)' then look at articles 4, 5, 6, 7. Easy reading to a high standard (mostly).
and
Gilbert, D. and Wilson, T. 'Miswanting.' www.wjh.harvard.edu/~dtg/Gilbert%20&%20Wilson%20(Miswanting).pdf (or put 'miswanting' into google)
At an organisational level it is still, for me, the stock in trade publication of 'Organsiations: Structures, processes and outcomes' by Hall.
We might also want to consider that US Senators apparently spends just 7 minutes a day reading on average and that for a GP to keep up to date with current relevant medicine they need to read for 17 hours a week (mostly non-fiction, or at least not knowingly fiction).
And then of course there is the values of the evaluator. Our values tend to drive our behaviour - although they don't have to. Not judging others on the basis of their values, which may conflict heavily with our own, is immensely difficult. So, we may assume that our evaluation should be taken account of according to our values, but the values of the person on the other side may be different. And somehow we have to find a way not to let that influence our behaviour and to respect the values of the other/s. After all, there is no moral 'right' or 'wrong', and ethics are consensus of agreed rules depicting right and wrong, and not a universal absolute, and there is no known set of universal values.
At 1:36 PM -0400 13/10/04, Jill Ibell wrote:
>>Please let me know specific interview questions that you have found >>helpful in prior program evaluations. The use is for an internal >>program evaluation process, which has recently been started on a >>more formal basis than prior years trouble shooting operations.
Here's my generic, use anywhere, run out of ideas evaluation questions. They are based on Vygotskyian learning theory and action research practice.
these are my standby, run out of bright ideas, interview questions that have never failed to get some interesting and valuable responses. I've tried to turn them into something that relates to what you are interested in, but you get the general drift :-
As I get older I half begin to think that these may be the only questions you need to ask. In my experience, the responses are incredibly rich and insightful about people's judgement of worth, and it forces them to base their responses on observable or justifiable data.
Cheers
Bob
BOB WILLIAMS bobwill@actrix.co.nz Check out the free resources on my WEB site http://users.actrix.co.nz/bobwill
Mobile (64) 21 254 8983
... there are always exceptions. Reality is too complex to be captured by theory. I'm reminded of the general semantics principle that "the map is not the territory"-that a theory is distinct from the reality it purports to represent. Bob Dick
EVALTALK - American Evaluation Association (AEA) Discussion List. See also
the website: http://www.eval.org
To unsubscribe from EVALTALK, send e-mail to listserv@bama.ua.edu
with only the following in the body: UNSUBSCRIBE EVALTALK
To get a summary of commands, send e-mail to listserv@bama.ua.edu
with only the following in the body: INFO REFCARD
To use the archives, go to this web site: http://bama.ua.edu/archives/evaltalk.html For other problems, contact a list owner at kbolland@sw.ua.edu or carolyn.sullins@wmich.edu
Original Message --------
Subject: Re: Looking for methodologies to identify/choose stake holders
Date: Sun, 14 Nov 2004 12:38:50 -0800
From: Avichal Jha
Hi Jonny,
Michael Patton's "snowball" sampling technique comes to mind. You can find a discussion of different techniques in "Utilization Focused Evaluation," published by sage. I believe the 3rd is the most recent edition. Carol Weiss also has a great discussion on involving stakeholders in "Evaluation: Methods for Studying Programs and Policies."
What the discussion boils down to is context: What are you evaluating? The evaluand itself should suggest at least a limited group of stakeholders; i.e., those who asked for the evaluation. In the case where we're evaluating policy, this may not be the case. In that situation, the context becomes that of the policy. As long as you have a single stakeholder in mind, ask that stakeholder for who other stakeholders might be. This process, repeated with each new stakeholder, will "snowball" into a much larger sample.
This is just one of the ways that Patton and others have discussed. I hope it helps (although my gut feeling is that this is more useful for program evaluation than policy analysis). As I suggested, if you haven't already looked at Patton and Weiss, I think you'll find their work very helpful.
Best of luck, Avi
Avichal Jha, M.A. Doctoral Student Evaluation and Applied Methods Claremont Graduate University avichal.jha@cgu.edu
Original Message----- From: American Evaluation Association Discussion List To: EVALTALK@BAMA.UA.EDU Sent: 11/14/2004 10:20 AM Subject: Looking for methodologies to identify/choose stake holders
We all agree that it is important to involve stake holders in various phases of the evaluation life cycle. But how to identify the population of relevant stake holders and choose among them? My sense is that we tend to use the "I will know them when I see them" method. (It's what I do.) But are there more deliberate and systematic ways to go about it? Has anyone tried to develop a methodology? If anyone has relevant references, please send them my way. Thanks.
Jonny Jonathan A. Morell, Ph.D. Senior Policy Analyst
Street address: 3520 Green Court Suite 300, Ann Arbor Michigan 48105 Mail address: PO Box 134001 Ann Arbor, Michigan 48113-4001
Desk 734 302-4668 Reception 734 302-4600 Fax:734 302-4991 Email jonny.morell@altarum.org
"Once upon a time there was a word. And the word was evaluation. And the word was good. Teachers used the word in a particular way. Later on, other people used the word in a different way. After a while, nobody knew for sure what the word meant. But they all knew it was a good word. Evaluation was a thing to be cherished. But what kind of a good thing was it? More important, what kind of a good thing is it?" (Popham, 1993, p. 1)
"Evaluation - more than any science - is what people say it is; and people are saying it is many different things." (Glass & Ellet, 1980, p. 211)
"Research is aimed at truth. Evaluation is aimed at action." (wird M.Q.Patton zugeschrieben, Quelle mir unbekannt) Richtig muss es heißen: "Research aims to produce knowledge and truth. Useful evaluation supports action." (Patton, 1997, p. 24)
"Irgend etwas wird von irgend jemandem nach irgendwelchen Kriterien in irgendeiner Weise bewertet." (Kromrey, 2001, S. 21)
"[...] evaluation has two arms, only one of which is engaged in data-gathering. The other arm collects, clarifies, and verifies relevant values and standards." (Scriven, 1991, p. 5)
"The evaluation responsibility is a responsibility to make judgements." (Stake, 1979, p. 55)
"In God we trust. All others must bring data." (Robert Hayden, Plymouth State College, zit. n. http://www.keypress.com/fathom/jokes.html; Berk, 2007 zitiert abweichend W. Edwards Deming als Urheber)
"Der Umfang der Gefahren bei der konkreten Forschung wirkt sich auf viele Praktiker mit Sicherheit nicht gerade ermutigend aus. Scheint doch das Einzige mit Gewißheit Vorhersagbare zu sein, daß immer etwas falsch gemacht werden wird." (Wittmann, 1985, S. 187)
"The notion of the evaluator as a superman who will make all social choices easy and all programs efficient, turning public management into a technology, is a pipe dream." (Cronbach et al., 1980, p. 4)
"Once upon a time, the evaluation researcher needed only the 'Bible' ('Old Testament', Campbell and Stanley, 1963; 'New Testament', Cook and Campbell, 1979) to look up an appropriate research design and, hey presto, be out into the field." (Pawson & Tilley, 1997, p. 1)
"To make research work when it is coping with the complexities of real people in real programs run by real organizations takes skill – and some guts." (Weiss, 1972, p. 9)
"[...] what the professional independent evaluator brings to the party is a fresh eye and some technical skills." (Scriven, 1997, p. 499)
"One requires:
a good sense of humour;
and a thick skin.
Above all else, don't take yourself too seriously (and try not to be paranoid when having inappropriate discussions in a public space.)" (Fear, Bill. Career in Evaluation - Opinions wanted. EVALTALK
"The world of evaluation is a frighteningly real world. [...] The actors in the educational drama are strikingly human, with all the attendant frailties of real people." (Popham, 1993, p. 217)
"Evaluators who steel themselves against the probable perils of reality will be less shocked when they try out their shiny new evaluation skills." (Popham, 1993, p. 217)
"Recently, I opened an evaluation process with a staff workshop in which I invited participants to share perceptions of and metaphors for evaluation. The program director went to a nearby closet, took out a vacuum cleaner, turned it on, and pronounced: 'Evaluation sucks!'" (Patton, 1997, p. 267)
"Doing a good evaluation is not a stroll on the beach." (Weiss, 1997, p. 325)
"I find that I have to begin every evaluation exercise by finding out what people’s previous experiences have been with evaluation, and I find many of those experiences have been negative." (Patton, 2002, p. 131)
"The wolfdog of evaluation is acceptable as a method of controlling the peasants, but it must not be allowed into the castle – that is the message which each of these ideologies represents, in its own way." (Scriven, 2000, p. 252)
"Evaluation avanciert zum neuen Kampfbegriff in der Qualitätsdebatte" (Schratz, 1999, S. 64)
"The more evaluation, the less program development; the more demonstration projects, the less follow-through" ("Wilensky's Law", Wilensky, 1985, S. 9)
"In many educational systems everybody seems to hate external evaluation while nobody trusts internal evaluation." (Nevo, 2001, p. 104)
"We live in a knowledge-centred, value-adding, information-processing, management-fixated world which has an obsession with decision-making." (Pawson & Tilley, 1997, pp. xi-xii)
"[...] 'evaluation' has become a mantra of modernity." (Pawson & Tilley, 1997, p. 2)
"I've often referred to the difference between Evaluation and evaluation. Oddly enough evaluation is a much bigger endeavour. Everyone does it often with great rigour, sometimes with a rigour we don't comprehend or agree with. On the other hand Evaluation is our patch of earth and a small one in the grand scheme of things." (Williams, Bob . Re: A Sunday meditation (definitely about evaluation), EVALTALK
"In the end it's politics!" (Capela, Stan . Re: A Wednesday clarification (longish and occasionally peevish), EVALTALK
"Evaluation research 1963-1997
Must do better. Too easily distractred by silly ideas. Ought to have a clearer sense of priorities and to work more systematically to see them through. Will yet go on to do great things." (Pawson & Tilley, 1997, p. 28)
"Evaluation no longer has the luxury of a-empirical theoretical development." (Smith, 1993. p. 241)
"What is evaluated? Everything. One can begin at the beginning of a dictionary and go through to the end, and every noun, common or proper, calls to mind a context in which evaluation would be appropriate" (Scriven, 1980, p. 4)
"Social programs are complex undertakings. They are an amalgam of dreams and personalities, rooms and theories, paper clips and organizational structure, clients and activities, budgets and photocopies, and great intentions." (Weiss, 1998, p. 48)
"Unfortunately, except in a few areas, planning of social programs proceeds more by the seat of the pants and the example of 'what everybody else is doing,' than it does by thoughtful and critical review of evidence and experience." (Weiss, 2002, p. 204)
"The purpose of evaluation is not to prove, but to improve." (Egon Guba, zit. n. Stufflebeam, 2004)
"Evaluation's most important purpose is not to prove, but to improve." (Stufflebeam, 2004, p. 247)
"Ergebnisse einer Evaluation sind nicht Daten, sondern Entscheidungen über Konsequenzen für die weitere Arbeitsplanung." (Burkard & Eikenbusch, 2000, S. 29)
"We are impressed by the creativity in the field of evaluation, yet at the same time concerned because evaluators often forget or fail to emphasize the basic purpose of their work." (Glass & Ellet, 1980, p. 212)
"While I do think that people who invent terms have some obligation to argue against careless shifts from their original meanings, they also have an obligation to be open-minded about serious arguments for modification or clarification of the original definitions." (Scriven, 2004, p. 17, in JMDE No. 1)
"For a time it appeared that an educational evaluation model was being generated by anyone who (1) could spell educational evaluation and (2) had access to an appropriate number of boxes and arrows." (Popham, 1993, p. 23)
"One gets the impression that what passes for evaluative research is indeed a mixed bag at best and chaos at worst." (Suchman, 1967, p. vii)
"From the ambitions of the academic disciplines, from the convulsive reforms of the educational system, from the battle-ground of the War on Poverty, from the ashes of the Great Society, from the reprisals of an indignant taxpaying public, there has emerged evaluation." (Glass, 1976, p. 9)
"There was a general concern over the poor academic performance of our nation's youth. ... The quest for accountability had begun." (Baron & Baron, 1980, p. 85-86)
"Our search as lay historians reveals that the the first recorded instance of evaluation occurred when man, woman, and serpent were punished for having engaged in acts which apparently had not been among the objectives defined by the Program circumscribing their existence." (Perloff, Perloff & Sussna, 1976, p. 264)
"In the beginning, God created the heaven and the earth. And God saw everything that he made. "Behold," God said, "it is very good." And the evening and the morning were the sixth day. And on the seventh day God rested from all His work. His archangel came then unto Him asking, "God, how do you know that what you have created is 'very good'? What are your criteria? On what data do you base your judgment? Just exactly what results were you expecting to attain? And aren't you a little close to the situation to make a fair and unbiased evaluation?" God thought about these questions all that day and His rest was greatly disturbed. On the eighth day God said, "Lucifer, go to hell." Thus was evaluation born in a blaze of glory." Halcolm's The Real Story of Paradise Lost (Patton, 1997, p. 1)
"The difference [between quantitative and qualitative researchers] is that, while a quantitative reporter would say 'Only ten persons were present ...,' a truly qualitative reporter would say, 'Attendance at the session was depressing.'" (Sechrest & Figueredo, 1993, p. 655)
"We think that everyone might benefit if the most radical protagonists of evidence based medicine organised and participated in a double blind, randomised, placebo controlled, crossover trial of the parachute." (Smith & Pell, 2003, p. 1459)
"You mean you guys actually look at the evaluations? I taught two sections of the same class last semester, and I stopped reading the evaluations after about the sixth section I taught. Most are positive, some wish I would die, and none provide useful feedback." (tuxthepenguin auf http://chronicle.com/forums/index.php?topic=69226.0)
"There is nothing a Government hates more than to be well informed; for it makes the process of arriving at decisions much more complicated and difficult." (John Maynard Keynes, The Times, March 11, 1937, p. 18)
"The program theory approach has exposed the impoverished nature of the theories that underlie many of the interventions we study." (Bickman, 2000, p. 107)
"A program is a theory and an evaluation is its test." (Rein, 1981, S. 141)
Alles, was Fragen der Evaluationsforschung betrifft.
Potenziell sollten Sie hier also Informationen zur Evaluationstheorie, zu verschiedenen Evaluationsansätzen und zu Ergebnissen und sonstigen Fragen der Evaluationsforschung finden.
Steuerungsebenen, auf das eine Evaluation sich beziehen kann, z.B. Bedarf, Ausgangsbedingungen, Prozess, Outcome, Impact, Kosten-Nutzen etc.
Ziel einer Evaluierbarkeitsanalyse (evaluability assessment) ist, die Wahrscheinlichkeit zu erhöhen, dass die Evaluation rechtzeitig, relevant und responsiv (den Informationsbedürfnissen entsprechend) sein wird. Damit ist sie eine Strategie zur Kosteneffizienz, da die für Evaluationen zur Verfügung stehenden Ressourcen optimal ausgenutzt werden sollen.
Als Ergebnisse einer Evaluierbarkeitsanalyse sollten folgende Informationen vorliegen, auf welche die anschließende Evaluation aufbauen kann:
Datenquellen für eine Evaluierbarkeitsanalyse sind
Literatur: Wholey (1979), Trevisan & Huang (2003)
Kritik am ursprünglichen Konzept der Evaluierbarkeit, aus Sicht der theory-based evaluation:
In späteren Revisionen greift Wholey (1987) neuere Entwicklungen auf. Auch die Formulierung der Programmtheorie gehört nun zur Evaluierbarkeitsanalyse.
Einführung
###
Def.: "people whose lives are affected by the program and people whose decisions can affect the future of the program" (Greene, 1988, S. 101).
Evaluation (von engl./frz. "Bewertung"): "Die systematische Untersuchung von Nutzen oder Wert einer Sache" (Joint committee on standards for educational evaluation, 1994). Evaluation bezeichnet die Anwendung sozialwissenschaftlicher Methoden und spezifischer Evaluationskompetenzen zur Bewertung von Gegenständen wie Projekten, Programmen, Maßnahmen, Produkten, Personal, Organisationen, Dienstleistungen und anderen Gegenständen.
Evaluiert wird üblicherweise, um die Handlungssteuerung in sozialen Handlungsfeldern zu rationalisieren, da Evaluation Erkenntnisse zur Verfügung stellt, welche zur Optimierung, Entscheidungshilfe, Überzeugung, Rechenschaftslegung und/oder Forschung dienen können.
Zugleich meint Evaluation immer auch die Produkte der beschriebenen Prozesse (z.B. in Form von Berichten). Der Begriff "Evaluationsforschung" wird im deutschen Sprachraum oft synonym verwendet, betont aber die Verwendung wissenschaftlicher Methoden zum Zwecke der Bewertung. Ein davon abweichendes Begriffsverständnis versteht unter "Evaluationsforschung" die Forschung über Evaluation.
Patton (1997): "Program evaluation is the systematic collection of information about the activities, characteristics, and outcomes of programs to make judgements about the program, improve program effectiveness, and/or inform decisions about future programming" (S. 23)
Etymologische Herleitung (Online etymology dictionary ):
evaluation: 1755, from Fr. evaluation', from evaluer "to find the value of," from ex- "out" + value (see value). Evaluate'' is an 1842 back-formation.
Message-ID:
Date: Thu, 12 Aug 2004 21:25:36 -0700 Sender: American Evaluation Association Discussion ListFrom: Richard Hake Subject: Re: Assessment vs Evaluation To: EVALTALK@BAMA.UA.EDU
In his ASSESS post of 10 Aug 2004 titled "Assessment vs Evaluation" Mark Davenport wrote:
"I often read in the literature and hear on the conference circuit people using the terms 'assessment' and 'evaluation' interchangeably, as if they were synonyms. Even more confusing, I have found the word assessment is used to define evaluation, and vice versa . . . . Personally, I don't think we need two terms to explain identical concepts (unless they occur in two completely unrelated fields wherein the risk of confusion is minimal). Certainly academic and student affairs assessment are related enough that we can share terms. . . . I have documented my thoughts in an internal white paper to my constitutents and would be happy to share it if you will drop me a note privately."
I hope Mark will place his white paper on the web so as to increase
the readership and decrease mailing expenses. His post stimulated a
12-post (as of 12 Aug 2004 16:20:00-0700) ASSESS thread accessible at
A similar thread (4 posts) titled "distinction between evaluation and
assessment was initiated by Jeanne Hubelbank (2003) on EvalTalk and
is accessible at the EvalTalk archives
Assessment: "The act of determining the standing of an object on some variable of interest, for example, testing students, and reporting scores."
Evaluation: Systematic investigation of the worth or merit of an object; e.g., a program, project, or instructional material.
Nevertheless, I'm with Mark Davenport in preferring to make no distinction between "assessment" and "evaluation." In a post titled "Re: A taxonomy" Hake (2003a), I proposed an assesment taxonomy for consideration and comment that is best presented in quadrant form cf., Stokes (1999):
plus Y PUBLIC | | Scientific Research |
<--FORMATIVE ASSESSMENT | SUMMATIVE ASSESSMENT --> _ plus X
0| | Action Research | Institutional Research | | | PRIVATE
Fig. 1. Quadrant representation of various types of assessment/evaluation. (Figure may be distorted by email transmission.)
For educational research, the X-axis represents a continuum from pure FORMATIVE to pure SUMMATIVE assessment of either teaching or learning. NO DISTINCTION IS MADE BETWEEN "ASSESSMENT' AND EVALUATION." The Y axis represents a continuum from complete privacy to complete public disclosure of results.
The locations of various types of research in terms of the type of assessment they offer are shown as:
"Scientific Research" see e.g. Shavelson & Towne (2002): upper two quadrants - always public and anywhere in the continuum between formative and summative.
"Action Research" [see e.g. Feldman & Minstrell (2000) and Bransford et al.]: lower left quadrant - usually private to some degree, and usually formative to some degree.
"Institutional Research": lower right quadrant - usually private to some degree, and usually summative to some degree, although it could approach the formative for those who study and attempt to improve institutional practice.
Leamnson's (2003):
(a) "classroom research" can be either "scientific" or "action" research.
(b) "institutional research" is generally NOT formative from the standpoint of classroom teachers.
In my opinion, the science education use of pre/post testing [for reviews see Hake (2002; 2004a,b,c)] is usually formative for both action and scientific research, since the object is to improve classroom teaching and learning, NOT to rate instructors or courses.
Richard Hake, Emeritus Professor of Physics, Indiana University
24245 Hatteras Street, Woodland Hills, CA 91367
REFERENCES
Bransford, J.D., A.L. Brown, R.R. Cocking, eds. 2000. How People
Learn: Mind, Brain, Experience, and School: Expanded Edition. Nat.
Acad. Press; online at
Feldman, A. & J. Minstrell. 2000. "Action research as a research
methodology for the study of the teaching and learning of science,"
in E. Kelly & R. Leash, eds., "Handbook of Research Design in
Mathematics and Science Education." Lawrence Erlbaum; online at
Hake, R.R. 2002. "Lessons from the physics education reform effort,"
Ecology and Society 5(2): 28; online at
Hake, R.R. 2003a. "Re: A taxonomy"; online at
Hake, R.R. 2003b. "Re: A taxonomy"; online at
Hake, R.R. 2004a. " Re: Measuring Content Knowledge," online at
Hake, R.R. 2004b. "Re: Measuring Content Knowledge," online at
Hake, R.R. 2004c. "Design-Based Research: A Primer for Physics
Education Researchers," submitted to the "American Journal of
Physics" on 10 June 2004; online as reference 34 at
Hubelbank, J. 2003. "distinction between evaluation and assessment."
EvalTalk post of 13 Nov 2003 10:52:00-0500; online at
Leamnson, R. 2003. "A Taxonomy," STLHE-L/POD post of 9 Jul 2003
10:32:02-0400; online at
Shavelson, R.J. & L. Towne. 2002. "Scientific Research in Education,"
National Academy Press; online at
Stokes, D. E. (1997). "Pasteur's quadrant: Basic science and technological innovation." Brookings Institution Press.
EVALTALK - American Evaluation Association (AEA) Discussion List. See also
the website: http://www.eval.org
To unsubscribe from EVALTALK, send e-mail to listserv@bama.ua.edu
with only the following in the body: UNSUBSCRIBE EVALTALK
To get a summary of commands, send e-mail to listserv@bama.ua.edu
with only the following in the body: INFO REFCARD
To use the archives, go to this web site: http://bama.ua.edu/archives/evaltalk.html For other problems, contact a list owner at kbolland@sw.ua.edu or carolyn.sullins@wmich.edu
Original Message --------
Subject: Re: Evaluation, Assessment, and Rubrics
Date: Wed, 15 Sep 2004 16:31:10 -0700
From: Richard Hake
In her POD post of 14 Sep 2004 10:00:14-0700 titled "Evaluation, Assessment, and Rubrics," Leora Baron wrote:
I am looking for two items that my fellow POD'ers may be able to provide: First, a definition distinguishing between evaluation and assessment; and second, an online location that has a good description and illustration of rubrics.
I. ASSESSMENT vs EVALUATION If one:
(1) goes to the powerful but little used POD search engine
(2) types into the "Since" slot "2003" (without the quotes), and into the "Subject" slot,
(a) "assessment" (without the quotes), s(he) will obtain 90 hits,
(b) "evaluation" (without the quotes), s(he) will obtain 168 hits,
(c) "assessment vs evaluation" (without the quotes) s(he) will obtain 10 hits.
My own take on "assessment vs evaluation" can be found in Hake (2004). From the perspective of the physics education reform effort [Hake (2002a,b), I find it useful to make NO distinction between "assessment" and "evaluation," but to make a 4-quadrant discrimination cf., Stokes (2000) of types of assessment/evaluation on the basis formative vs summative on one axis and public vs private on an orthogonal axis.
The non distinction between "assessment" and "evaluation," is
contrary to the preferences of: (a) Steve Ehrmann (2004), (b) most of
those contributing to the POD thread "Assessment vs Evaluation," (c)
Mark Davenport (2004), and (d) the "Glossary of Program Evaluation
Terms"
II. RUBRICS If you mean by "rubric": "a technique, custom, form, or thing established or settled (as by authority)" (definition #4 in Webster's Third New International Dictionary Unabridged), then it all depends on what one is attempting to assess/evaluate.
IF it's student learning, and not *affective" impact as might be assessed by student evaluations of teaching (SET's)
(a) Peggy Maki's (2004) recent book might be useful, but I have not seen it. In a POD post of 22 Jul 2004 15:09:54-0400, Barbara Cambridge, Director of the Carnegie Academy Campus Program wrote: "Peggy Maki's new book on assessment is excellent. It is jointly published by Stylus and AAHE."
(b) You might consider pre/post testing using valid and consistently reliable tests developed by disciplinary experts in education research Hake (2004b,c). As indicated in Hake (2004b), this is becoming more and more popular in astronomy, economics, biology, chemistry, computer science, and engineering. In many cases it has been stimulated by the pre/post testing effort in physics education research, initiated by the landmark work of Halloun & Hestenes (1998a,b).
Richard Hake, Emeritus Professor of Physics, Indiana University
24245 Hatteras Street, Woodland Hills, CA 91367
REFERENCES
Davenport, M.A. 2004. "Re: Assessment vs Evaluation," ASSESS post of
13 Aug 2004 12:08:46-0400; online at
Ehrmann, S. 2004. "Re: Evaluation, Assessment, and Rubrics." POD post
of 14 Sep 2004 14:31:48-0700; online at
Hake, R.R. 2002a. "Lessons from the physics education reform effort,"
Ecology and Society 5(2): 28; online at
Hake, R.R. 2002b. "Assessment of Physics Teaching Methods,
Proceedings of the UNESCO-ASPEN Workshop on Active Learning in
Physics, Univ. of Peradeniya, Sri Lanka, 2-4 Dec. 2002; also online
as ref. 29 at
Hake, R.R. 2004a. "Re: Assessment vs Evaluation," online at
Hake, R.R. 2004b. "Re: Measuring Content Knowledge," online at
Hake, R.R. 2004c. "Re: Measuring Content Knowledge," online at
Halloun, I. & D. Hestenes. 1985a. "The initial knowledge state of
college physics students." Am. J. Phys. 53:1043-1055; online at
Halloun, I. & D. Hestenes. 1985b. "Common sense concepts about
motion." Am. J. Phys. 53:1056-1065; online at
Halloun, I., R.R. Hake, E.P Mosca, D. Hestenes. 1995. Force Concept
Inventory (Revised, 1995); online (password protected) at
Hestenes, D., M. Wells, & G. Swackhamer, 1992. "Force Concept
Inventory." Phys. Teach. 30: 141-158; online (except for the test
itself) at
Maki, P. 2004. "Assessing for Learning: Building a Sustainable Commitment Across the Institution." Stylus. Maki is the former Director of Assessment of the AAHE.
Stokes, D. E. 1997. "Pasteur's quadrant: Basic science and technological innovation." Brookings Institution Press.
EVALTALK - American Evaluation Association (AEA) Discussion List. See also
the website: http://www.eval.org
To unsubscribe from EVALTALK, send e-mail to listserv@bama.ua.edu
with only the following in the body: UNSUBSCRIBE EVALTALK
To get a summary of commands, send e-mail to listserv@bama.ua.edu
with only the following in the body: INFO REFCARD
To use the archives, go to this web site: http://bama.ua.edu/archives/evaltalk.html For other problems, contact a list owner at kbolland@sw.ua.edu or carolyn.sullins@wmich.edu
Einrichtung: 13.06.1998 Letzte Änderung: 01.01.2000
Der unbefangene Sprecher hält das Wort Evaluation für lateinisch, allerdings wird er es in einem lateinischen Wörterbuch vergeblich suchen. Es handelt sich vielmehr um eine romanische Neuentwicklung.
Aus dem lateinischen Verb valere ("bei Kräften sein", "wert sein", stammverwandt mit dem althochdeutschen waltan) entwickelt sich das französische valoir [1]. Dessen Partizip Perfekt valu wird gegen Ende des 12. Jahrhunderts in seiner femininen Form value substantiviert [2] mit der Bedeutung «valeur, prix» [3]. Davon wird wiederum das Verb évaluer und von diesem das Substantiv évaluation [4] gebildet. Im heutigen Französisch bedeutet évaluation "Schätzung", "Ermittlung" oder "Wertbestimmung" [5].
Mit dieser Bedeutung ist das Wort in der Aufklärungszeit ins Deutsche entlehnt worden; allerdings meinte man wohl, ein ursprünglich lateinisches Wort vor sich zu haben, und "verbesserte" die als unlateinisch empfundene Lautfolge ua zu va Evalvation [6]. In dieser Gestalt ist das Wort noch 1960 und 1968 belegt. [7] Danach verschwindet das Wort aus den Nachschlagewerken. [8]
In der Mitte der achtziger Jahre taucht es wieder auf, allerdings in neuer deutscher Lautgestalt und mit einer zusätzlichen Bedeutung: Evaluation als "Beurteilung von Lehrplänen und Unterrichtsprogrammen". [9]
Diese Semantik kann, wie wir gesehen haben, nicht aus dem Französischen kommen. Sie stammt vielmehr aus dem Englischen, wo das aus dem Französischen entlehnte evaluation auch "Einschätzung" und "Auswertung" [10] bedeutet. Dies und die geänderte deutsche Phonetik (u statt v) machen kenntlich, daß es sich nunmehr um eine Neuübernahme aus dem Englischen handelt.
Leider wird das aber im deutschen Sprachgebrauch nicht klar, denn das Wort wird quasi-lateinisch und nicht englisch ausgesprochen. Vom etymologischen Standpunkt wäre aber die englische Aussprache zu bevorzugen, denn es handelt sich schließlich um kein lateinisches Wort. Vielleicht aber sollte man auf den Gebrauch von Evaluation ganz verzichten, denn "Lehrplanbeurteilung" drückt klarer aus, was eigentlich gemeint ist.
Manfred Karbach, Lünen 1998
[1] So seit der Chanson de Roland Ende 11. Jh. «avoir un certain mérite» (Walther von Wartburg: Französisches Etymologisches Wörterbuch. Bd. 14. Basel: Zbinden 1961. S. 153)
[2] Paul Robert: Dictionnaire de la langue française. Tome 6. Paris 1964. p. 933
[3] ebd. S. 132. Wartburg führt als erste Nennung das Jahr 1180, Robert das Jahr 1248 an. Value ist bis ins 17. Jh. gebräuchlich, stirbt danach aber aus (Trésor de la Langue Française. Centre National de la Recherche Scientifi-que. Tome 8. Paris 1980. p. 333)
[4] «1365 évaluacion ‘action d’évaluer’ [...]. Dér. du rad. de évaluer, suff. -tion.» (Trésor de la Langue Française. Centre National de la Recherche Scientifique. Tome 8. Paris 1980. p. 332)
[5] vergl. Erich Weis und Heinrich Mattutat: Pons-Großwörterbuch Französisch-Deutsch. Stuttgart 1988. S. 219
[6] vergl. Duden. Das große Wörterbuch der deutschen Sprache. Bd. 2. Mannheim 21993. S. 996
[7] Duden, Bd. 5: Fremdwörterbuch. Mannheim 1960. S. 179; Gerhard Wahrig: Deutsches Wörterbuch. Bd. 1. Gütersloh 1968. Sp. 1176; beidesmal als veraltet gekennzeichnet.
[8] So haben weder Meyers Enzyklopädisches Lexikon im Bd. 8 (Mannheim 1973) noch Lutz Mackensen: Ursprung der Wörter (München 1985) einen entsprechenden Eintrag.
[9] Duden, Bd. 5: Fremdwörterbuch. Mannheim 61997; so bereits die Brockhaus-Enzyklopädie, Bd. 6, Mannheim 1988; auch die Neubearbeitung des Wahrig hat nunmehr Evaluation (Deutsches Wörterbuch, Gütersloh 1997, S. 450). Zum ersten Mal erscheint Evaluation 1984 (s. auch Fußnote 6).
[10] vergl. Duden-Oxford Großwörterbuch Englisch. Mannheim 1990. S. 247. In dieser Bedeutung im Englischen erstmals 1779 (s. auch The Oxford English dictionary. Vol. 3. Oxford: Clarendon 1933. p. 327)
"From the ambitions of the academic disciplines, from the convulsive reforms of the educational system, from the battle-ground of the War on Poverty, from the ashes of the Great Society, from the reprisals of an indignant taxpaying public, there has emerged evaluation." (Glass, 1976, S. 9)
(Leseprobe aus Hense, J. U. (2006). Selbstevaluation. Erfolgsfaktoren und Wirkungen eines Ansatzes zur selbstbestimmten Qualitätsentwicklung im schulischen Bereich. Frankfurt a. M.: Peter Lang. [Kapitel 3.2])
Im Kontext der historischen Entwicklung von Evaluation, die in den folgenden Abschnitten skizziert wird, ist zunächst die Herkunft des Begriffs von Interesse. Etymologisch lässt sich der Begriff „Evaluation" folgendermaßen herleiten: Obwohl die bei uns übliche Aussprache des Wortes eine Wurzel im Lateinischen vermuten lässt, existiert eine direkte Entsprechung dort nicht. Vielmehr nahm der Begriff erst einen Umweg über das Französische und Englische (Karbach, 2000): Aus dem lateinischen valere („bei Kräften sein", „wert sein") entstand zuerst das französische valoir und daraus über mehrere Zwischenstufen die Neubildung évaluation. In der Aufklärung ist diese nicht nur ins Englische übernommen worden, sondern auch ins Deutsche. Dort ist sie leicht modifiziert als „Evalvation" (sic) mit den Bedeutungen „Schätzung", „Ermittlung" noch bis Mitte des 20. Jahrhunderts nachweisbar, dann aber verschwunden. In Folge der nordamerikanischen Evaluationsexpansion der 1960er Jahre kam es dann zu einer erneuten Entlehnung, dieses Mal aber aus dem Englischen mit der aktuellen Bedeutung. Etymologisch gesehen handelt es sich bei dem deutschen „Evaluation" in der heutigen Bedeutung also trotz der latinisierten Aussprache um eine direkte Übernahme aus dem Englischen.
Eine Praxis der Evaluation lässt sich bis in die Renaissance, die ihr zugrunde liegende Denktradition sogar bis in die Antike zurückverfolgen (vgl. Cronbach et al., 1980; Henninger, 2000). Für das Bildungswesen werden üblicherweise die Entwicklungen in den USA der 1930er und 1940er Jahre als Ursprung der modernen Evaluationspraxis gesehen. Da auch in den folgenden Jahrzehnten maßgebliche Impulse von Nordamerika ausgingen, wird im Folgenden zunächst die internationale Entwicklung dargestellt (Kapitel 3.2.1). Auf die Besonderheiten der bundesdeutschen Evaluationsgeschichte wird anschließend in Kapitel 3.2.2 eingegangen.
Für die Darstellung der Evaluationsgeschichte liegen verschiedene Einteilungen in historische Phasen vor, die sich vor allem im Grad ihrer Differenzierung unterscheiden (Cook & Matt, 1990; Cronbach et al., 1980; Shadish et al., 1991). Für den Bildungsbereich bietet sich besonders die Einteilung in fünf Phasen von Madaus und Stufflebeam (2000; vgl. Walberg & Haertel; 1990) an, welche die internationalen und insbesondere nordamerikanischen Entwicklungen zusammenfasst und daher der folgenden Darstellung zugrunde gelegt wird (vgl. Tabelle 1).
Tabelle 1: Phasen der Evaluationsgeschichte nach Madaus und Stufflebeam (2000)
Phase Dauer Die Tylersche Phase 1930-1945 Die Phase der Stagnation 1946-1957 Die Phase der Expansion 1958-1972 Die Phase der Professionalisierung und Diversifizierung 1973-1982 Die Phase der Integration seit 1983
Bahnbrechend für die moderne Evaluation waren Arbeiten von Ralph W. Tyler, der oft auch als „Vater der Bildungsevaluation" bezeichnet wird. Vor dem Hintergrund der Depression der dreißiger Jahre und den Reformprogrammen des New Deal von Präsident Roosevelt kam es in den USA unter dem Stichwort Progressive Education Movement zu umfangreichen Reformbemühungen im Bildungswesen. Tyler war im Rahmen der berühmten Eight Year Study verantwortlich für die Untersuchung der differentiellen Effekte verschiedener Schulformen. Im Rahmen dieser Arbeiten entwickelte er sein Konzept der Evaluation, in dessen Mittelpunkt der Vergleich der beabsichtigten Ziele eines Curriculums mit den tatsächlich erreichten Lernergebnissen der Schüler steht (Tyler, 1935, 1942; vgl. Kapitel 3.1.2).
Da bis dato vor allem die Lehrerqualifikation und Input-Faktoren auf organisationaler Ebene herangezogen wurden, um die Produktion von Bildung zu gewährleisten, schuf Tyler durch die Betonung der Outputs von Lernprozessen ein alternatives Modell zur Steuerung von Bildungssystemen und institutionen. Weitere Innovationen bestanden in der Überwindung subjektiver Verfahren der Leistungsüberprüfung und die Anwendung wissenschaftlicher Verfahren im Kontext größerer Reformvorhaben. Dadurch übten seine Arbeiten einen erheblichen Einfluss auf die weitere Entwicklung aus (Madaus & Stufflebeam, 2000).
In der Nachkriegszeit beschränkte sich die Weiterentwicklung von Evaluationsverfahren auf methodische Aspekte. Dazu gehörte die Ausweitung landesweit standardisierter Leistungstests, mit denen einzelne Schulen und Schuldistrikte die Erreichung curricularer Lernziele vergleichend überprüfen konnten. Daneben kam es zu einer Weiterentwicklung experimenteller Designs und des Tylerschen Evaluationsansatzes. Betrachtet man allerdings die damalige Bedeutung von Evaluation für die allgemeine gesellschaftliche Entwicklung und den Bildungsbereich insgesamt, ist eine relative Bedeutungslosigkeit festzustellen. Madaus und Stufflebeam (2000) nennen diese Phase daher „Age of Innocence" oder sogar „Age of Ignorance" (p. 9), da trotz vorhandener gesellschaftlicher Defizite kaum ein Bedarf für Evaluation gesehen wurde.
Als Auslöser für die große Expansionsphase der Evaluation wird häufig der „Sputnikschock" im Jahr 1957 genannt, als es der UdSSR erstmals gelang, einen künstlichen Satelliten in eine Erdumlaufbahn zu befördern (Stufflebeam, 2001). Diese überraschende Demonstration technologischer Überlegenheit durch ein unterlegen geglaubtes System führte zu einer allgemeinen Verunsicherung und Ängsten in Bezug auf die eigene Verteidigungsfähigkeit. Die in der Folge initiierten Reformbemühungen erfassten vor allem das Bildungssystem in starkem Maße. Insbesondere im Bereich Mathematik und Naturwissenschaften kam es zu großen landesweiten Programmen der Curriculumreform. Ein weiterer Schub ergab sich durch den von der Johnson-Administration 1965 ausgerufenen war on poverty, der die großen sozialen Missstände und Ungleichheiten jener Zeit beseitigen wollte. Auch hier wurden umfangreiche Reformprogramme aufgelegt, deren Effektivität im Rahmen begleitender Evaluationen überprüft wurde. Allgemein entstand also ein erhöhter Bedarf nach Überprüfung und objektivierter Steuerung gesellschaftlicher Entscheidungsprozesse, der durch Evaluationen gedeckt werden sollte (Shadish et al., 1991). Die Erwartung an Evaluation lautete dabei im Sinne von Poppers (1992) „Sozialtechnik der kleinen Schritte" (S. 187), den schrittweisen Umbau der Gesellschaftsordnung wissenschaftlich lenken zu können. Am exemplarischsten fanden diese Ideen ihren Ausdruck in Campbells (1969) Sichtweise von „reforms as experiments" und seinem Begriff der „experimenting society".
Mit der Ausweitung der Praxis der Evaluation zeigten sich allerdings auch erste Schwächen der bis dahin dominierenden Evaluationsmethoden, zu denen das Tylersche Zielerreichungsmodell, standardisierte Leistungstests und das klassische Experiment mit Kontrollgruppenversuchsplan gehörten. Diese ausschließlich auf Endergebnisse fokussierenden Methoden erwiesen sich als wenig tauglich, um jene Informationen zu liefern, die zur Optimierung der Praxis vonnöten waren. Cronbach (1963) war der erste, der auf diese Problematik hinwies und damit die Idee einer Evaluation für Verbesserungszwecke schuf, für die Scriven (1972) später die Bezeichnung „formative Evaluation" etablierte. Gleichzeitig begann sich jenes Phänomen abzuzeichnen, für das Rossi (1987) die pessimistischen, zugleich aber auch ironisch gemeinten „metallic and plastic laws of evaluation" formulierte:
Prototypisch für Rossis Diagnose kann beispielsweise die bekannte „What works'"-Studie von Martinson (1974) gelten. Sie fasste die damals vorliegenden Evaluationsergebnisse zu verschiedenen Rehabilitationsmaßnahmen für Strafgefangene zusammen und kam im Wesentlichen zum Schluss: „nothing works". Martinsons methodisches Vorgehen konnte später als defizitär und sein Fazit damit als ungültig belegt werden (Sarre, 2001). Darin drückte sich auch ein methodischer Fortschritt für die Disziplin aus, denn nicht zuletzt aufgrund dieser krisenhaften Entwicklungen resultierte gegen Ende der Expansionsphase der Evaluation auch eine Expansion der Evaluationsforschung (vgl. Kapitel 3.1.4.2). Wesentliche Paradigmen und Prämissen der frühen Phasen der Evaluationsgeschichte wurden dabei einer Überprüfung unterzogen, wodurch einer weitgehenden Umorientierung und Neukonzeptionalisierung des gesamten Felds der Weg bereitet wurde. Sie kann durch die Stichworte Professionalisierung und Diversifizierung charakterisiert werden.
Im Laufe der siebziger Jahren stellten sich eine Reihe von Entwicklungen ein, die von Madaus und Stufflebeam (2000) als Anzeichen einer zunehmenden Professionalisierung der Evaluation gedeutet werden (vgl. Rossi, 1984):
Neben solchen Professionalisierungstendenzen zeichnete sich in dieser Phase auch eine deutliche Diversifizierung der Praxis ab (Shadish et al., 1991). Eine Fülle neuer Evaluationsansätze und modelle entstand und etablierte sich, von denen viele, teils in einer weiterentwickelten Fassung, heute noch als aktuell gelten können (Alkin, 2004). Darunter befinden sich beispielsweise das CIPP-Modell von Stufflebeam (1973, 2003), das Konzept der zielfreien Evaluation von Scriven (1973), die responsive Evaluation von Stake (1975) oder naturalistische Evaluationsansätze (Guba, 1987). Daneben erschienen in dieser Phase die Erstauflagen wichtiger Lehrbücher (v.a. Rossi, Freeman & Wright, 1979; Weiss, 1972a), die heute in ihren aktualisierten Neuauflagen immer noch als Standardwerke gelten (Rossi et al., 2004; Weiss, 1998).
Negativ äußerte sich die Diversifizierung dieser Phase allerdings in zweierlei Hinsicht. Erstens gab es neben vielen wegweisenden Entwicklungen auch viel „Wildwuchs". Popham (1993) charakterisiert treffend: „For a time it appeared that an educational evaluation model was being generated by anyone who (1) could spell educational evaluation and (2) had access to an appropriate number of boxes and arrows" (p. 23). Einige der damals konzipierten Evaluationsansätze, die aus heutiger Sicht leicht exotisch wirken, sind inzwischen zurecht wieder in der Versenkung verschwunden. Ein zweites Problem stellte die zunehmende Polarisierung in der evaluationstheoretischen Auseinandersetzung dar, deren Lager als positivistisch-quantitativ auf der einen Seite und phänomenologisch-qualitativ auf der anderen Seite bezeichnet werden können (vgl. Kapitel 3.4.4). Diese Auseinandersetzung betrifft vordergründig methodische Fragen, im Grunde drückt sie aber eher ideologische und epistemologische Differenzen aus (Madaus & Stufflebeam, 2000).
Neben Professionalisierung und Diversifizierung ist diese Phase durch ein drittes wichtiges Phänomen gekennzeichnet, die aufkommende bzw. sich verstärkende Nutzungskrise der Evaluation (Legge, 1984; vgl. Kapitel 3.5.1). Erste Fragen zur Nutzung von sozialwissenschaftlichen Forschungsergebnissen allgemein und Evaluationsergebnissen im Speziellen kamen bereits Ende der 1960 auf. Wegweisend waren dabei die Arbeiten von Weiss (1972b, 1972c). Diese lösten in der Folge breite Diskussionen aus, zu denen auch vielfältige theoretische und empirische Forschungsbemühungen zu der Frage gehörten, wann und wie Evaluationsergebnisse überhaupt in der Praxis aufgegriffen und genutzt werden (Alkin, 1985; Alkin, Daillak & White, 1979; Ciarlo, 1981; Leviton & Hughes, 1981; Patton, 1997c; Patton et al., 1977; Weiss, 1981). Insgesamt konnten nur wenige empirische Belege dafür gefunden werden, dass Ergebnisse von Evaluation in dem Maße oder in der Art von Entscheidungsträgern und in der öffentlichen Debatte verwendet wurden, wie es vorgesehen war (Cook, 1997). Da aber Evaluation im Gegensatz zur Grundlagenforschung gerade durch ihre Handlungsorientierung (vgl. Kapitel 3.1.4.1) gekennzeichnet ist, stellte sich angesichts der Erkenntnis, dass konkrete Handlungen in Folge von Evaluationsergebnissen offenbar nur selten zu beobachten waren, die Sinnfrage (Alkin et al., 1979; Cronbach et al., 1980).
Das Zwischenfazit am Ende dieser Phase war also ein ernüchterndes: „Complaint has accompanied the expansion of evaluation. Everybody seems to think that evaluation is not rendering the service it should." (Cronbach et al., 1980, p. 44). Allerdings bleibt festzuhalten, dass die Nutzungskrise der Evaluationsforschung ein äußerst fruchtbares Forschungsgebiet erschlossen hat. Denn heute kann die Evaluationsnutzung als das bisher am besten untersuchte Teilgebiet der Forschung über Evaluation gelten (Leviton, 2003).
Die Nutzungskrise der Evaluation trug etwa seit Beginn der 1980er Jahre wesentlich zu einer Neu- und Umorientierung des gesamten Feldes bei. Nachdem gezeigt wurde, dass Evaluationsergebnisse in der bisherigen Praxis häufig nicht in konkreten Entscheidungssituationen herangezogen wurden, waren verschiedene Teilentwicklungen zu beobachten. Sie werden an dieser Stelle nur skizziert, da sie ein wichtige Rolle im Kontext der Kritik spielt, die an der traditionellen Evaluationspraxis geübt wurde, und in Kapitel 3.5 genauer diskutiert werden. Verkürzt lassen sich drei Tendenzen feststellen:
Auch in Folge dieser Entwicklungen trat der Methodenstreit zwischen quantitativem und qualitativem bzw. positivistischem und phänomenologischem Lager in den Hintergrund. Es kann zwar nicht behauptet werden, dass die methodische Polarisierung endgültig überwunden wurde. Dennoch ist unverkennbar, dass der Methodenstreit in dieser Phase an Bedeutung verliert. Stattdessen ergibt sich aus der Nutzungsdebatte zunehmende Akzeptanz für einen an praktischen Zwecken orientierten Methodeneklektizismus. Dies drückt sich beispielhaft in den neueren Auflagen des Standardlehrbuchs von Rossi et al. (2004) aus, in dem es nicht mehr um das eine, „richtige" Verfahren der Evaluation geht, sondern darum, Evaluationen je nach Kontext und Gegebenheiten „maßzuschneidern". Die Wahl der Methoden und Verfahren ist also in erster Linie eine Frage danach, was in welcher Situation als zweckdienlich und zielführend angesichts der vorliegenden Anforderungen gelten kann.
Gegensätze und Widersprüche der vergangenen Evaluationsgeschichte werden also zunehmend überbrückt und integriert, was nach Shadish et al. (1991) exemplarisch in den Arbeiten von Cronbach (1982; Cronbach et al., 1980) und Rossi (Rossi et al., 2004) deutlich wird. Gleichzeitig zeigt ihre umfassende theoriegeschichtliche Aufarbeitung des Felds auch, dass zwar bei vielen Fragen inzwischen weitgehende Einigkeit erzielt werden konnte, dennoch aber viele wesentliche evaluationstheoretische und praktische Fragen weiterer Klärung bedürfen.
Auf Seite der Praxis war diese Phase in Nordamerika gekennzeichnet durch die wachsende Bedeutung des Wettbewerbs als Faktor im Bemühen um Qualität in der Bildung und in anderen gesellschaftlichen Bereichen. Unter den Vorzeichen Rechenschaftslegung und Ergebnisüberprüfung fand Evaluation einen festen Platz im öffentlichen Bewusstsein und bei politischen Entscheidungsprozessen (Madaus & Stufflebeam, 2000).
Nachdem die bisherigen Darstellungen sich weitgehend an der internationalen Diskussion orientierten, welche durch die nordamerikanischen Entwicklungen stark geprägt ist, geht der folgende Abschnitt auf die Besonderheiten der bundesdeutschen Debatte ein.
Während in Nordamerika als Anfangspunkt der Evaluation im modernen Sinn die 40er Jahre des vorigen Jahrhunderts gelten können, setzt eine vergleichbares Fachinteresse in der Bundesrepublik erst in den 1970er Jahren ein (Lange, 1983; Müller, 1987; Wollmann, 1994). Einige Grundlinien der Entwicklungen im angloamerikanischen Raum sind dabei mit Verzögerung im deutschen Sprachraum zu beobachten (vgl. Stangel-Meseke & Wottawa, 1993; Will & Krapp, 1983). Allerdings liegen ihnen hier jeweils spezifische Begründungszusammenhänge und Bedürfnislagen zugrunde, die sich etwa auch in unterschiedlichen Formen der institutionellen Verankerung von Evaluation äußerte. So lässt sich momentan die deutsche Entwicklung im Gegensatz zur internationalen Entwicklung noch nicht in ein sinnvolles Phasenmodell bringen.
Den gesellschaftlichen Hintergrund der beginnenden Evaluationstätigkeiten stellen auch hier allgemeine Reformbemühungen seit den 1960er Jahren und insbesondere die beschleunigte Bildungsexpansion der 1970er Jahre dar (Lange, 1983). Dabei fand eine erste vertiefte Auseinandersetzung mit theoretischen und praktischen Fragen der Evaluation insbesondere im Rahmen von Reformbemühungen und Modellversuchen zur Curriculumentwicklung statt, die bereits im letzten Drittel der sechziger Jahre begonnen hatten (Frey, 1975; Neul, 1977; Wulf, 1971). Wulf (1975a) sieht als soziale Funktion (vgl. Kapitel 3.3) damaliger Evaluationstätigkeiten vor allem Legitimationsprobleme des staatlichen Bildungssystems. Sie entstünden dadurch, dass selbstgesetzte Ansprüche und Erwartungen der Öffentlichkeit nicht erfüllt werden. Vor allem Bildungsverwaltungen wollten wissenschaftliche Evaluation als Mittel nutzen, um ein chronisches Legitimitätsdefizit zu lindern und politische und planerische Entscheidungen in der Öffentlichkeit abzusichern.
Für öffentlich geförderte Evaluationsprojekte war ein 1971 geschlossenes Verwaltungsabkommen zwischen Bund und Ländern besonders wichtig, aus dem die heutige Bund-Länder-Kommission für Bildungsplanung und Forschungsförderung (BLK) hervorging (Scholz, 1984). Im Rahmen von Modellversuchen und Modellversuchsprogrammen, mit denen die BLK Innovationen im Bildungswesen initiiert und begleitet, spielte auch Evaluation eine wachsende Rolle (Lange, 1983; Stangel-Meseke & Wottawa, 1993). Weiterer Evaluationsbedarf im Bildungswesen ergab sich im Kontext der Auseinandersetzung um die Gesamt- und Regelschule (vgl. Wittmann, 1990), die auch Anlass für evaluationsmethodologische Diskussionen waren (Wottawa, 1981). Ein Symposium zum Thema Evaluation fand 1982 im Rahmen der Herbsttagung der Arbeitsgruppe für Empirische Pädagogische Forschung (AEPF) in der Deutschen Gesellschaft für Erziehungswissenschaft (DGfE) in Wien statt (Will & Krapp, 1983). Dort kam es zwar zu Ansätzen einer vielversprechenden Auseinandersetzung über evaluationstheoretische und praktische Fragestellungen, wie etwa die Frage der notwendigen Praxisnähe, die jedoch, zumindest wenn man ihren Ertrag in der Literatur aufzuspüren versucht, relativ folgenlos blieb.
Nach einer ersten „Blüte" im Bildungswesen der 1970er geriet also Evaluation während des folgenden Jahrzehnts für praktisch und theoretisch tätige Pädagogen eher an den Rand des Blickfelds, so dass Beywl (1999) sogar von einer „winterschlafenden Evaluationsdiskussion" (S. 2) spricht. Für Lange (1983) stellt sich die Entwicklung anders dar. Ihm zufolge bleibt das Aufkommen an Evaluation im Bildungswesen zwar in etwa konstant, es kommt aber in zweierlei Hinsicht zu allmählichen Verlagerungen, die einen Kontinuitätsbruch zur heutigen Entwicklung darstellen. Zum einen werden Evaluationen nicht mehr nur von rein wissenschaftlich orientierten Hochschulinstitutionen durchgeführt, sondern immer häufiger unter direkter Aufsicht der Bildungs- und Kulturverwaltungen. Dieser Trend manifestiert sich in der Schaffung eigener Forschungsinstitutionen der Länder, die als nachgeordnete Dienststellen der Kultusverwaltungen fungieren. Zum anderen gewinnen im Kontext allgemeiner wissenschaftssoziologischer Entwicklungen die Methoden und Paradigmen der Handlungsforschung (Heinze, Müller, Stickelmann & Zinnecker, 1975a) eine zunehmende Dominanz bei praktischen Evaluationsvorhaben. Vor dem Hintergrund dieser Trends am Ende eines ersten Evaluationsbooms in der BRD überrascht es nicht, wenn Lange (1983) feststellt, dass sich in Deutschland zum damaligen Zeitpunkt noch keine wissenschaftlicher Diskurs über theoretische und methodische Voraussetzungen der Evaluation herausbilden konnte. Erst im Laufe der 1990er Jahre kommt es angesichts der in Kapitel 2 geschilderten gesellschaftlichen Hintergründe und Entwicklungen zu einer Wiederbelebung des Evaluationsdiskurses.
Parallel zur Entwicklung bis zu diesem Zeitpunkt verläuft die Rezeption der internationalen Fachdiskussion. Zu Beginn der deutschen Evaluationspraxis kann noch eine relativ intensive Auseinandersetzung mit dem internationalen Diskurs festgestellt werden. Dafür steht etwa die Aufsatzsammlung von Wulf (1972), in der nicht nur einige theoretische Beiträge von prominenten Autoren wie Cronbach, Scriven, Stake, Stufflebeam, Alkin oder Glass in deutscher Übersetzung vorgelegt wurden, die heute noch als seminal writings nicht nur der pädagogischen Evaluationsliteratur gelten, sondern auch mehrere beispielhafte „klassische" Studien wie beispielsweise „Das erste Jahr von Sesame Street" von Ball und Bongatz (1972). Auch das im gleichen Jahr erschienene Lehrbuch von Weiss (1972a) wurde zwei Jahre später in deutscher Übersetzung aufgelegt. Danach scheint aber, parallel zum Abflauen des allgemeinen Evaluationsdiskurses, die Wahrnehmung der angelsächsischen Entwicklungen zu erlahmen (Beywl, 1999). Insbesondere die Fortschritte, die sich seit der Phase der Professionalisierung und Diversifizierung ergeben haben (vgl. Kapitel 3.2.1.4), sind bis auf Ausnahmen hierzulande kaum aufgegriffen worden (Beywl, 1991). Prototypisch kann dafür das einzige deutschsprachige Lehrbuch von Wottawa und Thierau (1998) genannt werden, das auch in seiner aktuellen zweiten Auflage die nordamerikanische Entwicklung wenn überhaupt nur etwa bis Mitte der 1970er Jahre reflektiert.
Will man den gegenwärtigen Stand der deutschen Evaluationsdiskussion im internationalen Vergleich verorten, so fallen in erster Linie Ähnlichkeiten zur Phase der Professionalisierung und Diversifizierung auf. Dies sei an den drei in Kapitel 3.2.1.4 genannten Kennzeichen dieser Phase (Professionalisierung, Diversifizierung, Nutzungskrise) erläutert.
Während Stangel-Meseke und Wottawa (1993) noch keinerlei Anzeichen einer Professionalisierung der Evaluation in der BRD beobachten konnten, haben sich seitdem einige wichtige Entwicklungen vollzogen. So gründete sich 1997 die Deutsche Gesellschaft für Evaluation (DeGEval) in Köln als Berufs- und Interessensverband für Personen und Organisationen, die sich praktisch oder theoretisch mit Evaluation befassen. Die DeGEval war unter anderem verantwortlich für eine Adaption der Standards für Evaluation des Joint Committee (1994), die allerdings nur geringfügig an die hiesigen Besonderheiten angepasst wurden (DeGEval, 2002). Als einzige deutschsprachige Fachzeitschrift existiert seit 2002 die Zeitschrift für Evaluation, die ebenfalls von der DeGEval ausgeht. Eigene Aus- bzw. Fortbildungsgänge für eine Tätigkeit als Evaluator existieren momentan in Form eines postgradualen Studiengangs Evaluation der Universität Bern und als Fortbildungsprogramm Evaluation in der Entwicklungszusammenarbeit beim Centrum für Evaluation der Universität des Saarlandes in Saarbrücken. Ein auf das Praxisfeld Pädagogik zugeschnittener Studiengang existiert dagegen noch nicht.
Auch Anzeichen einer zunehmenden konzeptionellen Diversifizierung sind im deutschen Sprachraum zu beobachten. Im Gegensatz zur rein begrifflichen Diversifizierung, die bereits seit Neuerstarken der Evaluationspraxis Mitte der 1990er Jahre als eher negative Begleiterscheinung des Evaluationsdiskurses zu beobachten ist (vgl. Kapitel 3.2.2), kommt es in den vergangenen Jahren zu einer Erweiterung konzeptioneller Ansätze und Herangehensweisen bei der praktischen Umsetzung von Evaluation. Eine wichtige Rolle spielen dabei eine inzwischen wieder intensivierte Auseinandersetzung mit der internationalen Debatte und ein zunehmender Austausch zwischen den verschiedenen Fachdisziplinen, in denen Evaluation betrieben wird.
Als drittes Merkmal des gegenwärtigen Stands der Theorie- und Praxisentwicklung sind auch in der BRD schon seit längerem Anzeichen einer Nutzungskrise zu verzeichnen (vgl. Wittmann, 1990). Gerade im bildungspolitischen Bereich wurde beobachtet, dass Evaluationen oft nicht für Entscheidungszwecke herangezogen werden, sondern eher, um bereits getroffene Entscheidungen besser „verkaufen" zu können (Will & Krapp, 1983). Diesen Ergebnissen entsprechen die von Thonhauser und Patry (1999) referierten Befunde. Sie stellen fest, dass die Hoffnung, Evaluationen von Schulversuchen als Entscheidungsgrundlage für die Bildungspolitik zu nutzen, sich bei verschiedenen Beispielen der siebziger und frühen achtziger Jahre nicht erfüllt hat. Die Evaluationsergebnisse wurden demnach bestenfalls als Anlass für Ad-hoc-Argumente verwendet, selten aber im Sinn der tatsächlichen Ergebnisse. Auch an den Erfahrungen der Autoren aus der eigenen Praxis wird deutlich, dass die Beteiligten im Feld (Befürworter und Gegner einer evaluierten Innovationsmaßnahme) Evaluation oft hauptsächlich als ihren Interessen dienlich bzw. bedrohlich empfinden, der Glaube an eine mögliche Verbesserungsfunktion und Objektivität der Evaluation aber wesentlich geringer ausgeprägt ist.
Aktuelle Beispiele für eine mangelnde Nutzung und Akzeptanz von Evaluationsergebnissen durch Lehrkräfte sind im Kontext jüngerer Modellvorhaben und internationaler Schulleistungsstudien zu finden. Ditton und Arnoldt (2004) fanden, dass selbst wenn Lehrer die Rückmeldung von Evaluationsergebnissen verständlich, gut erläutert, informativ und übersichtlich beurteilen, sie die Verwertbarkeit für konkrete Verbesserungen der Unterrichtsarbeit weniger günstig einschätzen. Nach Schwippert (2004) machten im Kontext der internationalen Grundschul-Vergleichsuntersuchung IGLU nur die Hälfte aller Lehrkräfte von der Möglichkeit Gebrauch, individuelle Rückmeldungen zu erhalten, um Informationen über den relativen Leistungsstand ihrer Klassen zu bekommen. Hier bestehen offenbar von vorne herein Zweifel über den möglichen Nutzen der Rückmeldung solcher Ergebnisse. Auch Schrader und Helmke (2004) berichten von einer deutlichen Reserviertheit der Lehrkräfte gegenüber der Nutzung von Evaluationsrückmeldungen im Rahmen der rheinland-pfälzischen Evaluationsstudie MARKUS. Eine Diskussion weiterer Beispiele für die mangelnde Akzeptanz und Nutzung von Evaluationsergebnissen leisten Henninger und Balk (2001).
Das Problem der unzureichenden Nutzung von Evaluationsergebnissen scheint inzwischen erkannt und in der deutschsprachigen Diskussion aufgegriffen worden zu sein. Stockbauer (2000) hat die wichtigsten Erträge der internationalen Nutzungsforschung zusammengefasst. Ein von Kohler und Schrader (2004) herausgegebenes Themenheft von Empirische Pädagogik enthält verschiedene Untersuchungen, die sich mit dem Themenkomplex Ergebnisrückmeldung und Rezeption von Evaluationsergebnissen auseinandersetzen.
Auch in der Evaluationsmethodik vollzieht sich in Deutschland eine langsame Wende im „Hegemoniestreit" (Lassnigg, 1997). Während beim oben erwähnten AEPF-Symposium Anfang der achtziger Jahre (Will & Krapp, 1983) die Vertreter einer pragmatischen Sichtweise von Evaluation, die sich in erster Linie dem Praxisnutzen von Evaluation verpflichtet fühlen, offenbar noch stark in der Defensive waren, finden sich zunehmend Belege für einen Abschied von der alleinigen Dominanz der methodenfixierten Sichtweise von Evaluation, wie sie durch den Paradigmenstreit zwischen kritischen Rationalismus und Handlungsforschung oder zwischen qualitativen und quantitativen Methoden provoziert wurde. So postuliert Kromrey (2001b) als eine der Besonderheiten der Evaluation als angewandte Sozialwissenschaft ein Primat der Praxis. Im Zweifel hat demnach das Ziel, Handlungswissen für die Praxis bereitzustellen, vor rein wissenschaftlichen Ansprüchen zu rangieren. Lassnig (1997) stellt fest, dass sich insgesamt eine pragmatische Sichtweise zu etablieren beginnt, in der die verschiedenen Ansätze und Verfahren der Evaluation mit ihren spezifischen Stärken und Schwächen anerkannt werden.
Insgesamt scheint sich also heute ein Trend abzuzeichnen, der zu einer Entwicklung führen kann, wie sie für die Phase der Integration (vgl. Kapitel 3.2.1.5) in der internationalen Evaluationsgeschichte festgestellt worden ist: Eine pragmatische Sichtweise von Evaluation als Element geplanter sozialer Veränderungsprozesse setzt sich durch, deren Erfolg in erster Linie in einer nachhaltigen und sinnvollen Nutzung ihrer Ergebnisse gesehen wird. Methodisch ergibt sich daraus der Abschied von der Vorstellung, es gebe nur eine richtige Art und Weise, Evaluation zu betreiben, die für alle Situationen Gültigkeit hat. Sie wird ersetzt durch einen gewissen Eklektizismus, der je nach Zielsetzung und Kontext eines gegebenen Evaluationsprojekts jene Methoden und Verfahren auswählt, die zweckdienlich und zielführend erscheinen. Als Absicherung gegenüber Fehlentwicklungen dienen nicht alleine die Gütekriterien sozialwissenschaftlicher Forschung, sondern vor allem fachspezifische Standards für Evaluation (z. B. DeGEval, 2002).
(Leseprobe aus Hense, J. U. (2006). Selbstevaluation. Erfolgsfaktoren und Wirkungen eines Ansatzes zur selbstbestimmten Qualitätsentwicklung im schulischen Bereich. Frankfurt a. M.: Peter Lang. [Kapitel 3.2])
(Leseprobe aus Hense, J. U. (2006). Selbstevaluation. Erfolgsfaktoren und Wirkungen eines Ansatzes zur selbstbestimmten Qualitätsentwicklung im schulischen Bereich. Frankfurt a. M.: Peter Lang. [Kapitel 2.3])
Das zunehmende Interesse an Qualität im Bildungswesen kann also als „semantische Begleitung" struktureller Veränderungen im Bildungssystem und der Gesamtgesellschaft verstanden werden (Kuper, 2002). Damit hat die Qualitätsdiskussion viele Ursachen auf unterschiedlichen Ebenen. Ebenso mannigfaltig sind die Reaktionen, die durch die Diskussion ausgelöst wurden bzw. parallel zu ihr zu beobachten sind. Die wichtigsten und häufigsten Antworten auf diese Fragen lassen sich unter den vier Schlagworten veränderte Steuerungskonzepte, Bildungsstandards, Professionalisierung und Evaluation zusammenfassen. Wie die folgende Diskussion der vier Reaktionstendenzen zeigt, bestehen auch hier deutliche Interdependenzen.
Im Bereich der öffentlich finanzierten Bildung stellte die Inputsteuerung lange Zeit das dominierende Steuerungskonzept in Schulen und Hochschulen dar (Müller-Böling, 1997; Rolff, 1996). Auf Systemebene wird dabei die Produktion von Qualität primär durch gesetzliche Vorgaben und Verordnungen, Lehrpläne und die Reglementierung der Lehreraus- und fortbildung geregelt. Auch auf Ebene der einzelnen pädagogischen Institution stand die Regulierung des Inputs lange im Vordergrund, indem sich das Hauptaugenmerk auf die Qualifikation und Auswahl von Lehrenden in Schule und Hochschule konzentrierte. Die zugrunde liegende Annahme dabei ist, dass Qualität sich dann einstellt, wenn sichergestellt wird, dass Lehrende zum Zeitpunkt der Einstellung gut ausgebildet und ausreichend qualifiziert sind. Prozess- und Produktmerkmale haben dagegen bei dieser Steuerungsphilosophie nur eine geringe Relevanz.
Nachdem sich die Inputsteuerung im deutschen Bildungswesen lange Zeit durchaus bewährt hat (Kuper, 2002; Marksthaler, 1999), sind als Reaktion auf die neuere Qualitätsdebatte Zweifel aufgekommen, ob diese bürokratische Steuerungsphilosophie veränderten Bedingungen noch gerecht werden kann (Steffens, 1999). Insbesondere ihre Inflexibilität und Trägheit sowie die Missbrauchsgefahr in Folge fehlender Kontrollmöglichkeiten spielten dabei eine Rolle (Müller-Böling, 1997; Posch & Altrichter, 1998). In der Folge kam es somit zu einer Öffnung des Bildungsbereichs für alternative Steuerungsmodelle und techniken, die sich sämtlich durch eine stärkere Betonung der Prozesse und Produkte von Bildungsmaßnahmen auszeichnen. Im Gegensatz zur reinen Inputsteuerung lautet dabei die Erwartung, dass Schwachstellen in der laufenden Arbeit schneller aufgedeckt und verbessert werden können und dass flexibler auf veränderte Rahmenbedingungen reagiert werden kann.
Zu den neuen Steuerungsverfahren gehören unter anderem übergreifende Konzepte und Ansätze aus den Bereichen Qualitätssicherung (Donabedian, 1996), Qualitätsmanagement (Beywl, 1994; Dubs, 1998; Greve & Pfeiffer, 2002) und Bildungscontrolling (Hense, Mandl & Schratzenstaller, 2005; Seeber, 2002) sowie eine Reihe weiterer Techniken und Verfahren wie etwa Qualitätszirkelarbeit (Blenck, 2000), Gütesiegel (Liebald, 1998), Benchmarking (Bessoth, 2000; Halfar & Lehnerer, 1997), Balanced Scorecards (Kaplan & Norton, 1992) oder die Normenreihe DIN EN ISO 9000-9004 (Wunder, 1995; Wuppertaler Kreis, 1996). Wie diese Aufzählung zeigt, gingen bei der Suche nach alternativen Steuerungsmodellen starke Impulse vom betrieblichen Bereich aus.
Eine Marktübersicht ausgearbeiteter Qualitätssicherungs- und Qualitätsmanagementsysteme für den Bildungsbereich von Gonon et al. (1998) zeigte bereits eine große Vielfalt. Die Ansätze unterscheiden sich teils erheblich in Faktoren wie der konkreten Zielsetzung, der konzeptionellen Fundierung, dem Grad der Standardisierung oder dem Vorgehen. Gleichzeitig liegen jenseits von Pilotprojekten bisher kaum Umsetzungsbeispiele in der Praxis vor. Dies kann auch auf eine starken Skepsis gegenüber betrieblich und marktwirtschaftlich orientierten Steuerungsphilosophien zurückgeführt werden, die insbesondere im schulischen Bereich verbreitet ist (vgl. Altrichter, 1999; Dubs, 1998). Daher wird gewöhnlich empfohlen, diese nicht unverändert zu übernehmen, sondern immer erst an die spezifischen Gegebenheiten des Bildungswesens und pädagogischer Institutionen anzupassen (Reinmann-Rothmeier, 2000; Schicke, 1997). Ohnehin erscheint aufgrund einiger unüberwindlicher, systembedingter Unterschiede von Marktwirtschaft und Bildungswesen die unkritische Übertragung der betriebswirtschaftlichen Logik auf Bildungsinstitutionen allgemein problematisch (vgl. Fend, 2000; Gonon et al., 1998).
Die Diskussion von Bildungsstandards kann ebenfalls als Reaktion auf die neuere Qualitätsdebatte genannt werden. Bildungsstandards haben die Funktion, die Ziele pädagogischer Arbeit für einen bestimmten Geltungsbereich präzise und verständlich festzulegen. Dazu gehört, dass diese Ziele in Form von erwünschten Lernergebnissen der Lernenden explizit gemacht werden (OECD, 1989). Im Gegensatz zu klassischen Curricula wird also einerseits die unmittelbare Operationalisierbarkeit von Lernzielen angestrebt, während andererseits keine Vorgaben gemacht werden, wie und mit welchen Methoden diese zu erreichen sind. So kommt etwa der auf Standards umgestellte finnische Rahmenlehrplan für den grundbildenden Unterricht mit Anhängen auf nur 180 Seiten Umfang, wobei sämtliche Fächer der Klassenstufen 1 bis 9 abgedeckt werden. Als Finnland nach dem ersten „PISA-Schock" in der deutschen Bildungsdiskussion zum vielzitierten Vorbild wurde, war dies ein Sachverhalt, der viele deutsche Pädagogen offenbar sehr erstaunt hat (Kahl, 2004, 29. März).
Bildungsstandards nehmen im aktuellen Bildungsdiskurs eine doppelte Funktion ein (Klieme et al., 2003). Einerseits konkretisieren sie den Auftrag, den Bildungsinstitutionen zu erfüllen haben, und übernehmen damit curriculare Aufgaben. Andererseits stellen sie Kriterien und Maßstäbe zur Verfügung, anhand derer die Ergebnisse von Bildungsprozessen auf individueller und institutioneller Ebene bewertet werden können (Bessoth, 2000; Dubs, 1998). Damit steht die Entwicklung von Bildungsstandards in einem engen Zusammenhang mit der bereits diskutierten Veränderung von Steuerungsstrategien. Denn Verfahren der Prozess- und insbesondere Outputsteuerung sind darauf angewiesen, dass klar formulierte Zielvorgaben existieren, an denen Erfolge gemessen und Schwachstellen aufgedeckt werden können. Auch mit Prinzipien wie Dezentralisierung und Schulautonomie zeigen sich Kongruenzen, da die Entscheidungsbefugnis darüber, mit welchen Mitteln und auf welchem Wege Standards angestrebt werden, den verantwortlichen Akteuren vor Ort überlassen wird.
Ein drittes Thema, das im Kontext der Qualitätsdiskussion im Bildungswesen ein stärkeres Gewicht bekommen hat, ist die Frage der pädagogischen Professionalität bzw. Professionalisierung (Combe & Helsper, 1996; Darling-Hammond & Wise 1992; Lüders, 1998). Sie setzt bei den oben genannten Defiziten in den Prozessen der Bildungsproduktion auf zwei Ebenen an.
Auf unterrichtlicher Ebene geht es unter dem Schlagwort Professionalisierung primär darum, die Qualität der pädagogischen Interaktion durch geeignete Fortbildungsmaßnahmen bei Lehrkräften und anderen Lehrenden sicherzustellen (vgl. Avenarius et al., 2003). Darin ist kein grundsätzliches Misstrauen gegenüber der Qualifikation von Lehrkräften zu sehen. Vielmehr kann auch die Forderung nach einer kontinuierlichen und obligatorischen Fort- und Weiterbildung als Ausdruck einer Umorientierung der allgemeinen Steuerungsphilosophie verstanden werden.
Analog wird im Kontext der neueren Qualitätsdebatte auf der institutionellen Ebene des Schulmanagements mehr Professionalität gefordert. Da in der BRD die Leitung einer Schule oft als Nebentätigkeit zur pädagogischen Arbeit und ohne eigene Ausbildung ausgeübt werden muss, konzentriert sich auch hierbei die Aufmerksamkeit auf den Bereich der Fort- und Weiterbildung. Deren Bedeutung ist nicht zu unterschätzen, da damit zu rechnen ist, dass unter anderem im Zuge der wachsenden Autonomie von Einzelschulen die Aufgaben und Verantwortlichkeiten von Schulleitungen sowohl quantitativ als auch qualitativ eher zu- als abnehmen werden (Bonsen, Iglhaut & Pfeiffer, 1999; Füssel, 1998; Höher & Rolff, 1996).
Als vierte wichtige Reaktionstendenz im Zuge der neueren Qualitätsdebatte kann schließlich die Wiederentdeckung der Evaluation und ihrer verschiedenen Varianten genannt werden. Sie steht dabei in enger Verbindung zu den drei zuvor genannten Trends:
Somit überrascht es nicht, dass Evaluation im Kontext der neueren Qualitätsdebatte einen zentralen Stellenwert einnimmt und dass Evaluation heute zu einem der wichtigsten Indikatoren von Bildungsqualität gerechnet wird (Europäische Kommission, 2001). Das folgende Kapitel wird den Begriff der Evaluation vertiefen und dazu auf wichtige Entwicklungslinien, Aufgaben, Ansätze und Problemfelder eingehen.
(Leseprobe aus Hense, J. U. (2006). Selbstevaluation. Erfolgsfaktoren und Wirkungen eines Ansatzes zur selbstbestimmten Qualitätsentwicklung im schulischen Bereich. Frankfurt a. M.: Peter Lang. [Kapitel 2.3])
In diesem Abschnitt finden sich Inhalte zu verschiedenen Evaluationsansätzen, -modellen und -theorien und ihre jeweilige Protagonisten.
Haubrich, K. (2001). Cluster-Evaluation - lokale Kontexte berücksichtigen, Innovation und Beteiligung fördern. In BMFSFJ (Hrsg.), QS 35 Materialien zur Qualitätssicherung in der Kinder- und Jugendhilfe.
Millet, R. (1995). W.K. Kellogg Foundation cluster evaluation model of evolving practices. Battle Creek, MI: W.K. Kellogg Foundation.
Sanders, J. R. (1997). Cluster Evaluation. In E. Chelimsky & W. R. Shadish (Hrsg.), Evaluation for the 21st century. A handbook (S. 396-404). Thousand Oaks: Sage.
"Evaluation may be done to provide feedback to people who are trying to improve something (formative evaluation); or to provide information for decision-makers who are wondering whether to fund, terminate, or purchase something (summative evaluation)." (Scriven, 1980, S. 6-7)
Der Begriff formative Evaluation (nicht das Konzept) geht auf Scriven (1972) zurück und bildet mit seinem Gegenstück summative Evaluation wohl das prominenteste Begriffspaar in der Evaluationsliteratur. Dennoch handelt es sich um einen problematischen Begriff, da er ungenau definiert, theoretisch unstimmig und in seiner praktischen Verwendung oft entsprechend beliebig ist (vgl. dazu etwa die Beiträge von Patton, Chen und Wholey in Evaluation Practice, 1996, Vol. 17, No. 2).
Da sich das Begriffspaar wegen seiner hohen Anmutungsqualität trotz dieser Probleme mit Sicherheit halten wird, scheint mir folgende Begriffsverwendung sinnvoll:
Die Begrifflichkeiten formativ/summativ werden ausschließlich zur Bezeichnung intendierter Evaluationszwecke verwendet, so wie es das obige Zitat Scrivens andeutet. Auf alle anderen von Scriven und Apologeten vertretenen Addenda wird verzichtet. Darunter fallen:
Subject: Re: Formative/Summative & Process/Outcome 2*2 Matrix?
Date: Tue, 28 Dec 2004 12:24:10 -0500
From: Eileen Stryker
I don't remember whether or where Dan Stufflebeam might have written this, but back in olden times when I took his class, he talked about how he and Scriven grew to understand that the CIPP model and Formative / Summative evaluation complement, rather than compete with, each other. It went something like what I've portrayed below (roughly and w/o the careful thought portrayed by Dan in class -- I haven't enough room or time for that right now). Context evaluation includes (but is not limited to) evaluation of goals; input includes evaluation of designs and resources; process includes implementation and product includes effects -- outputs, outcomes, short, medium, long term, etc. etc. These are further defined in the design phase of any evaluation study, of course. Formative focusses on providing information for program development, summative for accountability (with the extended meanings Scriven has portrayed in previous posts and writings, of course
| Context Input Process Product --------------|---------------------------------------------- Formative | | Summative | |
Some sample questions might include:
Formative /Context: Are program goals responsive to participant needs? Are the goals good?
Summative /Context: Were the goals appropriate to participant needs? To the setting? What contextual factors were important to project successes/ failures?
Formative Input: What designs might be most effective to reach the goals? What can (educational, social, health, management) theory tell us about effective intervention designs?
Summative Input: Was the project design well-founded in theory, best practice, organizational experience?
I'm sure you can fill in the rest.
Hope this helps. It has certainly helped me think about questions an evaluation might address as I meet with client groups.
Happy New Year,
Eileen
Dr. Eileen Stryker Stryker and Endias, Inc. Planning, Research and Evaluation Services Kalamazoo, Michigan 269-668-2373
Original Message -----
From: "Charles Partridge"
> Group, > > Before I reinvent the wheel, if someone out there has already put > together a 2*2 matrix that defines the Formative/Summative & > Process/Outcome dimensions, could you please forward it to me? > > Thanks in advance. > > Charles R. Partridge > Evaluation Specialist > Center for Learning Excellence > The John Glenn Institute for Public Service and Public Policy > The Ohio State University > Columbus, Ohio 43212-1421 > Email: Partridge.6@osu.edu > > ------------------------------------------------------------------ > EVALTALK - American Evaluation Association (AEA) Discussion List. See also > the website: http://www.eval.org > To unsubscribe from EVALTALK, send e-mail to listserv@bama.ua.edu > with only the following in the body: UNSUBSCRIBE EVALTALK > To get a summary of commands, send e-mail to listserv@bama.ua.edu > with only the following in the body: INFO REFCARD > To use the archives, go to this web site: > http://bama.ua.edu/archives/evaltalk.html > For other problems, contact a list owner at kbolland@sw.ua.edu or > carolyn.sullins@wmich.edu
EVALTALK - American Evaluation Association (AEA) Discussion List. See also
the website: http://www.eval.org
To unsubscribe from EVALTALK, send e-mail to listserv@bama.ua.edu
with only the following in the body: UNSUBSCRIBE EVALTALK
To get a summary of commands, send e-mail to listserv@bama.ua.edu
with only the following in the body: INFO REFCARD
To use the archives, go to this web site: http://bama.ua.edu/archives/evaltalk.html For other problems, contact a list owner at kbolland@sw.ua.edu or carolyn.sullins@wmich.edu
From: "Alan Listiak"
Last week a request went out for info on logic models. I have accumulated a number of resources on "How-to" develop and use logic models in program development and evaluation. Here they are.
1. Mayeske, George W. and Michael T. Lambur (2001). How to Design Better Programs: A Staff Centered Stakeholder Approach to Program Logic Modeling. Crofton, MD: The Program Design Institute. Highly Recommended.
And, Mayeske, George W. (2002). How to Develop Better Programs & Determine Their Results: An Organic & Heuristic Client & Staff Centered Approach with Stakeholder Involvement. Bowie, MD: The Program Design Institute. Highly Recommended.
The first manual (How to Design Better Programs) is a step-by-step guide to developing and implementing logic models. The second manual (How to Develop Better Programs) deals focuses on how-to develop experiential educational programs "based on, but not restricted to, the use of program logic models which serve as a tool for the development process." (from the Foreword).
Both manuals are available from The Program Design Institute, c/o Dr. George W. Mayeske, 12524 Knowledge Lane, Bowie, MD 20715-2622. The Logic Modeling manual is $28.00 (includes shipping) and the Better Pro-grams manual is $45.00 (including shipping) - checks only. But both manuals can be purchased at a discount. Contact Dr. Mayeske for details at gwmayeske@aol.com.
2. W. K. Kellogg Foundation (2001). W. K. Kellogg Foundation Logic Model Development Guide. Available for no cost at http://www.wkkf.org/ by clicking on the link to the guide on the right of the page.
This guide is not as detailed as the Program Design Institute guides on the nuts and bolts of logic modeling, but is better at discussing program theory and its application. And it's free for the downloading. Highly Recommended.
Also see: W. K. Kellogg Foundation (1998). W. K. Kellogg Foundation Evaluation Handbook. Available at no cost through this site at http://www.wkkf.org/ by clicking on the link to the handbook.
3. Devine, Patricia (1999). Using Logic Models in Substance Abuse Treatment Evaluations. Fairfax, VA: National Evaluation Data and Technical Assistance Center, Caliber Associates. Available at
http://www.calib.com/home/work_samples/files/logicmdl.pdf.
Highly Recommended.
This paper discusses the use of logic models in planning and evaluating substance abuse treatment services. The best part is the "sample data maps" that specify evaluation questions, measures, and variables.
The paper is part of the Integrated Evaluation Methods Package
for substance abuse treatment programs developed under the auspices of the Center for Substance Abuse Treatment, Department of Health and Human Services. The full discussion of this evaluation framework, concepts, and tools is presented in: Devine, Patricia (1999). A Guide for Substance Abuse Treatment Knowledge-Generating Activities. Fairfax, VA:
National Evaluation Data and Technical Assistance Center, Caliber
Associates. Available at http://www.calib.com/home/work_samples/files/iemdoc.pdf.
There are other papers in the Integrated Evaluation Methods Package available at http://www.calib.com/home/work_samples/pubs.cfm under the heading Substance Abuse Research and Evaluation, Evaluation Tools and Resources. These papers include:
Devine, Patricia (1999). A Guide to Process Evaluation of Substance Abuse Treatment Services. Fairfax, VA: National Evaluation Data and Technical Assistance Center, Caliber Associates.
Devine, Patricia, Bullman, Stephanie, & Zeaske, Jessica (1999). Substance Abuse Treatment Evaluation Product Outlines Notebook. Fairfax, VA: National Evaluation Data and Technical Assistance Center, Caliber Associates.
Devine, Patricia, Christopherson, Eric, Bishop, Sharon, Lowery, Jacquelyn, & Moore, Melody (1999). Self-Adjusting Treatment Evaluation Model. Fairfax, VA: National Evaluation Data and Technical Assistance Center, Caliber Associates.
4. The University of Wisconsin-Cooperative Extension has an online course entitled, Enhancing Program Performance with Logic Models. The course contains two modules - Module 1, "Logic Model Basics," is an introduction to logic models; and Module 2, "Introducing The Community Nutrition Education Logic Model," is an application of logic models to community nutrition education programs. Each module has various interactive elements, including practice activities designed to help students better understand the course content. The free course is available at http://www1.uwex.edu/ces/lmcourse/. The citation is:
Taylor-Powell, E., Jones, L., & Henert, E. (2002) Enhancing Program Performance with Logic Models. Retrieved December 1, 2003, from the University of Wisconsin-Extension web site: http://www1.uwex.edu/ces/lmcourse/.
5. United Way of America (1996). Measuring Program Outcomes: A Practical Approach. This manual can be purchased for $5.00 plus S&H by calling 1-800-772-0008 and ordering item number 0989. You can find the manual's table of contents and excerpts on the United Way web site at http://national.unitedway.org/outcomes/resources/mpo/.
6. Harrell, Adele, with Burt, Martha, Hatry, Harry, Rossman, Shelli, Roth, Jeffrey, and Sabol, William (no date). Evaluation Strategies for Human Service Programs: A Guide for Policymakers and Providers. Washington, DC: The Urban Institute.
This guide focuses on developing a logic model and selecting and implementing an evaluation design. Gives an example of a logic model for a children-at-risk program. It is available at http://www.bja.evaluationwebsite.org/html/documents/evaluation_strategies.ht ml. 7. Hernandez, M. & Hodges, S. (2003). Crafting Logic Models for Systems of Care: Ideas into Action. Making children's mental health services successful series, volume 1. Tampa, FL: University of South Florida, The Louis de la Parte Florida Mental Health Institute, Department of Child & Family Studies. Available at http://cfs.fmhi.usf.edu/TREAD/CMHseries/IdeasIntoAction.html. This monograph is a guide to developing a system of care using a theory-based approach. System stakeholders can use the theory of change approach to move from ideas to action-oriented strategies to achieve their goals and understand the relationships among the populations that the system is intended to serve.
Other resources
Alter, C. & Murty, S. (1997). Logic modeling: A tool for teaching practice evaluation. Journal of Social Work Education, 33(1), 103-117. Conrad, Kendon J., & Randolph, Frances L. (1999). Creating and using logic models: Four perspectives. Alcohol-ism Treatment Quarterly, 17(1-2), 17-32.
Hernandez, Mario (2000). Using logic models and program theory to build outcome accountability. Education and Treatment of Children, 23(1), 24-41.
Julian, David A. (1997). The utilization of the logic model as a system level planning and evaluation device. Evaluation and Program Planning, 20(3), 251-257.
McLaughlin, J. A., & Jordan, G. B. (1999). Logic models: A tool for telling your program's performance story. Evaluation and Program Planning, 22(1), 65-72.
Stinchcomb, Jeanne B. (2001). Using logic modeling to focus evaluation efforts: Translating operational theories into practical measures. Journal of Offender Rehabilitation, 33(2), 47-65.
Unrau, Y.A. (2001). Using client exit interviews to illuminate outcomes in program logic models: A case example. Evaluation and Program Planning, 24(4), 353-361.
Alan
Alan Listiak, Ph.D. Coordinator of Sex Offender Program Certification Minnesota Department of Corrections 1450 Energy Park Drive St. Paul, MN 55108 651.642.0317 Alan.Listiak@state.mn.us
Mary Meyer aus Berlin hat mich freundlicherweise auf einen fehlerhaften Literaturhinweis beim Stichwort "Nutzung" im Online-Wörterbuch aufmerksam gemacht. Bei dieser Gelegenheit zitierte sie einige Literaturquellen zum Thema Nutzung, die mir nur teilweise bekannt waren, daher stelle ich die Mail von Frau Meyer mit ihrer Einwilligung hier in die Textsammlung:
Ich beschäftige mich mit Evaluationsnutzung und habe eine Nachfrage bzw. einen Hinweis bezüglich des Online-Wörterbuchs und dort zur Nutzung: meines Wissens nach stammt das Buch von Alkin, Daillak und White aus dem Jahr 1979 (Using Evaluations. Does evaluation make a difference? Sage) und die von Ihnen beschriebenen Formen bzw. Arten von Evaluationsnutzung werden in dem Buch nicht beschrieben. Instrumental use wurde von u.a. von Wingens, M. (1988, S. 117ff) erläutert, conceptional use (auch "englightenment" genannt) von Berk und Rossi (1977), Owen (1992) und Kiessling-Naef et al. (1997), symbolische Nutzung (auch "conspiratorical use" genannt) mit legitimatorisch-politischen Charakter wurde von Pelz (1978) und Huberman (1987) beschrieben.
Mit freundlichen Grüßen M. Meyer
Der angesprochene Fehler ist inzwischen natürlich behoben, gemeint war Alkin (1985), A Guide for evaluation decision makers, nicht das frühere Buch mit Daillak und White.
Was kann evaluiert werden?
Organisatorisch vorbereitetes Vorhaben mit definierten/m
Mehrere gleichgerichtete Projekte / Maßnahmen
Gesamtheit staatlicher Maßnahmen
Quelle: Foliensatz von Dr. Hendrik Faßmann, Institut für empirische Soziologie an der Friedrich-Alexander-Universität Erlangen-Nürnberg (http://www.soziologie.wiso.uni-erlangen.de/ss02/evaluation/folien1.zip)
Metavaluation ist die Evaluation einer konkreten Evaluation, also die Beurteilung von Qualität und Nutzen der Evaluation. Die möglichen Ziele einer Metavaluation sind identisch mit den allgemein möglichen Evaluationszielen: Verbesserung, Entscheidungshilfe, Kontrolle/Rechenschaftslegung und Erkenntnisgewinn.
(Metanalyse ist die Zusammenfassung der Ergebnisse mehrerer Evaluationsstudien, die im Sinne von Grundlagenforschung dazu dienen soll, Wissen hervorzubringen, das über den einzelnen Evaluationsgegenstand hinaus generalisierbar ist.)
Methodische Fragen
Original Message --------
Subject: history threats
Date: Wed, 25 Aug 2004 13:57:31 -0400
From: Diana Silver
I am looking for cases I can cite in which evaluators of a program, using a quasi-experimental design, have noted history threats in attempting to assess the impact of a given program. The case I have is of an evaluation of the Bay Area Rapid Transit System (BART) that showed that highway traffic decreased in 1974 when BART's Transbay Tunnel was opened. External events -- history-- posed a threat to their findings, because the gasoline shortage and higher gas prices due to the Arab oil embargo occured at about the same time. I'm looking for additional such examples-- can anyone help?
Literaturempfehlungen
zum Thema Evaluation
Dr. Jan Hense, LMU München
März 2004
Kromrey, H. (2001). Evaluation - ein vielschichtiges Konzept. Begriff und Methodik von Evaluierung und Evaluationsforschung. Empfehlungen für die Praxis. Sozialwissenschaften und Berufspraxis, 24, 105-129.
Lee, B. (2000). Theories of Evaluation. In Stockmann, Reinhard (Hrsg.), Evaluationsforschung (S. 127-164). Opladen: Leske+Budrich.
Madaus, G. F. & Kellaghan, T. (2000). Models, metaphors and definitions in evaluation. In D. L. Stufflebeam, G. F. Madaus, & T. Kellaghan (Hrsg.), Evaluation models - viewpoints on educational and human services evaluation (S. 19-31). Boston: Kluwer.
Pekrun, R. (2000). Evaluation in der betrieblichen Weiterbildung. In C. Harteis, H. Heid & S. Kraft (Hrsg.), Kompendium Weiterbildung - Aspekte und Perspektiven betrieblicher Personal- und Organisationsentwicklung (S. 258-275). Opladen: Leske + Budrich.
Shadish,W. R., Cook, T. D. & Leviton, L. C. (1991). Foundations of program evaluation. Theories of practice. Newbury Park: SAGE.
Stufflebeam, D. L. (2001). Evaluation models. In New directions for evaluation No. 89. San Fransisco: Jossey-Bass.
Stufflebeam, D. L., Madaus G. F. & Kellaghan T. (Hrsg.) (2000). Evaluation models - viewpoints on educational and human services evaluation. Boston: Kluwer Academic Publisher Group.
Wottawa, H. (2001). Evaluation. In A. Krapp & B. Weidenmann (Hrsg.), Pädagogische Psychologie (S. 649-674). Weinheim: Beltz.
Bortz & Döring (2002). Forschungsmethoden und Evaluation
für Sozialwissenschaftler (3. Aufl.). Kap. 3: Besonderheiten der Evaluationsforschung. Berlin: Springer.
Rossi, P. H., Lipsey, M. W. & Freeman, H. E. (2004). Evaluation. A systematic approach (7th ed.). Thousand Oaks: Sage.
Freeman, H., Rossi, P. H. & Sandefur, G. D. (1993). Workbook for evaluation - A systematic approach. Thousand Oaks: SAGE.
Rossi, P. H., Freeman, H. E. & Hofmann, G. (1988). Programm-Evaluation. Einführung in die Methoden angewandter Sozialforschung. Stuttgart: Ferdinand Enke. (dt. Übersetzung der 4. Aufl.)
Wottawa, H. & Thierau, H. (1998). Lehrbuch Evaluation. Bern: Huber. (nicht unumschränkt zu empfehlen, aber z. Zt. das einzige dt. Evaluations-Lehrbuch)
Madaus G. F. & Stufflebeam D. L. (2000). Program evaluation: A historical overview. In D. L. Stufflebeam, G. F. Madaus & T. Kellaghan (Hrsg.), Evaluation models - viewpoints on educational and human services evaluation (S. 3-18). Boston: Kluwer.
Titze, H. (2002). Die Evaluierung des Bildungswesens in historischer Sicht. Zeitschrift für Erziehungswissenschaft, 4, 552-569.
Alkin, M. C. (1972). Evaluation theory development. In C. H. Weiss (Hrsg.), Evaluating action programs: reading in social action and education (S. 105-117). Boston: Allyn and Bacon.
Cronbach, L.J. (1963). Evaluation for course improvement. Teachers College Record, 64, 672-683. (dt. in Wulf, 1972)
Cronbach, L. J., Ambron, S. R., Dornbusch, S. M., Hess, R. D., Hornik, R. C., Phillips, D. C., Walker, D. F. & Weiner, S. S. (1980). Toward reform of program evaluation. San Francisco: Jossey-Bass.
Glass, G.V. (1972). Die Entwicklung einer Methodologie der Evaluation. In Ch.Wulf, Evaluation. Beschreibung und Bewertung von Unterricht, Curricula und Schulversuchen (S. 166-206). München: Piper.
Guba, E. G. (1972). The failure of educational evaluation. In C. H. Weiss (Hrsg.), Evaluating action programs: reading in social action and education (S. 250-266). Boston: Allyn and Bacon.
Kirkpatrick, D. (1959). Techniques for evaluating training programs. Part 1 - Reaction. Journal of the American Society for Training and Development, 13 (11), 3-9.
Kirkpatrick, D. (1959). Techniques for evaluating training programs. Part 2 - Learning. Journal of the American Society for Training and Development, 13 (12), 21-26.
Kirkpatrick, D. (1960). Techniques for evaluating training programs. Part 3 - Behavior. Journal of the American Society for Training and Development, 14 (1), 13-18.
Kirkpatrick, D. (1960). Techniques for evaluating training programs. Part 4 - Results. Journal of the American Society for Training and Development, 14 (2), 28-32.
Rossi, P. H. (1972). Boobytraps and pitfalls in the evaluation of social action programs. In C. H. Weiss (Hrsg.), Evaluating action programs: reading in social action and education (S. 224-235). Boston: Allyn and Bacon.
Schwarzer, R. (1975). Instrumente der empirischen Curriculumevaluation. In K. Frey (Hrsg.), Curriculum-Handbuch (S. 748-766). München: Piper.
Scriven, M. (1972). The methodology of evaluation. In C. H. Weiss (Hrsg.), Evaluating action programs: reading in social action and education (S. 123-136). Boston: Allyn and Bacon. (dt. in Wulf, 1972)
Stake, R. E. (1972). The countenance of educational evaluation. In C. H. Weiss (Hrsg.), Evaluating action programs: reading in social action and education (S. 31-51). Boston: Allyn and Bacon. (dt. in Wulf, 1972)
Stufflebeam, D. L. (1969). Evaluation as enlightenment for decision-making. In H. B. Walcott (Ed.), Improving educational assessment and an inventory of measures of affective behavior (pp. 41-73). Washington, DC: Association for Supervision and Curriculum Development and National Education Association. (dt. in Wulf, 1972)
Suchman, E. A. (1967). Evaluative research. Principles and practices in public service and social action programs. New York: Russel Sage Foundation.
Suchman, E. A. (1970). Action for what? A critique of evaluative research. In R. O'Toole (Hrsg.), The organization, management, and tactics of social research. Cambridge, Mass.: Schenkman.
Weiss, C. H. (1972). Utilization of evaluation: Toward comparative study. In C. H. Weiss (Hrsg.), Evaluating action programs: reading in social action and education (S. 318-326). Boston: Allyn and Bacon.
Wulf, C. (1975). Funktionen und Paradigmen der Evaluation. In K. Frey (Hrsg.), Curriculum-Handbuch (S. 580-600). München: Piper.
Wulf, C. (Hrsg.). (1972). Evaluation. Beschreibung und Bewertung von Unterricht, Curricula und Schulversuchen. München: Piper. (Sammlung von einigen klassischen US-Aufsätzen aus den 60er Jahren)
Chelimsky, E. & Shadish, W. R. (Hrsg.). Evaluation for the 21st century. A handbook. Thousand Oaks: Sage.
Donaldson, S. I., Gooler, L. E. & Scriven, M. (2002). Strategies for managing evaluation anxiety: Toward a psychology of program evaluation. American Journal of Evaluation, 23, 261-273.
Lipsey, M. & Cordray, D. (2000). Evaluation Methods for Social Intervention (S. 345-373). Nashville, Tennessee:
Rossi, P. H. (1984). Professionalisierung der Evaluierungsforschung? Beobachtungen zu den Entwicklungen in den USA. In G.-M. Hellstern & H. Wollmann (Hrsg.), Handbuch zur Evaluierungsforschung (Bd. 1, S. 654-673). Opladen: Westdeutscher Verlag.
Scriven, M. (1993). Hard-won lessons in program evaluation. San Francisco: Jossey-Bass.
Sechrest, L. & Figueredo, A. J. (1993). Program Evaluation. Annual Review of Psychology, 44, 645-674.
Deutsche Gesellschaft für Evaluation. (2002). Standards für Evaluation. Köln: Deutsche Gesellschaft für Evaluation e. V.
ERS Standard Committee. (1982). Evaluation research society standards for program evaluation. New directions for program evaluation: Standards for evaluation practice, 15, 7-19.
Joint committee on standards for educational evaluation. (1988). The personnel evaluation standards. How to assess systems for evaluating educators. Newbury Park: Sage.
Joint committee on standards for educational evaluation. (1994). The program evaluation standards. How to assess evaluations of educational programs. Thousand Oaks: Sage.
Joint committee on standards for educational evaluation. (2003). The student evaluation standards. How to improve evaluations for students. Thousand Oaks: Corwin Press.
Stufflebeam, D. L. (2000). Professional standards and principles for evaluations. In D. L. Stufflebeam, G. F. Madaus & T. Kellaghan (Hrsg.), Evaluation models - viewpoints on educational and human services evaluation (S. 440-454). Boston: Kluwer Academic Publisher Group.
(unvollständig)
Fetterman, D. M. (1996). Empowerment evaluation: An introduction to theory and practice. In D. M. Fetterman, S. Kaftarian & A. Wandersman (Hrsg.), Empowerment evaluation (S. 3-46). Thousand Oaks: SAGE.
Fetterman, D., Kaftarian, S. J. & Wandersman, A. (eds.). (1996). Empowerment evaluation. Knowledge and tools for self-assessment & accountability. Thousand Oaks: Sage.
Guba, E. G. & Lincoln, Y. S. (1989). Fourth generation evaluation. London: Sage.
Patton, M. Q. (1997). Utilization-focused evaluation: the new century text. Thousand Oaks: SAGE.
Patton, M. Q. (1998). Die Entdeckung des Prozeßnutzens - Erwünschtes und unerwünschtes Lernen durch Evaluation. In Heiner, M. (Hrsg.), Experimentierende Evaluation: Ansätze zur Entwicklung lernender Organisationen (S. 55-66). Weinheim, München: Juventa Verlag.
Karbach, M. (2000). Anmerkungen zum Wort Evaluation. Geschwister-Scholl-Gesamtschule, Dortmund-Brackel: Verfügbar unter http://schulen.hagen.de/GSGE/ew/EvalW.html (27.2.2003).
Legge, K. (1984). Evaluating planned organizational change. London: Academic Press.