Praxis der Evaluation

Alles, was die praktische Planung, Durchführung und Nutzung von Evaluationen betrifft. Potentiell können hier also Entscheider und Nutzer, (angehende) Evaluatoren, aber auch sonstige Akteure und Interessierte Informationen dazu finden, wie man Evaluationen plant, durchführt und nutzt.

Evaluation Budget (Evaltalk) - was kostet Evaluation?

Subject: Evaluation budget as a %% of program expenditure Date: Sat, 27 Nov 2004 14:04:15 +1000 From: Sonia Whiteley Reply-To: American Evaluation Association Discussion List To: EVALTALK@BAMA.UA.EDU

I realise this is a topic that comes up on almost an annual basis (Sept 2003 at last count) but I was wondering whether there were any new thoughts on the issue.

I'm more interested in large-scale programs - at least $5 million plus Aussie $$s - where evaluation is built into the program from day 1 (ie as the program is being carefully crafted from policy).

What percentage of the program (not the organisational) budget should be allocated to evaluation?

What actually happens in the real world of program evalution budgets?

Does this differ across across departments/areas of responsibility? Or more specifically, are health department budgets, for example, generally larger percentagewise than those from education or the environment?

Any pointers to recent references or case studies would be greatly appreciated.

Many thanks

Sonia Whiteley

EVALTALK - American Evaluation Association (AEA) Discussion List. See also

   the website:  http://www.eval.org

To unsubscribe from EVALTALK, send e-mail to listserv@bama.ua.edu

   with only the following in the body: UNSUBSCRIBE EVALTALK

To get a summary of commands, send e-mail to listserv@bama.ua.edu

   with only the following in the body: INFO REFCARD

To use the archives, go to this web site: http://bama.ua.edu/archives/evaltalk.html For other problems, contact a list owner at kbolland@sw.ua.edu or carolyn.sullins@wmich.edu

Evaluatoren

Welche Anforderungen?
Wer macht Evaluation?

Evaluationskompetenz

Date:    Wed, 21 Jul 2004 08:29:49 +0100
From:    bill fear 
Subject: Agendas, decisions and using evaluation

The debate about the role of the evaluator in relation to getting the
evaluation used has had a long and perennial history re-emerging, as ever,
about once every five years.  There are a couple, or more, important points
that are consistent (IMESHO):

1)  No evaluator has the right to assume that their findings will, or
should, be used as a number of people have just recently noted.  This right
is the preserve of auditors.
2)  There are two ways to maximise the value of an evaluation:  a) involve
stakeholders from the off (Patton); b) link evaluation to budgets
(Australia; the Netherlands).
3)  Most interestingly, a piece of work by by the NAO (probably by Chelimsky
and published around 5-8 years ago; sorry, I have a real problem remembering
references) showed that high quality evaluations tend to be rejected
initially.  However, these same evaluations usually have an impact around
five years - that's 5 years - later, usually at the conceptual level.  Ergo,
an acid test of a good evaluation that has been carried out independently of
stakeholders may well be the degree of initial resistance and rejection.
Indeed, it may be that an evaluation has more impact if the evaluator does
not try to get it taken account of.  Just think through what we know about
decision making.

On that point, any good evaluator surely must, surely absolutely must, have
an understanding of decision making from the individual level to the
organisational level.

Helpful references are:

at an individual level

www.bps.org.uk then click on 'publications' then 'the psychologist' then
'search the psychologist online' then 'volume 15 (2002)' then 'volume 15
part 2(February 2002)' then look at articles 4, 5, 6, 7.  Easy reading to a
high standard (mostly).

and

Gilbert, D. and Wilson, T.  'Miswanting.'
www.wjh.harvard.edu/~dtg/Gilbert%20&%20Wilson%20(Miswanting).pdf  (or put
'miswanting' into google)

At an organisational level it is still, for me, the stock in trade
publication of 'Organsiations:  Structures, processes and outcomes' by Hall.

We might also want to consider that US Senators apparently spends just 7
minutes a day reading on average and that for a GP to keep up to date with
current relevant medicine they need to read for 17 hours a week (mostly
non-fiction, or at least not knowingly fiction).

And then of course there is the values of the evaluator.  Our values tend to
drive our behaviour - although they don't have to.  Not judging others on
the basis of their values, which may conflict heavily with our own, is
immensely difficult.  So, we may assume that our evaluation should be taken
account of according to our values, but the values of the person on the
other side may be different.  And somehow we have to find a way not to let
that influence our behaviour and to respect the values of the other/s.
After all, there is no moral 'right' or 'wrong', and ethics are consensus of
agreed rules depicting right and wrong, and not a universal absolute, and
there is no known set of universal values.

Program Evaluation Interview Questions (Evaltalk)

At 1:36 PM -0400 13/10/04, Jill Ibell wrote:

>>Please let me know specific interview questions that you have found >>helpful in prior program evaluations. The use is for an internal >>program evaluation process, which has recently been started on a >>more formal basis than prior years trouble shooting operations.

Here's my generic, use anywhere, run out of ideas evaluation questions. They are based on Vygotskyian learning theory and action research practice.

these are my standby, run out of bright ideas, interview questions that have never failed to get some interesting and valuable responses. I've tried to turn them into something that relates to what you are interested in, but you get the general drift :-

What generalisations would you make about the program?
What exceptions to these generalisations are there?
How do you explain these exceptions?
What data do you have to support that explanation?
What contradictions are there in the program?
Put it in terms of "one the one hand ... on the other". How do you explain what enables both these features to exist at the same time?
What data do you have to support that explanation ?
Given your understanding of the program, what you would have expected to see or happen but were missing ?
How do you explain this?
What data do you have to support that explanation?
Given your understanding of the program, what did you see or happen but you expected to be absent ?
How do you explain this ?
What data do you have to support that explanation ?
What features of the relationship are a puzzle to you ?
What would you have to do in order to understand or resolve this puzzle ?

As I get older I half begin to think that these may be the only questions you need to ask. In my experience, the responses are incredibly rich and insightful about people's judgement of worth, and it forces them to base their responses on observable or justifiable data.

Cheers

Bob

BOB WILLIAMS bobwill@actrix.co.nz Check out the free resources on my WEB site http://users.actrix.co.nz/bobwill

Mobile (64) 21 254 8983

... there are always exceptions. Reality is too complex to be captured by theory. I'm reminded of the general semantics principle that "the map is not the territory"-that a theory is distinct from the reality it purports to represent. Bob Dick

EVALTALK - American Evaluation Association (AEA) Discussion List. See also

   the website:  http://www.eval.org

To unsubscribe from EVALTALK, send e-mail to listserv@bama.ua.edu

   with only the following in the body: UNSUBSCRIBE EVALTALK

To get a summary of commands, send e-mail to listserv@bama.ua.edu

   with only the following in the body: INFO REFCARD

To use the archives, go to this web site: http://bama.ua.edu/archives/evaltalk.html For other problems, contact a list owner at kbolland@sw.ua.edu or carolyn.sullins@wmich.edu

Wie identifiziert man Stakeholder?

Original Message -------- Subject: Re: Looking for methodologies to identify/choose stake holders Date: Sun, 14 Nov 2004 12:38:50 -0800 From: Avichal Jha Reply-To: American Evaluation Association Discussion List To: EVALTALK@BAMA.UA.EDU

Hi Jonny,

Michael Patton's "snowball" sampling technique comes to mind. You can find a discussion of different techniques in "Utilization Focused Evaluation," published by sage. I believe the 3rd is the most recent edition. Carol Weiss also has a great discussion on involving stakeholders in "Evaluation: Methods for Studying Programs and Policies."

What the discussion boils down to is context: What are you evaluating? The evaluand itself should suggest at least a limited group of stakeholders; i.e., those who asked for the evaluation. In the case where we're evaluating policy, this may not be the case. In that situation, the context becomes that of the policy. As long as you have a single stakeholder in mind, ask that stakeholder for who other stakeholders might be. This process, repeated with each new stakeholder, will "snowball" into a much larger sample.

This is just one of the ways that Patton and others have discussed. I hope it helps (although my gut feeling is that this is more useful for program evaluation than policy analysis). As I suggested, if you haven't already looked at Patton and Weiss, I think you'll find their work very helpful.

Best of luck, Avi

Avichal Jha, M.A. Doctoral Student Evaluation and Applied Methods Claremont Graduate University avichal.jha@cgu.edu

Original Message----- From: American Evaluation Association Discussion List To: EVALTALK@BAMA.UA.EDU Sent: 11/14/2004 10:20 AM Subject: Looking for methodologies to identify/choose stake holders

We all agree that it is important to involve stake holders in various phases of the evaluation life cycle. But how to identify the population of relevant stake holders and choose among them? My sense is that we tend to use the "I will know them when I see them" method. (It's what I do.) But are there more deliberate and systematic ways to go about it? Has anyone tried to develop a methodology? If anyone has relevant references, please send them my way. Thanks.

Jonny Jonathan A. Morell, Ph.D. Senior Policy Analyst

Street address: 3520 Green Court Suite 300, Ann Arbor Michigan 48105 Mail address: PO Box 134001 Ann Arbor, Michigan 48113-4001

Desk 734 302-4668 Reception 734 302-4600 Fax:734 302-4991 Email jonny.morell@altarum.org

Zitate

Was ist Evaluation? / What is evaluation?

"Once upon a time there was a word. And the word was evaluation. And the word was good. Teachers used the word in a particular way. Later on, other people used the word in a different way. After a while, nobody knew for sure what the word meant. But they all knew it was a good word. Evaluation was a thing to be cherished. But what kind of a good thing was it? More important, what kind of a good thing is it?" (Popham, 1993, p. 1)

"Evaluation - more than any science - is what people say it is; and people are saying it is many different things." (Glass & Ellet, 1980, p. 211)

"Research is aimed at truth. Evaluation is aimed at action." (wird M.Q.Patton zugeschrieben, Quelle mir unbekannt) Richtig muss es heißen: "Research aims to produce knowledge and truth. Useful evaluation supports action." (Patton, 1997, p. 24)

"Irgend etwas wird von irgend jemandem nach irgendwelchen Kriterien in irgendeiner Weise bewertet." (Kromrey, 2001, S. 21)

"[...] evaluation has two arms, only one of which is engaged in data-gathering. The other arm collects, clarifies, and verifies relevant values and standards." (Scriven, 1991, p. 5)

"The evaluation responsibility is a responsibility to make judgements." (Stake, 1979, p. 55)

Evaluatoren / Evaluators

"In God we trust. All others must bring data." (Robert Hayden, Plymouth State College, zit. n. http://www.keypress.com/fathom/jokes.html; Berk, 2007 zitiert abweichend W. Edwards Deming als Urheber)

"Der Umfang der Gefahren bei der konkreten Forschung wirkt sich auf viele Praktiker mit Sicherheit nicht gerade ermutigend aus. Scheint doch das Einzige mit Gewißheit Vorhersagbare zu sein, daß immer etwas falsch gemacht werden wird." (Wittmann, 1985, S. 187)

"The notion of the evaluator as a superman who will make all social choices easy and all programs efficient, turning public management into a technology, is a pipe dream." (Cronbach et al., 1980, p. 4)

"Once upon a time, the evaluation researcher needed only the 'Bible' ('Old Testament', Campbell and Stanley, 1963; 'New Testament', Cook and Campbell, 1979) to look up an appropriate research design and, hey presto, be out into the field." (Pawson & Tilley, 1997, p. 1)

"To make research work when it is coping with the complexities of real people in real programs run by real organizations takes skill – and some guts." (Weiss, 1972, p. 9)

"[...] what the professional independent evaluator brings to the party is a fresh eye and some technical skills." (Scriven, 1997, p. 499)

Die Praxis / The practice

"One requires: a good sense of humour; and a thick skin. Above all else, don't take yourself too seriously (and try not to be paranoid when having inappropriate discussions in a public space.)" (Fear, Bill. Career in Evaluation - Opinions wanted. EVALTALK , 7 Dec 2004.)

"The world of evaluation is a frighteningly real world. [...] The actors in the educational drama are strikingly human, with all the attendant frailties of real people." (Popham, 1993, p. 217)

"Evaluators who steel themselves against the probable perils of reality will be less shocked when they try out their shiny new evaluation skills." (Popham, 1993, p. 217)

"Recently, I opened an evaluation process with a staff workshop in which I invited participants to share perceptions of and metaphors for evaluation. The program director went to a nearby closet, took out a vacuum cleaner, turned it on, and pronounced: 'Evaluation sucks!'" (Patton, 1997, p. 267)

"Doing a good evaluation is not a stroll on the beach." (Weiss, 1997, p. 325)

"I find that I have to begin every evaluation exercise by finding out what people’s previous experiences have been with evaluation, and I find many of those experiences have been negative." (Patton, 2002, p. 131)

Die Rolle von Evaluation / The role of evaluation

"The wolfdog of evaluation is acceptable as a method of controlling the peasants, but it must not be allowed into the castle – that is the message which each of these ideologies represents, in its own way." (Scriven, 2000, p. 252)

"Evaluation avanciert zum neuen Kampfbegriff in der Qualitätsdebatte" (Schratz, 1999, S. 64)

"The more evaluation, the less program development; the more demonstration projects, the less follow-through" ("Wilensky's Law", Wilensky, 1985, S. 9)

"In many educational systems everybody seems to hate external evaluation while nobody trusts internal evaluation." (Nevo, 2001, p. 104)

"We live in a knowledge-centred, value-adding, information-processing, management-fixated world which has an obsession with decision-making." (Pawson & Tilley, 1997, pp. xi-xii)

"[...] 'evaluation' has become a mantra of modernity." (Pawson & Tilley, 1997, p. 2)

"I've often referred to the difference between Evaluation and evaluation. Oddly enough evaluation is a much bigger endeavour. Everyone does it often with great rigour, sometimes with a rigour we don't comprehend or agree with. On the other hand Evaluation is our patch of earth and a small one in the grand scheme of things." (Williams, Bob . Re: A Sunday meditation (definitely about evaluation), EVALTALK , 15 Nov 2006)

"In the end it's politics!" (Capela, Stan . Re: A Wednesday clarification (longish and occasionally peevish), EVALTALK , 20 Nov 2006)

Evaluationsforschung / Evaluation research

"Evaluation research 1963-1997
Must do better. Too easily distractred by silly ideas. Ought to have a clearer sense of priorities and to work more systematically to see them through. Will yet go on to do great things." (Pawson & Tilley, 1997, p. 28)

"Evaluation no longer has the luxury of a-empirical theoretical development." (Smith, 1993. p. 241)

Evaluationsgegenstände / Evaluation objects

"What is evaluated? Everything. One can begin at the beginning of a dictionary and go through to the end, and every noun, common or proper, calls to mind a context in which evaluation would be appropriate" (Scriven, 1980, p. 4)

"Social programs are complex undertakings. They are an amalgam of dreams and personalities, rooms and theories, paper clips and organizational structure, clients and activities, budgets and photocopies, and great intentions." (Weiss, 1998, p. 48)

"Unfortunately, except in a few areas, planning of social programs proceeds more by the seat of the pants and the example of 'what everybody else is doing,' than it does by thoughtful and critical review of evidence and experience." (Weiss, 2002, p. 204)

Ziele von Evaluation / Goals of evaluation

"The purpose of evaluation is not to prove, but to improve." (Egon Guba, zit. n. Stufflebeam, 2004)

"Evaluation's most important purpose is not to prove, but to improve." (Stufflebeam, 2004, p. 247)

"Ergebnisse einer Evaluation sind nicht Daten, sondern Entscheidungen über Konsequenzen für die weitere Arbeitsplanung." (Burkard & Eikenbusch, 2000, S. 29)

"We are impressed by the creativity in the field of evaluation, yet at the same time concerned because evaluators often forget or fail to emphasize the basic purpose of their work." (Glass & Ellet, 1980, p. 212)

Terminologisches / Terminology

"While I do think that people who invent terms have some obligation to argue against careless shifts from their original meanings, they also have an obligation to be open-minded about serious arguments for modification or clarification of the original definitions." (Scriven, 2004, p. 17, in JMDE No. 1)

"For a time it appeared that an educational evaluation model was being generated by anyone who (1) could spell educational evaluation and (2) had access to an appropriate number of boxes and arrows." (Popham, 1993, p. 23)

"One gets the impression that what passes for evaluative research is indeed a mixed bag at best and chaos at worst." (Suchman, 1967, p. vii)

Ursprünge der Evaluation / Origins of evaluation

"From the ambitions of the academic disciplines, from the convulsive reforms of the educational system, from the battle-ground of the War on Poverty, from the ashes of the Great Society, from the reprisals of an indignant taxpaying public, there has emerged evaluation." (Glass, 1976, p. 9)

"There was a general concern over the poor academic performance of our nation's youth. ... The quest for accountability had begun." (Baron & Baron, 1980, p. 85-86)

"Our search as lay historians reveals that the the first recorded instance of evaluation occurred when man, woman, and serpent were punished for having engaged in acts which apparently had not been among the objectives defined by the Program circumscribing their existence." (Perloff, Perloff & Sussna, 1976, p. 264)

"In the beginning, God created the heaven and the earth. And God saw everything that he made. "Behold," God said, "it is very good." And the evening and the morning were the sixth day. And on the seventh day God rested from all His work. His archangel came then unto Him asking, "God, how do you know that what you have created is 'very good'? What are your criteria? On what data do you base your judgment? Just exactly what results were you expecting to attain? And aren't you a little close to the situation to make a fair and unbiased evaluation?" God thought about these questions all that day and His rest was greatly disturbed. On the eighth day God said, "Lucifer, go to hell." Thus was evaluation born in a blaze of glory." Halcolm's The Real Story of Paradise Lost (Patton, 1997, p. 1)

Methodenstreit / Dispute on methods

"The difference [between quantitative and qualitative researchers] is that, while a quantitative reporter would say 'Only ten persons were present ...,' a truly qualitative reporter would say, 'Attendance at the session was depressing.'" (Sechrest & Figueredo, 1993, p. 655)

"We think that everyone might benefit if the most radical protagonists of evidence based medicine organised and participated in a double blind, randomised, placebo controlled, crossover trial of the parachute." (Smith & Pell, 2003, p. 1459)

Nutzung von Evaluationsergebnissen

"You mean you guys actually look at the evaluations? I taught two sections of the same class last semester, and I stopped reading the evaluations after about the sixth section I taught. Most are positive, some wish I would die, and none provide useful feedback." (tuxthepenguin auf http://chronicle.com/forums/index.php?topic=69226.0)

"There is nothing a Government hates more than to be well informed; for it makes the process of arriving at decisions much more complicated and difficult." (John Maynard Keynes, The Times, March 11, 1937, p. 18)

Programmtheorien und logische Modelle

"The program theory approach has exposed the impoverished nature of the theories that underlie many of the interventions we study." (Bickman, 2000, p. 107)

"A program is a theory and an evaluation is its test." (Rein, 1981, S. 141)

Theorie der Evaluation

Alles, was Fragen der Evaluationsforschung betrifft.

Potenziell sollten Sie hier also Informationen zur Evaluationstheorie, zu verschiedenen Evaluationsansätzen und zu Ergebnissen und sonstigen Fragen der Evaluationsforschung finden.

Domänen

Steuerungsebenen, auf das eine Evaluation sich beziehen kann, z.B. Bedarf, Ausgangsbedingungen, Prozess, Outcome, Impact, Kosten-Nutzen etc.

Evaluierbarkeit

Ziel einer Evaluierbarkeitsanalyse (evaluability assessment) ist, die Wahrscheinlichkeit zu erhöhen, dass die Evaluation rechtzeitig, relevant und responsiv (den Informationsbedürfnissen entsprechend) sein wird. Damit ist sie eine Strategie zur Kosteneffizienz, da die für Evaluationen zur Verfügung stehenden Ressourcen optimal ausgenutzt werden sollen.

Als Ergebnisse einer Evaluierbarkeitsanalyse sollten folgende Informationen vorliegen, auf welche die anschließende Evaluation aufbauen kann:

Konkretisierung der Ziele und Inhalte des Evaluationsgegenstands.
Formulierung von (Leistungs-)Indikatoren, an denen Programm wirkungen festgestellt werden können.
Festlegung von Veränderungsoptionen in Folge der Evaluation (Möglichkeiten der Nutzung von Evaluationsergebnissen)

Datenquellen für eine Evaluierbarkeitsanalyse sind

Dokumente, die im Kontext des Evaluationsgegenstands vorliegen, wie etwa Projektkonzepte, Anträge etc.
Informationen von Betroffenen und Beteiligten

Literatur: Wholey (1979), Trevisan & Huang (2003)

Kritik am ursprünglichen Konzept der Evaluierbarkeit, aus Sicht der theory-based evaluation:

Reduktion auf Ziele/Outcomes eines Programms
Verzicht auf Formulierung der Programmtheorie
gehen offenbar von quasi-experimentellen "black-box" Evaluationen aus

In späteren Revisionen greift Wholey (1987) neuere Entwicklungen auf. Auch die Formulierung der Programmtheorie gehört nun zur Evaluierbarkeitsanalyse.

Einführung

Akteure einer Evaluation

Akteure einer Evaluation.gif

###

Legende:

Stakeholder

Def.: "people whose lives are affected by the program and people whose decisions can affect the future of the program" (Greene, 1988, S. 101).

Definition von Evaluation

Evaluation (von engl./frz. "Bewertung"): "Die systematische Untersuchung von Nutzen oder Wert einer Sache" (Joint committee on standards for educational evaluation, 1994). Evaluation bezeichnet die Anwendung sozialwissenschaftlicher Methoden und spezifischer Evaluationskompetenzen zur Bewertung von Gegenständen wie Projekten, Programmen, Maßnahmen, Produkten, Personal, Organisationen, Dienstleistungen und anderen Gegenständen.

Evaluiert wird üblicherweise, um die Handlungssteuerung in sozialen Handlungsfeldern zu rationalisieren, da Evaluation Erkenntnisse zur Verfügung stellt, welche zur Optimierung, Entscheidungshilfe, Überzeugung, Rechenschaftslegung und/oder Forschung dienen können.

Zugleich meint Evaluation immer auch die Produkte der beschriebenen Prozesse (z.B. in Form von Berichten). Der Begriff "Evaluationsforschung" wird im deutschen Sprachraum oft synonym verwendet, betont aber die Verwendung wissenschaftlicher Methoden zum Zwecke der Bewertung. Ein davon abweichendes Begriffsverständnis versteht unter "Evaluationsforschung" die Forschung über Evaluation.

Patton (1997): "Program evaluation is the systematic collection of information about the activities, characteristics, and outcomes of programs to make judgements about the program, improve program effectiveness, and/or inform decisions about future programming" (S. 23)

Etymologische Herleitung (Online etymology dictionary ):

evaluation: 1755, from Fr. evaluation', from evaluer "to find the value of," from ex- "out" + value (see value). Evaluate'' is an 1842 back-formation.

Abgrenzung von Evaluation zu Assessment

Message-ID:

 Date: Thu, 12 Aug 2004 21:25:36 -0700
 Sender: American Evaluation Association Discussion List 
 From: Richard Hake 
 Subject: Re: Assessment vs Evaluation
 To: EVALTALK@BAMA.UA.EDU

In his ASSESS post of 10 Aug 2004 titled "Assessment vs Evaluation" Mark Davenport wrote:

"I often read in the literature and hear on the conference circuit people using the terms 'assessment' and 'evaluation' interchangeably, as if they were synonyms. Even more confusing, I have found the word assessment is used to define evaluation, and vice versa . . . . Personally, I don't think we need two terms to explain identical concepts (unless they occur in two completely unrelated fields wherein the risk of confusion is minimal). Certainly academic and student affairs assessment are related enough that we can share terms. . . . I have documented my thoughts in an internal white paper to my constitutents and would be happy to share it if you will drop me a note privately."

I hope Mark will place his white paper on the web so as to increase the readership and decrease mailing expenses. His post stimulated a 12-post (as of 12 Aug 2004 16:20:00-0700) ASSESS thread accessible at .

A similar thread (4 posts) titled "distinction between evaluation and assessment was initiated by Jeanne Hubelbank (2003) on EvalTalk and is accessible at the EvalTalk archives . One post in this thread led me to a "Glossary of Program Evaluation Terms" at Western Michigan University (Michael Scriven's new location), where these definitions are given:

Assessment: "The act of determining the standing of an object on some variable of interest, for example, testing students, and reporting scores."

Evaluation: Systematic investigation of the worth or merit of an object; e.g., a program, project, or instructional material.

Nevertheless, I'm with Mark Davenport in preferring to make no distinction between "assessment" and "evaluation." In a post titled "Re: A taxonomy" Hake (2003a), I proposed an assesment taxonomy for consideration and comment that is best presented in quadrant form cf., Stokes (1999):

                      plus Y
                      PUBLIC
                        |
                        |
               Scientific Research
                        |

<--FORMATIVE ASSESSMENT | SUMMATIVE ASSESSMENT --> _ plus X

                       0|
                        |
    Action Research     |  Institutional Research
                        |
                        |
                        |
                      PRIVATE

Fig. 1. Quadrant representation of various types of assessment/evaluation. (Figure may be distorted by email transmission.)

For educational research, the X-axis represents a continuum from pure FORMATIVE to pure SUMMATIVE assessment of either teaching or learning. NO DISTINCTION IS MADE BETWEEN "ASSESSMENT' AND EVALUATION." The Y axis represents a continuum from complete privacy to complete public disclosure of results.

The locations of various types of research in terms of the type of assessment they offer are shown as:

"Scientific Research" see e.g. Shavelson & Towne (2002): upper two quadrants - always public and anywhere in the continuum between formative and summative.

"Action Research" [see e.g. Feldman & Minstrell (2000) and Bransford et al.]: lower left quadrant - usually private to some degree, and usually formative to some degree.

"Institutional Research": lower right quadrant - usually private to some degree, and usually summative to some degree, although it could approach the formative for those who study and attempt to improve institutional practice.

Leamnson's (2003):

(a) "classroom research" can be either "scientific" or "action" research.

(b) "institutional research" is generally NOT formative from the standpoint of classroom teachers.

In my opinion, the science education use of pre/post testing [for reviews see Hake (2002; 2004a,b,c)] is usually formative for both action and scientific research, since the object is to improve classroom teaching and learning, NOT to rate instructors or courses.

Richard Hake, Emeritus Professor of Physics, Indiana University 24245 Hatteras Street, Woodland Hills, CA 91367

REFERENCES Bransford, J.D., A.L. Brown, R.R. Cocking, eds. 2000. How People Learn: Mind, Brain, Experience, and School: Expanded Edition. Nat. Acad. Press; online at , pages 199-200. This is an update of the earlier 1999 edition.

Feldman, A. & J. Minstrell. 2000. "Action research as a research methodology for the study of the teaching and learning of science," in E. Kelly & R. Leash, eds., "Handbook of Research Design in Mathematics and Science Education." Lawrence Erlbaum; online at (72kB).

Hake, R.R. 2002. "Lessons from the physics education reform effort," Ecology and Society 5(2): 28; online at . Ecology and Society (formerly Conservation Ecology) is a free "peer-reviewed journal of integrative science and fundamental policy research" with about 11,000 subscribers in about 108 countries.

Hake, R.R. 2003a. "Re: A taxonomy"; online at . Post of 9 Jul 2003 12:47:42-0700 to STLHE-L, PhysLnrR, EvalTalk, and POD. See also Hake (2003b).

Hake, R.R. 2003b. "Re: A taxonomy"; online at . Post of 12 Jul 2003 13:07:54-0700 to ASSESS, EvalTalk, PhysLrnR, STLHE-L, and POD.

Hake, R.R. 2004a. " Re: Measuring Content Knowledge," online at . Post of 14 Mar 2004 16:29:47 -0800 to ASSESS, Biopi-L, Chemed-L, EvalTalk, Phys-L, PhysLrnR, Physhare, STLHE-L, and POD. See also Hake (2004b).

Hake, R.R. 2004b. "Re: Measuring Content Knowledge," online at . Post of 15 Mar 2004 14:29:59 -0800 to ASSESS, EvalTalk, Phys-L, PhysLrnR, and POD; online at .

Hake, R.R. 2004c. "Design-Based Research: A Primer for Physics Education Researchers," submitted to the "American Journal of Physics" on 10 June 2004; online as reference 34 at , or download directly as a 310kB pdf by clicking on .

Hubelbank, J. 2003. "distinction between evaluation and assessment." EvalTalk post of 13 Nov 2003 10:52:00-0500; online at . The encyclopedic URL indicates that one must subscribe to EvalTalk to access its archives, but it takes only a few minutes to subscribe by following the simple directions at / "Join or leave the list (or change settings)" where "/" means "click on." If you're busy, then subscribe using the "NOMAIL" option under "Miscellaneous." Then, as a subscriber, you may access the archives and/or post messages at any time, while receiving NO MAIL from the list!

Leamnson, R. 2003. "A Taxonomy," STLHE-L/POD post of 9 Jul 2003 10:32:02-0400; online at .

Shavelson, R.J. & L. Towne. 2002. "Scientific Research in Education," National Academy Press; online at .

Stokes, D. E. (1997). "Pasteur's quadrant: Basic science and technological innovation." Brookings Institution Press.

EVALTALK - American Evaluation Association (AEA) Discussion List. See also

  the website:  http://www.eval.org

To unsubscribe from EVALTALK, send e-mail to listserv@bama.ua.edu

  with only the following in the body: UNSUBSCRIBE EVALTALK

To get a summary of commands, send e-mail to listserv@bama.ua.edu

  with only the following in the body: INFO REFCARD

To use the archives, go to this web site: http://bama.ua.edu/archives/evaltalk.html For other problems, contact a list owner at kbolland@sw.ua.edu or carolyn.sullins@wmich.edu

Re: Evaluation, Assessment, and Rubrics

Original Message -------- Subject: Re: Evaluation, Assessment, and Rubrics Date: Wed, 15 Sep 2004 16:31:10 -0700 From: Richard Hake Reply-To: American Evaluation Association Discussion List To: EVALTALK@BAMA.UA.EDU

In her POD post of 14 Sep 2004 10:00:14-0700 titled "Evaluation, Assessment, and Rubrics," Leora Baron wrote:

I am looking for two items that my fellow POD'ers may be able to provide: First, a definition distinguishing between evaluation and assessment; and second, an online location that has a good description and illustration of rubrics.

I. ASSESSMENT vs EVALUATION If one:

(1) goes to the powerful but little used POD search engine ,

(2) types into the "Since" slot "2003" (without the quotes), and into the "Subject" slot,

(a) "assessment" (without the quotes), s(he) will obtain 90 hits,

(b) "evaluation" (without the quotes), s(he) will obtain 168 hits,

My own take on "assessment vs evaluation" can be found in Hake (2004). From the perspective of the physics education reform effort [Hake (2002a,b), I find it useful to make NO distinction between "assessment" and "evaluation," but to make a 4-quadrant discrimination cf., Stokes (2000) of types of assessment/evaluation on the basis formative vs summative on one axis and public vs private on an orthogonal axis.

The non distinction between "assessment" and "evaluation," is contrary to the preferences of: (a) Steve Ehrmann (2004), (b) most of those contributing to the POD thread "Assessment vs Evaluation," (c) Mark Davenport (2004), and (d) the "Glossary of Program Evaluation Terms" at Western Michigan University (Michael Scriven's new location).

II. RUBRICS If you mean by "rubric": "a technique, custom, form, or thing established or settled (as by authority)" (definition #4 in Webster's Third New International Dictionary Unabridged), then it all depends on what one is attempting to assess/evaluate.

IF it's student learning, and not *affective" impact as might be assessed by student evaluations of teaching (SET's)

(a) Peggy Maki's (2004) recent book might be useful, but I have not seen it. In a POD post of 22 Jul 2004 15:09:54-0400, Barbara Cambridge, Director of the Carnegie Academy Campus Program wrote: "Peggy Maki's new book on assessment is excellent. It is jointly published by Stylus and AAHE."

(b) You might consider pre/post testing using valid and consistently reliable tests developed by disciplinary experts in education research Hake (2004b,c). As indicated in Hake (2004b), this is becoming more and more popular in astronomy, economics, biology, chemistry, computer science, and engineering. In many cases it has been stimulated by the pre/post testing effort in physics education research, initiated by the landmark work of Halloun & Hestenes (1998a,b).

Richard Hake, Emeritus Professor of Physics, Indiana University 24245 Hatteras Street, Woodland Hills, CA 91367

REFERENCES Davenport, M.A. 2004. "Re: Assessment vs Evaluation," ASSESS post of 13 Aug 2004 12:08:46-0400; online at .

Ehrmann, S. 2004. "Re: Evaluation, Assessment, and Rubrics." POD post of 14 Sep 2004 14:31:48-0700; online at .

Hake, R.R. 2002a. "Lessons from the physics education reform effort," Ecology and Society 5(2): 28; online at . Ecology and Society (formerly Conservation Ecology) is a free "peer-reviewed journal of integrative science and fundamental policy research" with about 11,000 subscribers in about 108 countries.

Hake, R.R. 2002b. "Assessment of Physics Teaching Methods, Proceedings of the UNESCO-ASPEN Workshop on Active Learning in Physics, Univ. of Peradeniya, Sri Lanka, 2-4 Dec. 2002; also online as ref. 29 at .

Hake, R.R. 2004a. "Re: Assessment vs Evaluation," online at . In this post I misinterpreted Mark Davenport's interpretation - he DOES distinguish between assessment and evaluation Davenport (2004).

Hake, R.R. 2004b. "Re: Measuring Content Knowledge," online at Post of 14 Mar 2004 16:29:47-0800 to ASSESS, Chemed-L, EvalTalk, Physhare, Phys-L, PhysLrnR, POD, and STLHE-L.

Hake, R.R. 2004c. "Re: Measuring Content Knowledge," online at . Post of 15 Mar 2004 14:29:59-0800 to ASSESS, EvalTalk, Phys-L, PhysLrnR, and POD.

Halloun, I. & D. Hestenes. 1985a. "The initial knowledge state of college physics students." Am. J. Phys. 53:1043-1055; online at . Contains the landmark "Mechanics Diagnostic" test, precursor to the much used "Force Concept Inventory" Hestenes et al. (1992).

Halloun, I. & D. Hestenes. 1985b. "Common sense concepts about motion." Am. J. Phys. 53:1056-1065; online at .

Halloun, I., R.R. Hake, E.P Mosca, D. Hestenes. 1995. Force Concept Inventory (Revised, 1995); online (password protected) at . (Available in English, Spanish, German, Malaysian, Chinese, Finnish, French, Turkish, and Swedish.)

Hestenes, D., M. Wells, & G. Swackhamer, 1992. "Force Concept Inventory." Phys. Teach. 30: 141-158; online (except for the test itself) at . For the 1995 versions see Halloun et al. (1995).

Maki, P. 2004. "Assessing for Learning: Building a Sustainable Commitment Across the Institution." Stylus. Maki is the former Director of Assessment of the AAHE.

Stokes, D. E. 1997. "Pasteur's quadrant: Basic science and technological innovation." Brookings Institution Press.

EVALTALK - American Evaluation Association (AEA) Discussion List. See also

   the website:  http://www.eval.org

To unsubscribe from EVALTALK, send e-mail to listserv@bama.ua.edu

   with only the following in the body: UNSUBSCRIBE EVALTALK

To get a summary of commands, send e-mail to listserv@bama.ua.edu

   with only the following in the body: INFO REFCARD

To use the archives, go to this web site: http://bama.ua.edu/archives/evaltalk.html For other problems, contact a list owner at kbolland@sw.ua.edu or carolyn.sullins@wmich.edu

Etymologie von "Evaluation"

(von Manfred Karbach)

Vorbemerkung JH: Der folgende Text stammt nicht von mir (Jan Hense), sondern von Herrn Manfred Karbach, Oberstudienrat für Deutsch, Latein und Russisch aus Lünen. Er war lange Zeit unter der URL http://schulen.hagen.de/GSGE/ew/EvalW.html (archivierte Seite

) verfügbar, ist aber schon seit 2005 offline.

Da ich in der Literatur keine andere Stelle kenne, die die Etymologie des Begriffs so gründlich herleitet, veröffentliche ich mit freundlicher Genehmigung von Herrn Karbach an dieser Stelle ein Kopie der Seite, die ich im Februar 2003 gespeichert habe. Der Inhalt ist unverändert und nur in den Formatierungen leicht modifiziert.

Der Copyright-Hinweis am Ende dieser Seite wird automatisch generiert und kann nicht für einzelne Seiten unterdrückt werden, daher weise ich hier noch einmal ausdrücklich darauf hin, dass das Copyright für den folgenden Text bei Manfred Karbach liegt.

Einrichtung: 13.06.1998 Letzte Änderung: 01.01.2000

Anmerkungen zum Wort Evaluation

Der unbefangene Sprecher hält das Wort Evaluation für lateinisch, allerdings wird er es in einem lateinischen Wörterbuch vergeblich suchen. Es handelt sich vielmehr um eine romanische Neuentwicklung.

Aus dem lateinischen Verb valere ("bei Kräften sein", "wert sein", stammverwandt mit dem althochdeutschen waltan) entwickelt sich das französische valoir [1]. Dessen Partizip Perfekt valu wird gegen Ende des 12. Jahrhunderts in seiner femininen Form value substantiviert [2] mit der Bedeutung «valeur, prix» [3]. Davon wird wiederum das Verb évaluer und von diesem das Substantiv évaluation [4] gebildet. Im heutigen Französisch bedeutet évaluation "Schätzung", "Ermittlung" oder "Wertbestimmung" [5].

Mit dieser Bedeutung ist das Wort in der Aufklärungszeit ins Deutsche entlehnt worden; allerdings meinte man wohl, ein ursprünglich lateinisches Wort vor sich zu haben, und "verbesserte" die als unlateinisch empfundene Lautfolge ua zu va Evalvation [6]. In dieser Gestalt ist das Wort noch 1960 und 1968 belegt. [7] Danach verschwindet das Wort aus den Nachschlagewerken. [8]

In der Mitte der achtziger Jahre taucht es wieder auf, allerdings in neuer deutscher Lautgestalt und mit einer zusätzlichen Bedeutung: Evaluation als "Beurteilung von Lehrplänen und Unterrichtsprogrammen". [9]

Diese Semantik kann, wie wir gesehen haben, nicht aus dem Französischen kommen. Sie stammt vielmehr aus dem Englischen, wo das aus dem Französischen entlehnte evaluation auch "Einschätzung" und "Auswertung" [10] bedeutet. Dies und die geänderte deutsche Phonetik (u statt v) machen kenntlich, daß es sich nunmehr um eine Neuübernahme aus dem Englischen handelt.

Leider wird das aber im deutschen Sprachgebrauch nicht klar, denn das Wort wird quasi-lateinisch und nicht englisch ausgesprochen. Vom etymologischen Standpunkt wäre aber die englische Aussprache zu bevorzugen, denn es handelt sich schließlich um kein lateinisches Wort. Vielleicht aber sollte man auf den Gebrauch von Evaluation ganz verzichten, denn "Lehrplanbeurteilung" drückt klarer aus, was eigentlich gemeint ist.

Manfred Karbach, Lünen 1998

[1] So seit der Chanson de Roland Ende 11. Jh. «avoir un certain mérite» (Walther von Wartburg: Französisches Etymologisches Wörterbuch. Bd. 14. Basel: Zbinden 1961. S. 153)

[2] Paul Robert: Dictionnaire de la langue française. Tome 6. Paris 1964. p. 933

[3] ebd. S. 132. Wartburg führt als erste Nennung das Jahr 1180, Robert das Jahr 1248 an. Value ist bis ins 17. Jh. gebräuchlich, stirbt danach aber aus (Trésor de la Langue Française. Centre National de la Recherche Scientifi-que. Tome 8. Paris 1980. p. 333)

[4] «1365 évaluacion ‘action d’évaluer’ [...]. Dér. du rad. de évaluer, suff. -tion.» (Trésor de la Langue Française. Centre National de la Recherche Scientifique. Tome 8. Paris 1980. p. 332)

[5] vergl. Erich Weis und Heinrich Mattutat: Pons-Großwörterbuch Französisch-Deutsch. Stuttgart 1988. S. 219

[6] vergl. Duden. Das große Wörterbuch der deutschen Sprache. Bd. 2. Mannheim 21993. S. 996

[7] Duden, Bd. 5: Fremdwörterbuch. Mannheim 1960. S. 179; Gerhard Wahrig: Deutsches Wörterbuch. Bd. 1. Gütersloh 1968. Sp. 1176; beidesmal als veraltet gekennzeichnet.

[8] So haben weder Meyers Enzyklopädisches Lexikon im Bd. 8 (Mannheim 1973) noch Lutz Mackensen: Ursprung der Wörter (München 1985) einen entsprechenden Eintrag.

[9] Duden, Bd. 5: Fremdwörterbuch. Mannheim 61997; so bereits die Brockhaus-Enzyklopädie, Bd. 6, Mannheim 1988; auch die Neubearbeitung des Wahrig hat nunmehr Evaluation (Deutsches Wörterbuch, Gütersloh 1997, S. 450). Zum ersten Mal erscheint Evaluation 1984 (s. auch Fußnote 6).

[10] vergl. Duden-Oxford Großwörterbuch Englisch. Mannheim 1990. S. 247. In dieser Bedeutung im Englischen erstmals 1779 (s. auch The Oxford English dictionary. Vol. 3. Oxford: Clarendon 1933. p. 327)

Geschichte der Evaluation

Historische Entwicklung der Evaluation von Bildung

(Leseprobe aus Hense, J. U. (2006). Selbstevaluation. Erfolgsfaktoren und Wirkungen eines Ansatzes zur selbstbestimmten Qualitätsentwicklung im schulischen Bereich. Frankfurt a. M.: Peter Lang. [Kapitel 3.2])

Our search as lay historians reveals that the first recorded instance of evaluation occurred when man, woman, and serpent were punished for having engaged in acts which apparently had not been among the objectives defined by the Program circumscribing their existence. (Perloff et al., 1976, p. 264)

Im Kontext der historischen Entwicklung von Evaluation, die in den folgenden Abschnitten skizziert wird, ist zunächst die Herkunft des Begriffs von Interesse. Etymologisch lässt sich der Begriff „Evaluation" folgendermaßen herleiten: Obwohl die bei uns übliche Aussprache des Wortes eine Wurzel im Lateinischen vermuten lässt, existiert eine direkte Entsprechung dort nicht. Vielmehr nahm der Begriff erst einen Umweg über das Französische und Englische (Karbach, 2000): Aus dem lateinischen valere („bei Kräften sein", „wert sein") entstand zuerst das französische valoir und daraus über mehrere Zwischenstufen die Neubildung évaluation. In der Aufklärung ist diese nicht nur ins Englische übernommen worden, sondern auch ins Deutsche. Dort ist sie leicht modifiziert als „Evalvation" (sic) mit den Bedeutungen „Schätzung", „Ermittlung" noch bis Mitte des 20. Jahrhunderts nachweisbar, dann aber verschwunden. In Folge der nordamerikanischen Evaluationsexpansion der 1960er Jahre kam es dann zu einer erneuten Entlehnung, dieses Mal aber aus dem Englischen mit der aktuellen Bedeutung. Etymologisch gesehen handelt es sich bei dem deutschen „Evaluation" in der heutigen Bedeutung also trotz der latinisierten Aussprache um eine direkte Übernahme aus dem Englischen.

Eine Praxis der Evaluation lässt sich bis in die Renaissance, die ihr zugrunde liegende Denktradition sogar bis in die Antike zurückverfolgen (vgl. Cronbach et al., 1980; Henninger, 2000). Für das Bildungswesen werden üblicherweise die Entwicklungen in den USA der 1930er und 1940er Jahre als Ursprung der modernen Evaluationspraxis gesehen. Da auch in den folgenden Jahrzehnten maßgebliche Impulse von Nordamerika ausgingen, wird im Folgenden zunächst die internationale Entwicklung dargestellt (Kapitel 3.2.1). Auf die Besonderheiten der bundesdeutschen Evaluationsgeschichte wird anschließend in Kapitel 3.2.2 eingegangen.

Die internationale Entwicklung

Für die Darstellung der Evaluationsgeschichte liegen verschiedene Einteilungen in historische Phasen vor, die sich vor allem im Grad ihrer Differenzierung unterscheiden (Cook & Matt, 1990; Cronbach et al., 1980; Shadish et al., 1991). Für den Bildungsbereich bietet sich besonders die Einteilung in fünf Phasen von Madaus und Stufflebeam (2000; vgl. Walberg & Haertel; 1990) an, welche die internationalen und insbesondere nordamerikanischen Entwicklungen zusammenfasst und daher der folgenden Darstellung zugrunde gelegt wird (vgl. Tabelle 1).

Tabelle 1: Phasen der Evaluationsgeschichte nach Madaus und Stufflebeam (2000)

 Phase                                                    Dauer
 Die Tylersche Phase                                      1930-1945
 Die Phase der Stagnation                                 1946-1957
 Die Phase der Expansion                                  1958-1972
 Die Phase der Professionalisierung und Diversifizierung  1973-1982
 Die Phase der Integration                                seit 1983

Die Tylersche Phase

Bahnbrechend für die moderne Evaluation waren Arbeiten von Ralph W. Tyler, der oft auch als „Vater der Bildungsevaluation" bezeichnet wird. Vor dem Hintergrund der Depression der dreißiger Jahre und den Reformprogrammen des New Deal von Präsident Roosevelt kam es in den USA unter dem Stichwort Progressive Education Movement zu umfangreichen Reformbemühungen im Bildungswesen. Tyler war im Rahmen der berühmten Eight Year Study verantwortlich für die Untersuchung der differentiellen Effekte verschiedener Schulformen. Im Rahmen dieser Arbeiten entwickelte er sein Konzept der Evaluation, in dessen Mittelpunkt der Vergleich der beabsichtigten Ziele eines Curriculums mit den tatsächlich erreichten Lernergebnissen der Schüler steht (Tyler, 1935, 1942; vgl. Kapitel 3.1.2).

Da bis dato vor allem die Lehrerqualifikation und Input-Faktoren auf organisationaler Ebene herangezogen wurden, um die Produktion von Bildung zu gewährleisten, schuf Tyler durch die Betonung der Outputs von Lernprozessen ein alternatives Modell zur Steuerung von Bildungssystemen und ﷓institutionen. Weitere Innovationen bestanden in der Überwindung subjektiver Verfahren der Leistungsüberprüfung und die Anwendung wissenschaftlicher Verfahren im Kontext größerer Reformvorhaben. Dadurch übten seine Arbeiten einen erheblichen Einfluss auf die weitere Entwicklung aus (Madaus & Stufflebeam, 2000).

Die Phase der Stagnation

In der Nachkriegszeit beschränkte sich die Weiterentwicklung von Evaluationsverfahren auf methodische Aspekte. Dazu gehörte die Ausweitung landesweit standardisierter Leistungstests, mit denen einzelne Schulen und Schuldistrikte die Erreichung curricularer Lernziele vergleichend überprüfen konnten. Daneben kam es zu einer Weiterentwicklung experimenteller Designs und des Tylerschen Evaluationsansatzes. Betrachtet man allerdings die damalige Bedeutung von Evaluation für die allgemeine gesellschaftliche Entwicklung und den Bildungsbereich insgesamt, ist eine relative Bedeutungslosigkeit festzustellen. Madaus und Stufflebeam (2000) nennen diese Phase daher „Age of Innocence" oder sogar „Age of Ignorance" (p. 9), da trotz vorhandener gesellschaftlicher Defizite kaum ein Bedarf für Evaluation gesehen wurde.

Die Phase der Expansion

Als Auslöser für die große Expansionsphase der Evaluation wird häufig der „Sputnikschock" im Jahr 1957 genannt, als es der UdSSR erstmals gelang, einen künstlichen Satelliten in eine Erdumlaufbahn zu befördern (Stufflebeam, 2001). Diese überraschende Demonstration technologischer Überlegenheit durch ein unterlegen geglaubtes System führte zu einer allgemeinen Verunsicherung und Ängsten in Bezug auf die eigene Verteidigungsfähigkeit. Die in der Folge initiierten Reformbemühungen erfassten vor allem das Bildungssystem in starkem Maße. Insbesondere im Bereich Mathematik und Naturwissenschaften kam es zu großen landesweiten Programmen der Curriculumreform. Ein weiterer Schub ergab sich durch den von der Johnson-Administration 1965 ausgerufenen war on poverty, der die großen sozialen Missstände und Ungleichheiten jener Zeit beseitigen wollte. Auch hier wurden umfangreiche Reformprogramme aufgelegt, deren Effektivität im Rahmen begleitender Evaluationen überprüft wurde. Allgemein entstand also ein erhöhter Bedarf nach Überprüfung und objektivierter Steuerung gesellschaftlicher Entscheidungsprozesse, der durch Evaluationen gedeckt werden sollte (Shadish et al., 1991). Die Erwartung an Evaluation lautete dabei im Sinne von Poppers (1992) „Sozialtechnik der kleinen Schritte" (S. 187), den schrittweisen Umbau der Gesellschaftsordnung wissenschaftlich lenken zu können. Am exemplarischsten fanden diese Ideen ihren Ausdruck in Campbells (1969) Sichtweise von „reforms as experiments" und seinem Begriff der „experimenting society".

Mit der Ausweitung der Praxis der Evaluation zeigten sich allerdings auch erste Schwächen der bis dahin dominierenden Evaluationsmethoden, zu denen das Tylersche Zielerreichungsmodell, standardisierte Leistungstests und das klassische Experiment mit Kontrollgruppenversuchsplan gehörten. Diese ausschließlich auf Endergebnisse fokussierenden Methoden erwiesen sich als wenig tauglich, um jene Informationen zu liefern, die zur Optimierung der Praxis vonnöten waren. Cronbach (1963) war der erste, der auf diese Problematik hinwies und damit die Idee einer Evaluation für Verbesserungszwecke schuf, für die Scriven (1972) später die Bezeichnung „formative Evaluation" etablierte. Gleichzeitig begann sich jenes Phänomen abzuzeichnen, für das Rossi (1987) die pessimistischen, zugleich aber auch ironisch gemeinten „metallic and plastic laws of evaluation" formulierte:

The laws claim that a review of the last two decades of evaluation research on major social programs in the United States does not sustain the proposition that over this period the American establishment of policy makers, agency officials, professionals and social scientists knew how to design and implement social programs that were at all effective, let alone spectacularly so (Rossi, 1987, pp. 3﷓4).

Prototypisch für Rossis Diagnose kann beispielsweise die bekannte „What works'"-Studie von Martinson (1974) gelten. Sie fasste die damals vorliegenden Evaluationsergebnisse zu verschiedenen Rehabilitationsmaßnahmen für Strafgefangene zusammen und kam im Wesentlichen zum Schluss: „nothing works". Martinsons methodisches Vorgehen konnte später als defizitär und sein Fazit damit als ungültig belegt werden (Sarre, 2001). Darin drückte sich auch ein methodischer Fortschritt für die Disziplin aus, denn nicht zuletzt aufgrund dieser krisenhaften Entwicklungen resultierte gegen Ende der Expansionsphase der Evaluation auch eine Expansion der Evaluationsforschung (vgl. Kapitel 3.1.4.2). Wesentliche Paradigmen und Prämissen der frühen Phasen der Evaluationsgeschichte wurden dabei einer Überprüfung unterzogen, wodurch einer weitgehenden Umorientierung und Neukonzeptionalisierung des gesamten Felds der Weg bereitet wurde. Sie kann durch die Stichworte Professionalisierung und Diversifizierung charakterisiert werden.

Die Phase der Professionalisierung und Diversifizierung

Im Laufe der siebziger Jahren stellten sich eine Reihe von Entwicklungen ein, die von Madaus und Stufflebeam (2000) als Anzeichen einer zunehmenden Professionalisierung der Evaluation gedeutet werden (vgl. Rossi, 1984):

die Gründung von Berufs- und Interessensverbänden wie etwa die Evaluation Research Society (ERS), die Vorläuferorganisation der heutigen American Evaluation Association (AEA)
die Schaffung eigener Ausbildungs- und Fortbildungsgänge, die im Gegensatz zu der üblichen sozialwissenschaftlichen Methodenausbildung gezielt auf eine Tätigkeit als Evaluator vorbereiten sollten
die Gründung regelmäßig erscheinender Fachzeitschriften als Forum des professionellen Austauschs (bspw. Studies in Educational Evaluation oder New Directions for Program Evaluation)
die Entwicklung von Standards der Evaluation (ERS Standard Committee, 1982; Joint committee, 1981, 1988, 1994, 2002; vgl. Kapitel 3.4.5)
die Entwicklung der Metaevaluation, also von Techniken zur Evaluation von Evaluationen, mit deren Hilfe die Qualität von Evaluation überprüft und sichergestellt werden kann (vgl. Kapitel 3.4.1.1)
die allgemeine Anerkennung der Eigenständigkeit von Evaluation als wissenschaftliche Disziplin und praktisches Tätigkeitsfeld

Neben solchen Professionalisierungstendenzen zeichnete sich in dieser Phase auch eine deutliche Diversifizierung der Praxis ab (Shadish et al., 1991). Eine Fülle neuer Evaluationsansätze und ﷓modelle entstand und etablierte sich, von denen viele, teils in einer weiterentwickelten Fassung, heute noch als aktuell gelten können (Alkin, 2004). Darunter befinden sich beispielsweise das CIPP-Modell von Stufflebeam (1973, 2003), das Konzept der zielfreien Evaluation von Scriven (1973), die responsive Evaluation von Stake (1975) oder naturalistische Evaluationsansätze (Guba, 1987). Daneben erschienen in dieser Phase die Erstauflagen wichtiger Lehrbücher (v.a. Rossi, Freeman & Wright, 1979; Weiss, 1972a), die heute in ihren aktualisierten Neuauflagen immer noch als Standardwerke gelten (Rossi et al., 2004; Weiss, 1998).

Negativ äußerte sich die Diversifizierung dieser Phase allerdings in zweierlei Hinsicht. Erstens gab es neben vielen wegweisenden Entwicklungen auch viel „Wildwuchs". Popham (1993) charakterisiert treffend: „For a time it appeared that an educational evaluation model was being generated by anyone who (1) could spell educational evaluation and (2) had access to an appropriate number of boxes and arrows" (p. 23). Einige der damals konzipierten Evaluationsansätze, die aus heutiger Sicht leicht exotisch wirken, sind inzwischen zurecht wieder in der Versenkung verschwunden. Ein zweites Problem stellte die zunehmende Polarisierung in der evaluationstheoretischen Auseinandersetzung dar, deren Lager als positivistisch-quantitativ auf der einen Seite und phänomenologisch-qualitativ auf der anderen Seite bezeichnet werden können (vgl. Kapitel 3.4.4). Diese Auseinandersetzung betrifft vordergründig methodische Fragen, im Grunde drückt sie aber eher ideologische und epistemologische Differenzen aus (Madaus & Stufflebeam, 2000).

Neben Professionalisierung und Diversifizierung ist diese Phase durch ein drittes wichtiges Phänomen gekennzeichnet, die aufkommende bzw. sich verstärkende Nutzungskrise der Evaluation (Legge, 1984; vgl. Kapitel 3.5.1). Erste Fragen zur Nutzung von sozialwissenschaftlichen Forschungsergebnissen allgemein und Evaluationsergebnissen im Speziellen kamen bereits Ende der 1960 auf. Wegweisend waren dabei die Arbeiten von Weiss (1972b, 1972c). Diese lösten in der Folge breite Diskussionen aus, zu denen auch vielfältige theoretische und empirische Forschungsbemühungen zu der Frage gehörten, wann und wie Evaluationsergebnisse überhaupt in der Praxis aufgegriffen und genutzt werden (Alkin, 1985; Alkin, Daillak & White, 1979; Ciarlo, 1981; Leviton & Hughes, 1981; Patton, 1997c; Patton et al., 1977; Weiss, 1981). Insgesamt konnten nur wenige empirische Belege dafür gefunden werden, dass Ergebnisse von Evaluation in dem Maße oder in der Art von Entscheidungsträgern und in der öffentlichen Debatte verwendet wurden, wie es vorgesehen war (Cook, 1997). Da aber Evaluation im Gegensatz zur Grundlagenforschung gerade durch ihre Handlungsorientierung (vgl. Kapitel 3.1.4.1) gekennzeichnet ist, stellte sich angesichts der Erkenntnis, dass konkrete Handlungen in Folge von Evaluationsergebnissen offenbar nur selten zu beobachten waren, die Sinnfrage (Alkin et al., 1979; Cronbach et al., 1980).

Das Zwischenfazit am Ende dieser Phase war also ein ernüchterndes: „Complaint has accompanied the expansion of evaluation. Everybody seems to think that evaluation is not rendering the service it should." (Cronbach et al., 1980, p. 44). Allerdings bleibt festzuhalten, dass die Nutzungskrise der Evaluationsforschung ein äußerst fruchtbares Forschungsgebiet erschlossen hat. Denn heute kann die Evaluationsnutzung als das bisher am besten untersuchte Teilgebiet der Forschung über Evaluation gelten (Leviton, 2003).

Die Phase der Integration

Die Nutzungskrise der Evaluation trug etwa seit Beginn der 1980er Jahre wesentlich zu einer Neu- und Umorientierung des gesamten Feldes bei. Nachdem gezeigt wurde, dass Evaluationsergebnisse in der bisherigen Praxis häufig nicht in konkreten Entscheidungssituationen herangezogen wurden, waren verschiedene Teilentwicklungen zu beobachten. Sie werden an dieser Stelle nur skizziert, da sie ein wichtige Rolle im Kontext der Kritik spielt, die an der traditionellen Evaluationspraxis geübt wurde, und in Kapitel 3.5 genauer diskutiert werden. Verkürzt lassen sich drei Tendenzen feststellen:

Es kommt zu einer Rekonzeptionalisierung des Nutzungsbegriffs. Unter Evaluationsnutzung wird nicht mehr nur ihre Verwendung zur Entscheidungsstützung gesehen. Auch begleitende, indirekte, verzögerte und nicht-intendierte Wirkungen werden nun auf verschiedenen Ebenen als Nutzung von Evaluation beobachtet und berücksichtigt.
Der Nutzung und Nützlichkeit von Evaluation wird verstärkt Aufmerksamkeit geschenkt. Sie wird aufgewertet zu einem der wichtigsten Gütekriterien bei der Bewertung des Erfolgs einer Evaluation (vgl. Kapitel 3.4.5).
Verstärkt werden alternative Methoden und Zugänge zur Evaluation gesucht, die der Rekonzeptionalisierung und Aufwertung der Evaluationsnutzung gerecht werden können.

Auch in Folge dieser Entwicklungen trat der Methodenstreit zwischen quantitativem und qualitativem bzw. positivistischem und phänomenologischem Lager in den Hintergrund. Es kann zwar nicht behauptet werden, dass die methodische Polarisierung endgültig überwunden wurde. Dennoch ist unverkennbar, dass der Methodenstreit in dieser Phase an Bedeutung verliert. Stattdessen ergibt sich aus der Nutzungsdebatte zunehmende Akzeptanz für einen an praktischen Zwecken orientierten Methodeneklektizismus. Dies drückt sich beispielhaft in den neueren Auflagen des Standardlehrbuchs von Rossi et al. (2004) aus, in dem es nicht mehr um das eine, „richtige" Verfahren der Evaluation geht, sondern darum, Evaluationen je nach Kontext und Gegebenheiten „maßzuschneidern". Die Wahl der Methoden und Verfahren ist also in erster Linie eine Frage danach, was in welcher Situation als zweckdienlich und zielführend angesichts der vorliegenden Anforderungen gelten kann.

Gegensätze und Widersprüche der vergangenen Evaluationsgeschichte werden also zunehmend überbrückt und integriert, was nach Shadish et al. (1991) exemplarisch in den Arbeiten von Cronbach (1982; Cronbach et al., 1980) und Rossi (Rossi et al., 2004) deutlich wird. Gleichzeitig zeigt ihre umfassende theoriegeschichtliche Aufarbeitung des Felds auch, dass zwar bei vielen Fragen inzwischen weitgehende Einigkeit erzielt werden konnte, dennoch aber viele wesentliche evaluationstheoretische und ﷓praktische Fragen weiterer Klärung bedürfen.

Auf Seite der Praxis war diese Phase in Nordamerika gekennzeichnet durch die wachsende Bedeutung des Wettbewerbs als Faktor im Bemühen um Qualität in der Bildung und in anderen gesellschaftlichen Bereichen. Unter den Vorzeichen Rechenschaftslegung und Ergebnisüberprüfung fand Evaluation einen festen Platz im öffentlichen Bewusstsein und bei politischen Entscheidungsprozessen (Madaus & Stufflebeam, 2000).

Nachdem die bisherigen Darstellungen sich weitgehend an der internationalen Diskussion orientierten, welche durch die nordamerikanischen Entwicklungen stark geprägt ist, geht der folgende Abschnitt auf die Besonderheiten der bundesdeutschen Debatte ein.

Die bundesdeutsche Entwicklung

Während in Nordamerika als Anfangspunkt der Evaluation im modernen Sinn die 40er Jahre des vorigen Jahrhunderts gelten können, setzt eine vergleichbares Fachinteresse in der Bundesrepublik erst in den 1970er Jahren ein (Lange, 1983; Müller, 1987; Wollmann, 1994). Einige Grundlinien der Entwicklungen im angloamerikanischen Raum sind dabei mit Verzögerung im deutschen Sprachraum zu beobachten (vgl. Stangel-Meseke & Wottawa, 1993; Will & Krapp, 1983). Allerdings liegen ihnen hier jeweils spezifische Begründungszusammenhänge und Bedürfnislagen zugrunde, die sich etwa auch in unterschiedlichen Formen der institutionellen Verankerung von Evaluation äußerte. So lässt sich momentan die deutsche Entwicklung im Gegensatz zur internationalen Entwicklung noch nicht in ein sinnvolles Phasenmodell bringen.

Den gesellschaftlichen Hintergrund der beginnenden Evaluationstätigkeiten stellen auch hier allgemeine Reformbemühungen seit den 1960er Jahren und insbesondere die beschleunigte Bildungsexpansion der 1970er Jahre dar (Lange, 1983). Dabei fand eine erste vertiefte Auseinandersetzung mit theoretischen und praktischen Fragen der Evaluation insbesondere im Rahmen von Reformbemühungen und Modellversuchen zur Curriculumentwicklung statt, die bereits im letzten Drittel der sechziger Jahre begonnen hatten (Frey, 1975; Neul, 1977; Wulf, 1971). Wulf (1975a) sieht als soziale Funktion (vgl. Kapitel 3.3) damaliger Evaluationstätigkeiten vor allem Legitimationsprobleme des staatlichen Bildungssystems. Sie entstünden dadurch, dass selbstgesetzte Ansprüche und Erwartungen der Öffentlichkeit nicht erfüllt werden. Vor allem Bildungsverwaltungen wollten wissenschaftliche Evaluation als Mittel nutzen, um ein chronisches Legitimitätsdefizit zu lindern und politische und planerische Entscheidungen in der Öffentlichkeit abzusichern.

Für öffentlich geförderte Evaluationsprojekte war ein 1971 geschlossenes Verwaltungsabkommen zwischen Bund und Ländern besonders wichtig, aus dem die heutige Bund-Länder-Kommission für Bildungsplanung und Forschungsförderung (BLK) hervorging (Scholz, 1984). Im Rahmen von Modellversuchen und Modellversuchsprogrammen, mit denen die BLK Innovationen im Bildungswesen initiiert und begleitet, spielte auch Evaluation eine wachsende Rolle (Lange, 1983; Stangel-Meseke & Wottawa, 1993). Weiterer Evaluationsbedarf im Bildungswesen ergab sich im Kontext der Auseinandersetzung um die Gesamt- und Regelschule (vgl. Wittmann, 1990), die auch Anlass für evaluationsmethodologische Diskussionen waren (Wottawa, 1981). Ein Symposium zum Thema Evaluation fand 1982 im Rahmen der Herbsttagung der Arbeitsgruppe für Empirische Pädagogische Forschung (AEPF) in der Deutschen Gesellschaft für Erziehungswissenschaft (DGfE) in Wien statt (Will & Krapp, 1983). Dort kam es zwar zu Ansätzen einer vielversprechenden Auseinandersetzung über evaluationstheoretische und ﷓praktische Fragestellungen, wie etwa die Frage der notwendigen Praxisnähe, die jedoch, zumindest wenn man ihren Ertrag in der Literatur aufzuspüren versucht, relativ folgenlos blieb.

Nach einer ersten „Blüte" im Bildungswesen der 1970er geriet also Evaluation während des folgenden Jahrzehnts für praktisch und theoretisch tätige Pädagogen eher an den Rand des Blickfelds, so dass Beywl (1999) sogar von einer „winterschlafenden Evaluationsdiskussion" (S. 2) spricht. Für Lange (1983) stellt sich die Entwicklung anders dar. Ihm zufolge bleibt das Aufkommen an Evaluation im Bildungswesen zwar in etwa konstant, es kommt aber in zweierlei Hinsicht zu allmählichen Verlagerungen, die einen Kontinuitätsbruch zur heutigen Entwicklung darstellen. Zum einen werden Evaluationen nicht mehr nur von rein wissenschaftlich orientierten Hochschulinstitutionen durchgeführt, sondern immer häufiger unter direkter Aufsicht der Bildungs- und Kulturverwaltungen. Dieser Trend manifestiert sich in der Schaffung eigener Forschungsinstitutionen der Länder, die als nachgeordnete Dienststellen der Kultusverwaltungen fungieren. Zum anderen gewinnen im Kontext allgemeiner wissenschaftssoziologischer Entwicklungen die Methoden und Paradigmen der Handlungsforschung (Heinze, Müller, Stickelmann & Zinnecker, 1975a) eine zunehmende Dominanz bei praktischen Evaluationsvorhaben. Vor dem Hintergrund dieser Trends am Ende eines ersten Evaluationsbooms in der BRD überrascht es nicht, wenn Lange (1983) feststellt, dass sich in Deutschland zum damaligen Zeitpunkt noch keine wissenschaftlicher Diskurs über theoretische und methodische Voraussetzungen der Evaluation herausbilden konnte. Erst im Laufe der 1990er Jahre kommt es angesichts der in Kapitel 2 geschilderten gesellschaftlichen Hintergründe und Entwicklungen zu einer Wiederbelebung des Evaluationsdiskurses.

Parallel zur Entwicklung bis zu diesem Zeitpunkt verläuft die Rezeption der internationalen Fachdiskussion. Zu Beginn der deutschen Evaluationspraxis kann noch eine relativ intensive Auseinandersetzung mit dem internationalen Diskurs festgestellt werden. Dafür steht etwa die Aufsatzsammlung von Wulf (1972), in der nicht nur einige theoretische Beiträge von prominenten Autoren wie Cronbach, Scriven, Stake, Stufflebeam, Alkin oder Glass in deutscher Übersetzung vorgelegt wurden, die heute noch als seminal writings nicht nur der pädagogischen Evaluationsliteratur gelten, sondern auch mehrere beispielhafte „klassische" Studien wie beispielsweise „Das erste Jahr von Sesame Street" von Ball und Bongatz (1972). Auch das im gleichen Jahr erschienene Lehrbuch von Weiss (1972a) wurde zwei Jahre später in deutscher Übersetzung aufgelegt. Danach scheint aber, parallel zum Abflauen des allgemeinen Evaluationsdiskurses, die Wahrnehmung der angelsächsischen Entwicklungen zu erlahmen (Beywl, 1999). Insbesondere die Fortschritte, die sich seit der Phase der Professionalisierung und Diversifizierung ergeben haben (vgl. Kapitel 3.2.1.4), sind bis auf Ausnahmen hierzulande kaum aufgegriffen worden (Beywl, 1991). Prototypisch kann dafür das einzige deutschsprachige Lehrbuch von Wottawa und Thierau (1998) genannt werden, das auch in seiner aktuellen zweiten Auflage die nordamerikanische Entwicklung wenn überhaupt nur etwa bis Mitte der 1970er Jahre reflektiert.

Will man den gegenwärtigen Stand der deutschen Evaluationsdiskussion im internationalen Vergleich verorten, so fallen in erster Linie Ähnlichkeiten zur Phase der Professionalisierung und Diversifizierung auf. Dies sei an den drei in Kapitel 3.2.1.4 genannten Kennzeichen dieser Phase (Professionalisierung, Diversifizierung, Nutzungskrise) erläutert.

Während Stangel-Meseke und Wottawa (1993) noch keinerlei Anzeichen einer Professionalisierung der Evaluation in der BRD beobachten konnten, haben sich seitdem einige wichtige Entwicklungen vollzogen. So gründete sich 1997 die Deutsche Gesellschaft für Evaluation (DeGEval) in Köln als Berufs- und Interessensverband für Personen und Organisationen, die sich praktisch oder theoretisch mit Evaluation befassen. Die DeGEval war unter anderem verantwortlich für eine Adaption der Standards für Evaluation des Joint Committee (1994), die allerdings nur geringfügig an die hiesigen Besonderheiten angepasst wurden (DeGEval, 2002). Als einzige deutschsprachige Fachzeitschrift existiert seit 2002 die Zeitschrift für Evaluation, die ebenfalls von der DeGEval ausgeht. Eigene Aus- bzw. Fortbildungsgänge für eine Tätigkeit als Evaluator existieren momentan in Form eines postgradualen Studiengangs Evaluation der Universität Bern und als Fortbildungsprogramm Evaluation in der Entwicklungszusammenarbeit beim Centrum für Evaluation der Universität des Saarlandes in Saarbrücken. Ein auf das Praxisfeld Pädagogik zugeschnittener Studiengang existiert dagegen noch nicht.

Auch Anzeichen einer zunehmenden konzeptionellen Diversifizierung sind im deutschen Sprachraum zu beobachten. Im Gegensatz zur rein begrifflichen Diversifizierung, die bereits seit Neuerstarken der Evaluationspraxis Mitte der 1990er Jahre als eher negative Begleiterscheinung des Evaluationsdiskurses zu beobachten ist (vgl. Kapitel 3.2.2), kommt es in den vergangenen Jahren zu einer Erweiterung konzeptioneller Ansätze und Herangehensweisen bei der praktischen Umsetzung von Evaluation. Eine wichtige Rolle spielen dabei eine inzwischen wieder intensivierte Auseinandersetzung mit der internationalen Debatte und ein zunehmender Austausch zwischen den verschiedenen Fachdisziplinen, in denen Evaluation betrieben wird.

Als drittes Merkmal des gegenwärtigen Stands der Theorie- und Praxisentwicklung sind auch in der BRD schon seit längerem Anzeichen einer Nutzungskrise zu verzeichnen (vgl. Wittmann, 1990). Gerade im bildungspolitischen Bereich wurde beobachtet, dass Evaluationen oft nicht für Entscheidungszwecke herangezogen werden, sondern eher, um bereits getroffene Entscheidungen besser „verkaufen" zu können (Will & Krapp, 1983). Diesen Ergebnissen entsprechen die von Thonhauser und Patry (1999) referierten Befunde. Sie stellen fest, dass die Hoffnung, Evaluationen von Schulversuchen als Entscheidungsgrundlage für die Bildungspolitik zu nutzen, sich bei verschiedenen Beispielen der siebziger und frühen achtziger Jahre nicht erfüllt hat. Die Evaluationsergebnisse wurden demnach bestenfalls als Anlass für Ad-hoc-Argumente verwendet, selten aber im Sinn der tatsächlichen Ergebnisse. Auch an den Erfahrungen der Autoren aus der eigenen Praxis wird deutlich, dass die Beteiligten im Feld (Befürworter und Gegner einer evaluierten Innovationsmaßnahme) Evaluation oft hauptsächlich als ihren Interessen dienlich bzw. bedrohlich empfinden, der Glaube an eine mögliche Verbesserungsfunktion und Objektivität der Evaluation aber wesentlich geringer ausgeprägt ist.

Aktuelle Beispiele für eine mangelnde Nutzung und Akzeptanz von Evaluationsergebnissen durch Lehrkräfte sind im Kontext jüngerer Modellvorhaben und internationaler Schulleistungsstudien zu finden. Ditton und Arnoldt (2004) fanden, dass selbst wenn Lehrer die Rückmeldung von Evaluationsergebnissen verständlich, gut erläutert, informativ und übersichtlich beurteilen, sie die Verwertbarkeit für konkrete Verbesserungen der Unterrichtsarbeit weniger günstig einschätzen. Nach Schwippert (2004) machten im Kontext der internationalen Grundschul-Vergleichsuntersuchung IGLU nur die Hälfte aller Lehrkräfte von der Möglichkeit Gebrauch, individuelle Rückmeldungen zu erhalten, um Informationen über den relativen Leistungsstand ihrer Klassen zu bekommen. Hier bestehen offenbar von vorne herein Zweifel über den möglichen Nutzen der Rückmeldung solcher Ergebnisse. Auch Schrader und Helmke (2004) berichten von einer deutlichen Reserviertheit der Lehrkräfte gegenüber der Nutzung von Evaluationsrückmeldungen im Rahmen der rheinland-pfälzischen Evaluationsstudie MARKUS. Eine Diskussion weiterer Beispiele für die mangelnde Akzeptanz und Nutzung von Evaluationsergebnissen leisten Henninger und Balk (2001).

Das Problem der unzureichenden Nutzung von Evaluationsergebnissen scheint inzwischen erkannt und in der deutschsprachigen Diskussion aufgegriffen worden zu sein. Stockbauer (2000) hat die wichtigsten Erträge der internationalen Nutzungsforschung zusammengefasst. Ein von Kohler und Schrader (2004) herausgegebenes Themenheft von Empirische Pädagogik enthält verschiedene Untersuchungen, die sich mit dem Themenkomplex Ergebnisrückmeldung und Rezeption von Evaluationsergebnissen auseinandersetzen.

Auch in der Evaluationsmethodik vollzieht sich in Deutschland eine langsame Wende im „Hegemoniestreit" (Lassnigg, 1997). Während beim oben erwähnten AEPF-Symposium Anfang der achtziger Jahre (Will & Krapp, 1983) die Vertreter einer pragmatischen Sichtweise von Evaluation, die sich in erster Linie dem Praxisnutzen von Evaluation verpflichtet fühlen, offenbar noch stark in der Defensive waren, finden sich zunehmend Belege für einen Abschied von der alleinigen Dominanz der methodenfixierten Sichtweise von Evaluation, wie sie durch den Paradigmenstreit zwischen kritischen Rationalismus und Handlungsforschung oder zwischen qualitativen und quantitativen Methoden provoziert wurde. So postuliert Kromrey (2001b) als eine der Besonderheiten der Evaluation als angewandte Sozialwissenschaft ein Primat der Praxis. Im Zweifel hat demnach das Ziel, Handlungswissen für die Praxis bereitzustellen, vor rein wissenschaftlichen Ansprüchen zu rangieren. Lassnig (1997) stellt fest, dass sich insgesamt eine pragmatische Sichtweise zu etablieren beginnt, in der die verschiedenen Ansätze und Verfahren der Evaluation mit ihren spezifischen Stärken und Schwächen anerkannt werden.

Insgesamt scheint sich also heute ein Trend abzuzeichnen, der zu einer Entwicklung führen kann, wie sie für die Phase der Integration (vgl. Kapitel 3.2.1.5) in der internationalen Evaluationsgeschichte festgestellt worden ist: Eine pragmatische Sichtweise von Evaluation als Element geplanter sozialer Veränderungsprozesse setzt sich durch, deren Erfolg in erster Linie in einer nachhaltigen und sinnvollen Nutzung ihrer Ergebnisse gesehen wird. Methodisch ergibt sich daraus der Abschied von der Vorstellung, es gebe nur eine richtige Art und Weise, Evaluation zu betreiben, die für alle Situationen Gültigkeit hat. Sie wird ersetzt durch einen gewissen Eklektizismus, der je nach Zielsetzung und Kontext eines gegebenen Evaluationsprojekts jene Methoden und Verfahren auswählt, die zweckdienlich und zielführend erscheinen. Als Absicherung gegenüber Fehlentwicklungen dienen nicht alleine die Gütekriterien sozialwissenschaftlicher Forschung, sondern vor allem fachspezifische Standards für Evaluation (z. B. DeGEval, 2002).

Reaktionen auf die Qualitätsdebatte

Das zunehmende Interesse an Qualität im Bildungswesen kann also als „semantische Begleitung" struktureller Veränderungen im Bildungssystem und der Gesamtgesellschaft verstanden werden (Kuper, 2002). Damit hat die Qualitätsdiskussion viele Ursachen auf unterschiedlichen Ebenen. Ebenso mannigfaltig sind die Reaktionen, die durch die Diskussion ausgelöst wurden bzw. parallel zu ihr zu beobachten sind. Die wichtigsten und häufigsten Antworten auf diese Fragen lassen sich unter den vier Schlagworten veränderte Steuerungskonzepte, Bildungsstandards, Professionalisierung und Evaluation zusammenfassen. Wie die folgende Diskussion der vier Reaktionstendenzen zeigt, bestehen auch hier deutliche Interdependenzen.

Veränderte Steuerungskonzepte

Im Bereich der öffentlich finanzierten Bildung stellte die Inputsteuerung lange Zeit das dominierende Steuerungskonzept in Schulen und Hochschulen dar (Müller-Böling, 1997; Rolff, 1996). Auf Systemebene wird dabei die Produktion von Qualität primär durch gesetzliche Vorgaben und Verordnungen, Lehrpläne und die Reglementierung der Lehreraus- und ﷓fortbildung geregelt. Auch auf Ebene der einzelnen pädagogischen Institution stand die Regulierung des Inputs lange im Vordergrund, indem sich das Hauptaugenmerk auf die Qualifikation und Auswahl von Lehrenden in Schule und Hochschule konzentrierte. Die zugrunde liegende Annahme dabei ist, dass Qualität sich dann einstellt, wenn sichergestellt wird, dass Lehrende zum Zeitpunkt der Einstellung gut ausgebildet und ausreichend qualifiziert sind. Prozess- und Produktmerkmale haben dagegen bei dieser Steuerungsphilosophie nur eine geringe Relevanz.

Nachdem sich die Inputsteuerung im deutschen Bildungswesen lange Zeit durchaus bewährt hat (Kuper, 2002; Marksthaler, 1999), sind als Reaktion auf die neuere Qualitätsdebatte Zweifel aufgekommen, ob diese bürokratische Steuerungsphilosophie veränderten Bedingungen noch gerecht werden kann (Steffens, 1999). Insbesondere ihre Inflexibilität und Trägheit sowie die Missbrauchsgefahr in Folge fehlender Kontrollmöglichkeiten spielten dabei eine Rolle (Müller-Böling, 1997; Posch & Altrichter, 1998). In der Folge kam es somit zu einer Öffnung des Bildungsbereichs für alternative Steuerungsmodelle und ﷓techniken, die sich sämtlich durch eine stärkere Betonung der Prozesse und Produkte von Bildungsmaßnahmen auszeichnen. Im Gegensatz zur reinen Inputsteuerung lautet dabei die Erwartung, dass Schwachstellen in der laufenden Arbeit schneller aufgedeckt und verbessert werden können und dass flexibler auf veränderte Rahmenbedingungen reagiert werden kann.

Zu den neuen Steuerungsverfahren gehören unter anderem übergreifende Konzepte und Ansätze aus den Bereichen Qualitätssicherung (Donabedian, 1996), Qualitätsmanagement (Beywl, 1994; Dubs, 1998; Greve & Pfeiffer, 2002) und Bildungscontrolling (Hense, Mandl & Schratzenstaller, 2005; Seeber, 2002) sowie eine Reihe weiterer Techniken und Verfahren wie etwa Qualitätszirkelarbeit (Blenck, 2000), Gütesiegel (Liebald, 1998), Benchmarking (Bessoth, 2000; Halfar & Lehnerer, 1997), Balanced Scorecards (Kaplan & Norton, 1992) oder die Normenreihe DIN EN ISO 9000-9004 (Wunder, 1995; Wuppertaler Kreis, 1996). Wie diese Aufzählung zeigt, gingen bei der Suche nach alternativen Steuerungsmodellen starke Impulse vom betrieblichen Bereich aus.

Eine Marktübersicht ausgearbeiteter Qualitätssicherungs- und Qualitätsmanagementsysteme für den Bildungsbereich von Gonon et al. (1998) zeigte bereits eine große Vielfalt. Die Ansätze unterscheiden sich teils erheblich in Faktoren wie der konkreten Zielsetzung, der konzeptionellen Fundierung, dem Grad der Standardisierung oder dem Vorgehen. Gleichzeitig liegen jenseits von Pilotprojekten bisher kaum Umsetzungsbeispiele in der Praxis vor. Dies kann auch auf eine starken Skepsis gegenüber betrieblich und marktwirtschaftlich orientierten Steuerungsphilosophien zurückgeführt werden, die insbesondere im schulischen Bereich verbreitet ist (vgl. Altrichter, 1999; Dubs, 1998). Daher wird gewöhnlich empfohlen, diese nicht unverändert zu übernehmen, sondern immer erst an die spezifischen Gegebenheiten des Bildungswesens und pädagogischer Institutionen anzupassen (Reinmann-Rothmeier, 2000; Schicke, 1997). Ohnehin erscheint aufgrund einiger unüberwindlicher, systembedingter Unterschiede von Marktwirtschaft und Bildungswesen die unkritische Übertragung der betriebswirtschaftlichen Logik auf Bildungsinstitutionen allgemein problematisch (vgl. Fend, 2000; Gonon et al., 1998).

Bildungsstandards

Die Diskussion von Bildungsstandards kann ebenfalls als Reaktion auf die neuere Qualitätsdebatte genannt werden. Bildungsstandards haben die Funktion, die Ziele pädagogischer Arbeit für einen bestimmten Geltungsbereich präzise und verständlich festzulegen. Dazu gehört, dass diese Ziele in Form von erwünschten Lernergebnissen der Lernenden explizit gemacht werden (OECD, 1989). Im Gegensatz zu klassischen Curricula wird also einerseits die unmittelbare Operationalisierbarkeit von Lernzielen angestrebt, während andererseits keine Vorgaben gemacht werden, wie und mit welchen Methoden diese zu erreichen sind. So kommt etwa der auf Standards umgestellte finnische Rahmenlehrplan für den grundbildenden Unterricht mit Anhängen auf nur 180 Seiten Umfang, wobei sämtliche Fächer der Klassenstufen 1 bis 9 abgedeckt werden. Als Finnland nach dem ersten „PISA-Schock" in der deutschen Bildungsdiskussion zum vielzitierten Vorbild wurde, war dies ein Sachverhalt, der viele deutsche Pädagogen offenbar sehr erstaunt hat (Kahl, 2004, 29. März).

Bildungsstandards nehmen im aktuellen Bildungsdiskurs eine doppelte Funktion ein (Klieme et al., 2003). Einerseits konkretisieren sie den Auftrag, den Bildungsinstitutionen zu erfüllen haben, und übernehmen damit curriculare Aufgaben. Andererseits stellen sie Kriterien und Maßstäbe zur Verfügung, anhand derer die Ergebnisse von Bildungsprozessen auf individueller und institutioneller Ebene bewertet werden können (Bessoth, 2000; Dubs, 1998). Damit steht die Entwicklung von Bildungsstandards in einem engen Zusammenhang mit der bereits diskutierten Veränderung von Steuerungsstrategien. Denn Verfahren der Prozess- und insbesondere Outputsteuerung sind darauf angewiesen, dass klar formulierte Zielvorgaben existieren, an denen Erfolge gemessen und Schwachstellen aufgedeckt werden können. Auch mit Prinzipien wie Dezentralisierung und Schulautonomie zeigen sich Kongruenzen, da die Entscheidungsbefugnis darüber, mit welchen Mitteln und auf welchem Wege Standards angestrebt werden, den verantwortlichen Akteuren vor Ort überlassen wird.

Professionalisierung

Ein drittes Thema, das im Kontext der Qualitätsdiskussion im Bildungswesen ein stärkeres Gewicht bekommen hat, ist die Frage der pädagogischen Professionalität bzw. Professionalisierung (Combe & Helsper, 1996; Darling-Hammond & Wise 1992; Lüders, 1998). Sie setzt bei den oben genannten Defiziten in den Prozessen der Bildungsproduktion auf zwei Ebenen an.

Auf unterrichtlicher Ebene geht es unter dem Schlagwort Professionalisierung primär darum, die Qualität der pädagogischen Interaktion durch geeignete Fortbildungsmaßnahmen bei Lehrkräften und anderen Lehrenden sicherzustellen (vgl. Avenarius et al., 2003). Darin ist kein grundsätzliches Misstrauen gegenüber der Qualifikation von Lehrkräften zu sehen. Vielmehr kann auch die Forderung nach einer kontinuierlichen und obligatorischen Fort- und Weiterbildung als Ausdruck einer Umorientierung der allgemeinen Steuerungsphilosophie verstanden werden.

Analog wird im Kontext der neueren Qualitätsdebatte auf der institutionellen Ebene des Schulmanagements mehr Professionalität gefordert. Da in der BRD die Leitung einer Schule oft als Nebentätigkeit zur pädagogischen Arbeit und ohne eigene Ausbildung ausgeübt werden muss, konzentriert sich auch hierbei die Aufmerksamkeit auf den Bereich der Fort- und Weiterbildung. Deren Bedeutung ist nicht zu unterschätzen, da damit zu rechnen ist, dass unter anderem im Zuge der wachsenden Autonomie von Einzelschulen die Aufgaben und Verantwortlichkeiten von Schulleitungen sowohl quantitativ als auch qualitativ eher zu- als abnehmen werden (Bonsen, Iglhaut & Pfeiffer, 1999; Füssel, 1998; Höher & Rolff, 1996).

Evaluation

Als vierte wichtige Reaktionstendenz im Zuge der neueren Qualitätsdebatte kann schließlich die Wiederentdeckung der Evaluation und ihrer verschiedenen Varianten genannt werden. Sie steht dabei in enger Verbindung zu den drei zuvor genannten Trends:

Die Umsetzung von veränderten Steuerungskonzepten, die über die reine Inputsteuerung hinausgehen, ist auf verlässliches Wissen über Prozesse, Produkte und Wirkungen pädagogischer Arbeit angewiesen. In diesem Kontext werden Verfahren und Techniken der Evaluation meist explizit etwa als Elemente von Qualitätssicherungs- und Qualitätsmanagementsystemen integriert.
Eine wichtige Funktion von Bildungsstandards ist es, Kriterien und Maßstäbe bereitzustellen, anhand derer die Ergebnisse von Bildungsprozessen überprüft werden können. Bei dieser Überprüfung spielt Evaluation eine zentrale Rolle.
Zentrale Aspekte von Professionalität sind Rechenschaftslegung und Legitimation. Evaluationen können diese Aufgaben wahrnehmen, da sie ein bewährtes Mittel zum Nachweis eigener Leistungen oder zur Kontrolle dieser Leistungen von außen darstellen.

Somit überrascht es nicht, dass Evaluation im Kontext der neueren Qualitätsdebatte einen zentralen Stellenwert einnimmt und dass Evaluation heute zu einem der wichtigsten Indikatoren von Bildungsqualität gerechnet wird (Europäische Kommission, 2001). Das folgende Kapitel wird den Begriff der Evaluation vertiefen und dazu auf wichtige Entwicklungslinien, Aufgaben, Ansätze und Problemfelder eingehen.

Evaluationsmodelle

In diesem Abschnitt finden sich Inhalte zu verschiedenen Evaluationsansätzen, -modellen und -theorien und ihre jeweilige Protagonisten.

Cluster-Evaluation

Literatur

Haubrich, K. (2001). Cluster-Evaluation - lokale Kontexte berücksichtigen, Innovation und Beteiligung fördern. In BMFSFJ (Hrsg.), QS 35 Materialien zur Qualitätssicherung in der Kinder- und Jugendhilfe.

Millet, R. (1995). W.K. Kellogg Foundation cluster evaluation model of evolving practices. Battle Creek, MI: W.K. Kellogg Foundation.

Sanders, J. R. (1997). Cluster Evaluation. In E. Chelimsky & W. R. Shadish (Hrsg.), Evaluation for the 21st century. A handbook (S. 396-404). Thousand Oaks: Sage.

Formative und summative Evaluation

"Evaluation may be done to provide feedback to people who are trying to improve something (formative evaluation); or to provide information for decision-makers who are wondering whether to fund, terminate, or purchase something (summative evaluation)." (Scriven, 1980, S. 6-7)

Problematik des Begriffpaars

Der Begriff formative Evaluation (nicht das Konzept) geht auf Scriven (1972) zurück und bildet mit seinem Gegenstück summative Evaluation wohl das prominenteste Begriffspaar in der Evaluationsliteratur. Dennoch handelt es sich um einen problematischen Begriff, da er ungenau definiert, theoretisch unstimmig und in seiner praktischen Verwendung oft entsprechend beliebig ist (vgl. dazu etwa die Beiträge von Patton, Chen und Wholey in Evaluation Practice, 1996, Vol. 17, No. 2).

Empfehlungen zum Gebrauch von formativ und summativ

Da sich das Begriffspaar wegen seiner hohen Anmutungsqualität trotz dieser Probleme mit Sicherheit halten wird, scheint mir folgende Begriffsverwendung sinnvoll:

Die Begrifflichkeiten formativ/summativ werden ausschließlich zur Bezeichnung intendierter Evaluationszwecke verwendet, so wie es das obige Zitat Scrivens andeutet. Auf alle anderen von Scriven und Apologeten vertretenen Addenda wird verzichtet. Darunter fallen:

Konfundierung von Evaluationszweck und Zeitpunkt der Evaluation (während der Maßnahme - nach Abschluss der Maßnahme)
Konfundierung von Evaluationszweck und Evaluationsgegenstand (Programmkonzept - Realisierung des Programmkonzepts)
Präskriptive Präferierung einer der beiden Seiten (nämlich der summativen)
Anspruch, mit dem Begriffspaar eine erschöpfende Taxonomie möglicher Evaluationstypen abzubilden ("A world larger than formative and summative", M.Q.Patton)

Formative/ Summative & Process/Outcome 2*2 Matrix (Evaltalk)

Subject: Re: Formative/Summative & Process/Outcome 2*2 Matrix? Date: Tue, 28 Dec 2004 12:24:10 -0500 From: Eileen Stryker Reply-To: American Evaluation Association Discussion List To: EVALTALK@BAMA.UA.EDU References:

I don't remember whether or where Dan Stufflebeam might have written this, but back in olden times when I took his class, he talked about how he and Scriven grew to understand that the CIPP model and Formative / Summative evaluation complement, rather than compete with, each other. It went something like what I've portrayed below (roughly and w/o the careful thought portrayed by Dan in class -- I haven't enough room or time for that right now). Context evaluation includes (but is not limited to) evaluation of goals; input includes evaluation of designs and resources; process includes implementation and product includes effects -- outputs, outcomes, short, medium, long term, etc. etc. These are further defined in the design phase of any evaluation study, of course. Formative focusses on providing information for program development, summative for accountability (with the extended meanings Scriven has portrayed in previous posts and writings, of course

               |  Context     Input     Process    Product
 --------------|----------------------------------------------
 Formative     |
               |
 Summative     |
               |

Some sample questions might include:

Formative /Context: Are program goals responsive to participant needs? Are the goals good?

Summative /Context: Were the goals appropriate to participant needs? To the setting? What contextual factors were important to project successes/ failures?

Formative Input: What designs might be most effective to reach the goals? What can (educational, social, health, management) theory tell us about effective intervention designs?

Summative Input: Was the project design well-founded in theory, best practice, organizational experience?

I'm sure you can fill in the rest.

Hope this helps. It has certainly helped me think about questions an evaluation might address as I meet with client groups.

Happy New Year,

Eileen

Dr. Eileen Stryker Stryker and Endias, Inc. Planning, Research and Evaluation Services Kalamazoo, Michigan 269-668-2373

Original Message ----- From: "Charles Partridge" To: Sent: Tuesday, December 28, 2004 11:43 AM Subject: Formative/Summative & Process/Outcome 2*2 Matrix?

> Group, > > Before I reinvent the wheel, if someone out there has already put > together a 2*2 matrix that defines the Formative/Summative & > Process/Outcome dimensions, could you please forward it to me? > > Thanks in advance. > > Charles R. Partridge > Evaluation Specialist > Center for Learning Excellence > The John Glenn Institute for Public Service and Public Policy > The Ohio State University > Columbus, Ohio 43212-1421 > Email: Partridge.6@osu.edu > > ------------------------------------------------------------------ > EVALTALK - American Evaluation Association (AEA) Discussion List. See also > the website: http://www.eval.org > To unsubscribe from EVALTALK, send e-mail to listserv@bama.ua.edu > with only the following in the body: UNSUBSCRIBE EVALTALK > To get a summary of commands, send e-mail to listserv@bama.ua.edu > with only the following in the body: INFO REFCARD > To use the archives, go to this web site: > http://bama.ua.edu/archives/evaltalk.html > For other problems, contact a list owner at kbolland@sw.ua.edu or > carolyn.sullins@wmich.edu

EVALTALK - American Evaluation Association (AEA) Discussion List. See also

   the website:  http://www.eval.org

To unsubscribe from EVALTALK, send e-mail to listserv@bama.ua.edu

   with only the following in the body: UNSUBSCRIBE EVALTALK

To get a summary of commands, send e-mail to listserv@bama.ua.edu

   with only the following in the body: INFO REFCARD

To use the archives, go to this web site: http://bama.ua.edu/archives/evaltalk.html For other problems, contact a list owner at kbolland@sw.ua.edu or carolyn.sullins@wmich.edu

Ressourcen zur theory-based evaluation (Evaltalk)

From: "Alan Listiak" To: Sent: Thursday, April 01, 2004 5:56 PM Subject: Re: Logic Models: Where to find information?

Last week a request went out for info on logic models. I have accumulated a number of resources on "How-to" develop and use logic models in program development and evaluation. Here they are.

1. Mayeske, George W. and Michael T. Lambur (2001). How to Design Better Programs: A Staff Centered Stakeholder Approach to Program Logic Modeling. Crofton, MD: The Program Design Institute. Highly Recommended.

And, Mayeske, George W. (2002). How to Develop Better Programs & Determine Their Results: An Organic & Heuristic Client & Staff Centered Approach with Stakeholder Involvement. Bowie, MD: The Program Design Institute. Highly Recommended.

The first manual (How to Design Better Programs) is a step-by-step guide to developing and implementing logic models. The second manual (How to Develop Better Programs) deals focuses on how-to develop experiential educational programs "based on, but not restricted to, the use of program logic models which serve as a tool for the development process." (from the Foreword).

Both manuals are available from The Program Design Institute, c/o Dr. George W. Mayeske, 12524 Knowledge Lane, Bowie, MD 20715-2622. The Logic Modeling manual is $28.00 (includes shipping) and the Better Pro-grams manual is $45.00 (including shipping) - checks only. But both manuals can be purchased at a discount. Contact Dr. Mayeske for details at gwmayeske@aol.com.

2. W. K. Kellogg Foundation (2001). W. K. Kellogg Foundation Logic Model Development Guide. Available for no cost at http://www.wkkf.org/ by clicking on the link to the guide on the right of the page.

This guide is not as detailed as the Program Design Institute guides on the nuts and bolts of logic modeling, but is better at discussing program theory and its application. And it's free for the downloading. Highly Recommended.

Also see: W. K. Kellogg Foundation (1998). W. K. Kellogg Foundation Evaluation Handbook. Available at no cost through this site at http://www.wkkf.org/ by clicking on the link to the handbook.

3. Devine, Patricia (1999). Using Logic Models in Substance Abuse Treatment Evaluations. Fairfax, VA: National Evaluation Data and Technical Assistance Center, Caliber Associates. Available at

        http://www.calib.com/home/work_samples/files/logicmdl.pdf.

Highly Recommended.

This paper discusses the use of logic models in planning and evaluating substance abuse treatment services. The best part is the "sample data maps" that specify evaluation questions, measures, and variables.

        The paper is part of the Integrated Evaluation Methods Package

for substance abuse treatment programs developed under the auspices of the Center for Substance Abuse Treatment, Department of Health and Human Services. The full discussion of this evaluation framework, concepts, and tools is presented in: Devine, Patricia (1999). A Guide for Substance Abuse Treatment Knowledge-Generating Activities. Fairfax, VA:

 National Evaluation Data and Technical Assistance Center, Caliber

Associates. Available at http://www.calib.com/home/work_samples/files/iemdoc.pdf.

There are other papers in the Integrated Evaluation Methods Package available at http://www.calib.com/home/work_samples/pubs.cfm under the heading Substance Abuse Research and Evaluation, Evaluation Tools and Resources. These papers include:

Devine, Patricia (1999). A Guide to Process Evaluation of Substance Abuse Treatment Services. Fairfax, VA: National Evaluation Data and Technical Assistance Center, Caliber Associates.

Devine, Patricia, Bullman, Stephanie, & Zeaske, Jessica (1999). Substance Abuse Treatment Evaluation Product Outlines Notebook. Fairfax, VA: National Evaluation Data and Technical Assistance Center, Caliber Associates.

Devine, Patricia, Christopherson, Eric, Bishop, Sharon, Lowery, Jacquelyn, & Moore, Melody (1999). Self-Adjusting Treatment Evaluation Model. Fairfax, VA: National Evaluation Data and Technical Assistance Center, Caliber Associates.

4. The University of Wisconsin-Cooperative Extension has an online course entitled, Enhancing Program Performance with Logic Models. The course contains two modules - Module 1, "Logic Model Basics," is an introduction to logic models; and Module 2, "Introducing The Community Nutrition Education Logic Model," is an application of logic models to community nutrition education programs. Each module has various interactive elements, including practice activities designed to help students better understand the course content. The free course is available at http://www1.uwex.edu/ces/lmcourse/. The citation is:

Taylor-Powell, E., Jones, L., & Henert, E. (2002) Enhancing Program Performance with Logic Models. Retrieved December 1, 2003, from the University of Wisconsin-Extension web site: http://www1.uwex.edu/ces/lmcourse/.

5. United Way of America (1996). Measuring Program Outcomes: A Practical Approach. This manual can be purchased for $5.00 plus S&H by calling 1-800-772-0008 and ordering item number 0989. You can find the manual's table of contents and excerpts on the United Way web site at http://national.unitedway.org/outcomes/resources/mpo/.

6. Harrell, Adele, with Burt, Martha, Hatry, Harry, Rossman, Shelli, Roth, Jeffrey, and Sabol, William (no date). Evaluation Strategies for Human Service Programs: A Guide for Policymakers and Providers. Washington, DC: The Urban Institute.

This guide focuses on developing a logic model and selecting and implementing an evaluation design. Gives an example of a logic model for a children-at-risk program. It is available at http://www.bja.evaluationwebsite.org/html/documents/evaluation_strategies.ht ml. 7. Hernandez, M. & Hodges, S. (2003). Crafting Logic Models for Systems of Care: Ideas into Action. Making children's mental health services successful series, volume 1. Tampa, FL: University of South Florida, The Louis de la Parte Florida Mental Health Institute, Department of Child & Family Studies. Available at http://cfs.fmhi.usf.edu/TREAD/CMHseries/IdeasIntoAction.html. This monograph is a guide to developing a system of care using a theory-based approach. System stakeholders can use the theory of change approach to move from ideas to action-oriented strategies to achieve their goals and understand the relationships among the populations that the system is intended to serve.

Other resources

Alter, C. & Murty, S. (1997). Logic modeling: A tool for teaching practice evaluation. Journal of Social Work Education, 33(1), 103-117. Conrad, Kendon J., & Randolph, Frances L. (1999). Creating and using logic models: Four perspectives. Alcohol-ism Treatment Quarterly, 17(1-2), 17-32.

Hernandez, Mario (2000). Using logic models and program theory to build outcome accountability. Education and Treatment of Children, 23(1), 24-41.

Julian, David A. (1997). The utilization of the logic model as a system level planning and evaluation device. Evaluation and Program Planning, 20(3), 251-257.

McLaughlin, J. A., & Jordan, G. B. (1999). Logic models: A tool for telling your program's performance story. Evaluation and Program Planning, 22(1), 65-72.

Stinchcomb, Jeanne B. (2001). Using logic modeling to focus evaluation efforts: Translating operational theories into practical measures. Journal of Offender Rehabilitation, 33(2), 47-65.

Unrau, Y.A. (2001). Using client exit interviews to illuminate outcomes in program logic models: A case example. Evaluation and Program Planning, 24(4), 353-361.

Alan

Alan Listiak, Ph.D. Coordinator of Sex Offender Program Certification Minnesota Department of Corrections 1450 Energy Park Drive St. Paul, MN 55108 651.642.0317 Alan.Listiak@state.mn.us

Evaluationsnutzung

Literaturhinweise zur Evaluationsnutzung

Mary Meyer aus Berlin hat mich freundlicherweise auf einen fehlerhaften Literaturhinweis beim Stichwort "Nutzung" im Online-Wörterbuch aufmerksam gemacht. Bei dieser Gelegenheit zitierte sie einige Literaturquellen zum Thema Nutzung, die mir nur teilweise bekannt waren, daher stelle ich die Mail von Frau Meyer mit ihrer Einwilligung hier in die Textsammlung:

 Ich beschäftige mich mit Evaluationsnutzung und habe eine Nachfrage bzw. 
 einen Hinweis bezüglich des Online-Wörterbuchs und dort zur Nutzung: meines 
 Wissens nach stammt das Buch von Alkin, Daillak und White aus dem Jahr 1979 
 (Using Evaluations. Does evaluation make a difference? Sage) und die von 
 Ihnen beschriebenen Formen bzw. Arten von Evaluationsnutzung werden in dem 
 Buch nicht beschrieben. Instrumental use wurde von u.a. von Wingens, M. 
 (1988, S. 117ff) erläutert, conceptional use (auch "englightenment" genannt) 
 von Berk und Rossi (1977), Owen (1992) und Kiessling-Naef et al. (1997), 
 symbolische Nutzung (auch "conspiratorical use" genannt) mit 
 legitimatorisch-politischen Charakter wurde von Pelz (1978) und Huberman 
 (1987) beschrieben.

 Mit freundlichen Grüßen
 M. Meyer

Der angesprochene Fehler ist inzwischen natürlich behoben, gemeint war Alkin (1985), A Guide for evaluation decision makers, nicht das frühere Buch mit Daillak und White.

Gegenstände

Was kann evaluiert werden?

Abgrenzung: Projekt, Programm, Politikbereich

Projekt

Organisatorisch vorbereitetes Vorhaben mit definierten/m

konkreten Zielen
zeitlicher und evtl. örtlicher Begrenzung
inhaltlicher Kohärenz
Umfang
Adressatenkreis

Programm

Mehrere gleichgerichtete Projekte / Maßnahmen

auf gemeinsames Ziel ausgerichtet
koordiniert umgesetzt
Zieldefinition
Instrumente
Verfahren
Organisation
Ressourcen

Politikbereich

Gesamtheit staatlicher Maßnahmen

auf Ziele einer Teilpolitik (z.B. Sozialpolitik) ausgerichtet
andere Teilpolitiken können sich gegensätzlich auswirken (Inkohärenz der Teilpolitiken)

Quelle: Foliensatz von Dr. Hendrik Faßmann, Institut für empirische Soziologie an der Friedrich-Alexander-Universität Erlangen-Nürnberg (http://www.soziologie.wiso.uni-erlangen.de/ss02/evaluation/folien1.zip)

Metaevaluation

Metavaluation ist die Evaluation einer konkreten Evaluation, also die Beurteilung von Qualität und Nutzen der Evaluation. Die möglichen Ziele einer Metavaluation sind identisch mit den allgemein möglichen Evaluationszielen: Verbesserung, Entscheidungshilfe, Kontrolle/Rechenschaftslegung und Erkenntnisgewinn.

(Metanalyse ist die Zusammenfassung der Ergebnisse mehrerer Evaluationsstudien, die im Sinne von Grundlagenforschung dazu dienen soll, Wissen hervorzubringen, das über den einzelnen Evaluationsgegenstand hinaus generalisierbar ist.)

Theoriebasierte Metaevaluation

theoriebasierte Evaluation

Evaluation

logisches Modell

Evaluationsgegenstand

Metaevaluation

Evaluationsgegenstand

Evaluation

logisches Modell

Evaluation

Methodik

Methodische Fragen

history threats

Original Message -------- Subject: history threats Date: Wed, 25 Aug 2004 13:57:31 -0400 From: Diana Silver Reply-To: American Evaluation Association Discussion List To: EVALTALK@BAMA.UA.EDU

I am looking for cases I can cite in which evaluators of a program, using a quasi-experimental design, have noted history threats in attempting to assess the impact of a given program. The case I have is of an evaluation of the Bay Area Rapid Transit System (BART) that showed that highway traffic decreased in 1974 when BART's Transbay Tunnel was opened. External events -- history-- posed a threat to their findings, because the gasoline shortage and higher gas prices due to the Arab oil embargo occured at about the same time. I'm looking for additional such examples-- can anyone help?

Literaturempfehlungen

Literaturempfehlungen zum Thema Evaluation
Dr. Jan Hense, LMU München
März 2004

Überblick und einführend

Kromrey, H. (2001). Evaluation - ein vielschichtiges Konzept. Begriff und Methodik von Evaluierung und Evaluationsforschung. Empfehlungen für die Praxis. Sozialwissenschaften und Berufspraxis, 24, 105-129.

Lee, B. (2000). Theories of Evaluation. In Stockmann, Reinhard (Hrsg.), Evaluationsforschung (S. 127-164). Opladen: Leske+Budrich.

Madaus, G. F. & Kellaghan, T. (2000). Models, metaphors and definitions in evaluation. In D. L. Stufflebeam, G. F. Madaus, & T. Kellaghan (Hrsg.), Evaluation models - viewpoints on educational and human services evaluation (S. 19-31). Boston: Kluwer.

Pekrun, R. (2000). Evaluation in der betrieblichen Weiterbildung. In C. Harteis, H. Heid & S. Kraft (Hrsg.), Kompendium Weiterbildung - Aspekte und Perspektiven betrieblicher Personal- und Organisationsentwicklung (S. 258-275). Opladen: Leske + Budrich.

Shadish,W. R., Cook, T. D. & Leviton, L. C. (1991). Foundations of program evaluation. Theories of practice. Newbury Park: SAGE.

Stufflebeam, D. L. (2001). Evaluation models. In New directions for evaluation No. 89. San Fransisco: Jossey-Bass.

Stufflebeam, D. L., Madaus G. F. & Kellaghan T. (Hrsg.) (2000). Evaluation models - viewpoints on educational and human services evaluation. Boston: Kluwer Academic Publisher Group.

Wottawa, H. (2001). Evaluation. In A. Krapp & B. Weidenmann (Hrsg.), Pädagogische Psychologie (S. 649-674). Weinheim: Beltz.

Lehrbücher

Bortz & Döring (2002). Forschungsmethoden und Evaluation für Sozialwissenschaftler (3. Aufl.). Kap. 3: Besonderheiten der Evaluationsforschung. Berlin: Springer.

Rossi, P. H., Lipsey, M. W. & Freeman, H. E. (2004). Evaluation. A systematic approach (7th ed.). Thousand Oaks: Sage.

Freeman, H., Rossi, P. H. & Sandefur, G. D. (1993). Workbook for evaluation - A systematic approach. Thousand Oaks: SAGE.

Rossi, P. H., Freeman, H. E. & Hofmann, G. (1988). Programm-Evaluation. Einführung in die Methoden angewandter Sozialforschung. Stuttgart: Ferdinand Enke. (dt. Übersetzung der 4. Aufl.)

Wottawa, H. & Thierau, H. (1998). Lehrbuch Evaluation. Bern: Huber. (nicht unumschränkt zu empfehlen, aber z. Zt. das einzige dt. Evaluations-Lehrbuch)

Geschichtlicher und sozialer Kontext

Madaus G. F. & Stufflebeam D. L. (2000). Program evaluation: A historical overview. In D. L. Stufflebeam, G. F. Madaus & T. Kellaghan (Hrsg.), Evaluation models - viewpoints on educational and human services evaluation (S. 3-18). Boston: Kluwer.

Titze, H. (2002). Die Evaluierung des Bildungswesens in historischer Sicht. Zeitschrift für Erziehungswissenschaft, 4, 552-569.

„Klassische“ Texte

Alkin, M. C. (1972). Evaluation theory development. In C. H. Weiss (Hrsg.), Evaluating action programs: reading in social action and education (S. 105-117). Boston: Allyn and Bacon.

Cronbach, L.J. (1963). Evaluation for course improvement. Teachers College Record, 64, 672-683. (dt. in Wulf, 1972)

Cronbach, L. J., Ambron, S. R., Dornbusch, S. M., Hess, R. D., Hornik, R. C., Phillips, D. C., Walker, D. F. & Weiner, S. S. (1980). Toward reform of program evaluation. San Francisco: Jossey-Bass.

Glass, G.V. (1972). Die Entwicklung einer Methodologie der Evaluation. In Ch.Wulf, Evaluation. Beschreibung und Bewertung von Unterricht, Curricula und Schulversuchen (S. 166-206). München: Piper.

Guba, E. G. (1972). The failure of educational evaluation. In C. H. Weiss (Hrsg.), Evaluating action programs: reading in social action and education (S. 250-266). Boston: Allyn and Bacon.

Kirkpatrick, D. (1959). Techniques for evaluating training programs. Part 1 - Reaction. Journal of the American Society for Training and Development, 13 (11), 3-9.

Kirkpatrick, D. (1959). Techniques for evaluating training programs. Part 2 - Learning. Journal of the American Society for Training and Development, 13 (12), 21-26.

Kirkpatrick, D. (1960). Techniques for evaluating training programs. Part 3 - Behavior. Journal of the American Society for Training and Development, 14 (1), 13-18.

Kirkpatrick, D. (1960). Techniques for evaluating training programs. Part 4 - Results. Journal of the American Society for Training and Development, 14 (2), 28-32.

Rossi, P. H. (1972). Boobytraps and pitfalls in the evaluation of social action programs. In C. H. Weiss (Hrsg.), Evaluating action programs: reading in social action and education (S. 224-235). Boston: Allyn and Bacon.

Schwarzer, R. (1975). Instrumente der empirischen Curriculumevaluation. In K. Frey (Hrsg.), Curriculum-Handbuch (S. 748-766). München: Piper.

Scriven, M. (1972). The methodology of evaluation. In C. H. Weiss (Hrsg.), Evaluating action programs: reading in social action and education (S. 123-136). Boston: Allyn and Bacon. (dt. in Wulf, 1972)

Stake, R. E. (1972). The countenance of educational evaluation. In C. H. Weiss (Hrsg.), Evaluating action programs: reading in social action and education (S. 31-51). Boston: Allyn and Bacon. (dt. in Wulf, 1972)

Stufflebeam, D. L. (1969). Evaluation as enlightenment for decision-making. In H. B. Walcott (Ed.), Improving educational assessment and an inventory of measures of affective behavior (pp. 41-73). Washington, DC: Association for Supervision and Curriculum Development and National Education Association. (dt. in Wulf, 1972)

Suchman, E. A. (1967). Evaluative research. Principles and practices in public service and social action programs. New York: Russel Sage Foundation.

Suchman, E. A. (1970). Action for what? A critique of evaluative research. In R. O'Toole (Hrsg.), The organization, management, and tactics of social research. Cambridge, Mass.: Schenkman.

Weiss, C. H. (1972). Utilization of evaluation: Toward comparative study. In C. H. Weiss (Hrsg.), Evaluating action programs: reading in social action and education (S. 318-326). Boston: Allyn and Bacon.

Wulf, C. (1975). Funktionen und Paradigmen der Evaluation. In K. Frey (Hrsg.), Curriculum-Handbuch (S. 580-600). München: Piper.

Wulf, C. (Hrsg.). (1972). Evaluation. Beschreibung und Bewertung von Unterricht, Curricula und Schulversuchen. München: Piper. (Sammlung von einigen klassischen US-Aufsätzen aus den 60er Jahren)

Trends und aktuelle Themen

Chelimsky, E. & Shadish, W. R. (Hrsg.). Evaluation for the 21st century. A handbook. Thousand Oaks: Sage.

Donaldson, S. I., Gooler, L. E. & Scriven, M. (2002). Strategies for managing evaluation anxiety: Toward a psychology of program evaluation. American Journal of Evaluation, 23, 261-273.

Lipsey, M. & Cordray, D. (2000). Evaluation Methods for Social Intervention (S. 345-373). Nashville, Tennessee:

Rossi, P. H. (1984). Professionalisierung der Evaluierungsforschung? Beobachtungen zu den Entwicklungen in den USA. In G.-M. Hellstern & H. Wollmann (Hrsg.), Handbuch zur Evaluierungsforschung (Bd. 1, S. 654-673). Opladen: Westdeutscher Verlag.

Scriven, M. (1993). Hard-won lessons in program evaluation. San Francisco: Jossey-Bass.

Sechrest, L. & Figueredo, A. J. (1993). Program Evaluation. Annual Review of Psychology, 44, 645-674.

Standards der Evaluation

Deutsche Gesellschaft für Evaluation. (2002). Standards für Evaluation. Köln: Deutsche Gesellschaft für Evaluation e. V.

ERS Standard Committee. (1982). Evaluation research society standards for program evaluation. New directions for program evaluation: Standards for evaluation practice, 15, 7-19.

Joint committee on standards for educational evaluation. (1988). The personnel evaluation standards. How to assess systems for evaluating educators. Newbury Park: Sage.

Joint committee on standards for educational evaluation. (1994). The program evaluation standards. How to assess evaluations of educational programs. Thousand Oaks: Sage.

Joint committee on standards for educational evaluation. (2003). The student evaluation standards. How to improve evaluations for students. Thousand Oaks: Corwin Press.

Stufflebeam, D. L. (2000). Professional standards and principles for evaluations. In D. L. Stufflebeam, G. F. Madaus & T. Kellaghan (Hrsg.), Evaluation models - viewpoints on educational and human services evaluation (S. 440-454). Boston: Kluwer Academic Publisher Group.

Spezielle Ansätze/Modelle

(unvollständig)

Empowerment (Fetterman)

Fetterman, D. M. (1996). Empowerment evaluation: An introduction to theory and practice. In D. M. Fetterman, S. Kaftarian & A. Wandersman (Hrsg.), Empowerment evaluation (S. 3-46). Thousand Oaks: SAGE.

Fetterman, D., Kaftarian, S. J. & Wandersman, A. (eds.). (1996). Empowerment evaluation. Knowledge and tools for self-assessment & accountability. Thousand Oaks: Sage.

4th generation / „konstruktivistisch“(Guba)

Guba, E. G. & Lincoln, Y. S. (1989). Fourth generation evaluation. London: Sage.

Nutzenzentriert (Patton)

Patton, M. Q. (1997). Utilization-focused evaluation: the new century text. Thousand Oaks: SAGE.

Patton, M. Q. (1998). Die Entdeckung des Prozeßnutzens - Erwünschtes und unerwünschtes Lernen durch Evaluation. In Heiner, M. (Hrsg.), Experimentierende Evaluation: Ansätze zur Entwicklung lernender Organisationen (S. 55-66). Weinheim, München: Juventa Verlag.

Sonstiges

Karbach, M. (2000). Anmerkungen zum Wort Evaluation. Geschwister-Scholl-Gesamtschule, Dortmund-Brackel: Verfügbar unter http://schulen.hagen.de/GSGE/ew/EvalW.html (27.2.2003).

Legge, K. (1984). Evaluating planned organizational change. London: Academic Press.

Praxis der Evaluation

Evaluation Budget (Evaltalk) - was kostet Evaluation?

Evaluatoren

Evaluationskompetenz

Program Evaluation Interview Questions (Evaltalk)

Wie identifiziert man Stakeholder?

Zitate

Was ist Evaluation? / What is evaluation?

Evaluatoren / Evaluators

Die Praxis / The practice

Die Rolle von Evaluation / The role of evaluation

Evaluationsforschung / Evaluation research

Evaluationsgegenstände / Evaluation objects

Ziele von Evaluation / Goals of evaluation

Terminologisches / Terminology

Ursprünge der Evaluation / Origins of evaluation

Methodenstreit / Dispute on methods

Nutzung von Evaluationsergebnissen

Programmtheorien und logische Modelle

Theorie der Evaluation

Domänen

Evaluierbarkeit

Einführung

Akteure einer Evaluation

Legende:

Stakeholder

Definition von Evaluation

Abgrenzung von Evaluation zu Assessment

Re: Evaluation, Assessment, and Rubrics

Etymologie von "Evaluation"

(von Manfred Karbach)

Anmerkungen zum Wort Evaluation

Geschichte der Evaluation

Historische Entwicklung der Evaluation von Bildung

Die internationale Entwicklung

Die Tylersche Phase

Die Phase der Stagnation

Die Phase der Expansion

Die Phase der Professionalisierung und Diversifizierung

Die Phase der Integration

Die bundesdeutsche Entwicklung

Reaktionen auf die Qualitätsdebatte

Veränderte Steuerungskonzepte

Bildungsstandards

Professionalisierung

Evaluation

Evaluationsmodelle

Cluster-Evaluation

Literatur

Links

Formative und summative Evaluation

Problematik des Begriffpaars

Empfehlungen zum Gebrauch von formativ und summativ

Formative/ Summative & Process/Outcome 2*2 Matrix (Evaltalk)

Ressourcen zur theory-based evaluation (Evaltalk)

Evaluationsnutzung

Literaturhinweise zur Evaluationsnutzung

Gegenstände

Abgrenzung: Projekt, Programm, Politikbereich

Projekt

Programm

Politikbereich

Metaevaluation

Theoriebasierte Metaevaluation

Methodik

history threats

Literaturempfehlungen

Überblick und einführend

Lehrbücher

Geschichtlicher und sozialer Kontext

„Klassische“ Texte

Trends und aktuelle Themen

Standards der Evaluation

Spezielle Ansätze/Modelle

Empowerment (Fetterman)

4th generation / „konstruktivistisch“(Guba)

Nutzenzentriert (Patton)

Sonstiges