Myter om mord och multipel regression

Full kredit går till http://crab.rutgers.edu/~goertzel/mythsofmurder.htm

Publicerad i The Skeptical Inquirer, Volym 26, nr 1, januari / februari 2002, s. 19-23.
Spansk översättning som “El Modelo Econometrico Como Ciencia Basura” i Psicologia Politica, nr 24 (Valencia, Spanien).

Om du vill ha en längre, mer teknisk version av denna uppsats i Word-format, klicka här.

Tror du att åtta framtida mord avskräcks varje gång en fånge avrättas i USA? Tror du att en ökning med 1% av antalet medborgare som har tillstånd att bära dolda vapen orsakar en minskning på 3,3% av statens mordprocent? Tror du att 10 till 20% av minskningen av brott på 1990-talet orsakades av en ökning av aborter på 1970-talet? Eller att mordprocenten skulle ha ökat med 250% sedan 1974 om USA inte hade byggt så många nya fängelser?

Om du blev vilseledd av någon av dessa studier kan du ha fallit för en skadlig form av skräpvetenskap: användningen av matematiska modeller utan påvisad förutsägbar förmåga att dra politiska slutsatser. Dessa studier är ytligt imponerande. De är skrivna av ansedda samhällsvetenskapsmän från prestigefyllda institutioner och visas ofta i vetenskapliga tidskrifter. Fyllda med komplicerade statistiska beräkningar ger de exakta numeriska “fakta” som kan användas som debattörers poäng i policyargument. Men dessa “fakta” är villkoren. Innan bläcket är torrt på en studie visas en annan med helt andra “fakta”. Trots sitt vetenskapliga utseende uppfyller dessa modeller inte det grundläggande kriteriet för en användbar matematisk modell: förmågan att göra förutsägelser som är bättre än slumpmässiga chanser.

Även om ekonomer är de ledande utövarna av denna konstiga konst, har sociologer, kriminologer och andra samhällsvetare också versioner av den. Det är känt under olika namn, inklusive “ekonometrisk modellering”, “strukturell ekvationsmodellering” och “väganalys.” Allt detta är sätt att använda korrelationerna mellan variabler för att göra kausala slutsatser. Problemet med detta är, som alla som har haft en kurs i statistik vet, att korrelation inte är orsakssamband. Korrelationer mellan två variabler är ofta “falska” eftersom de orsakas av någon tredje variabel. Ekonometriska modellerare försöker övervinna detta problem genom att inkludera alla relevanta variabler i sina analyser, med hjälp av en statistisk teknik som kallas “multipel regression.” Om man hade perfekta mått på alla kausala variabler, skulle detta fungera. Men uppgifterna är aldrig tillräckligt bra. Upprepade ansträngningar att använda multipel regression för att uppnå slutgiltiga svar på allmänna frågor har misslyckats.

Men många samhällsvetare är ovilliga att erkänna misslyckande. De har ägnat år åt att lära sig och undervisa om regressionsmodellering, och de fortsätter att använda regression för att framföra orsaksargument som inte är motiverade av deras data. Jag kallar dessa argument myter om multipel regression, och jag skulle vilja använda fyra studier av mordhastigheter som exempel.

Myth One: More Guns, Less Crime.

John Lott, en ekonom vid Yale University, använde en ekonometrisk modell för att hävda att “att låta medborgare att bära dolda vapen hindrar våldsbrott, utan att öka oavsiktliga dödsfall.” Lots analys involverade “ska utfärda” lagar som kräver att lokala myndigheter utfärdar ett dolt vapentillstånd till alla laglydiga medborgare som ansöker om ett. Lott uppskattade att varje procents ökning av vapenägande i en befolkning orsakar en minskning av mordprocenten med 3,3%. Lott och hans medförfattare David Mustard publicerade den första versionen av sin studie på Internet 1997 och tiotusentals människor laddade ner den. Det var föremål för policyforum, tidningskolumner och ofta ganska sofistikerade debatter på Internet. I en bok med den fängslande titeln More Guns, Less Crime, hånade Lott sina kritiker och anklagade dem för att sätta ideologi framför vetenskapen.

Lotts arbete är ett exempel på statistisk en-upmanship. Han har mer data och en mer komplex analys än någon annan som studerar ämnet. Han kräver att alla som vill utmana sina argument fördjupa sig i en mycket komplex statistisk debatt, baserad på beräkningar så svåra att de inte kan göras med vanliga stationära datorer. Han utmanar alla som inte håller med honom att ladda ner sin datamängd och göra om sina beräkningar, men de flesta samhällsvetare tycker inte att det är värt att replikera studier med metoder som upprepade gånger har misslyckats. De flesta forskare för vapenkontroll borstade helt enkelt bort Lott och Senaps påståenden och fortsatte med sitt arbete. Två högt respekterade brottsforskare, Frank Zimring och Gordon Hawkins (1997) skrev en artikel som förklarade att:

precis som herrarna Lott och senap, med en modell av determinanterna för mord, kan producera statistiska rester som tyder på att “ska utfärda” lagar som minskar mord, förväntar vi oss att en beslutsam ekonometriker kan producera en behandling av samma historiska perioder med olika modeller och motsatta effekter. Ekonometrisk modellering är ett tveeggat svärd i sin förmåga att underlätta statistiska upptäckter för att värma hjärtan hos sanna troende på alla ränder.

Zimring och Hawkins hade rätt. Inom ett år publicerade två beslutsamma ekonometriker, Dan Black och Daniel Nagin (1998), en studie som visade att om de ändrade den statistiska modellen lite eller använde den på olika segment av uppgifterna försvann Lott och Mustards resultat. Black och Nagin fann att när Florida togs bort från urvalet fanns det “ingen detekterbar inverkan av lagar om rätt att bära på mord och våldtäkt.” De drog slutsatsen att “slutsats baserad på Lott och senap-modellen är olämplig, och deras resultat kan inte användas ansvarsfullt för att formulera allmän ordning.”
John Lott bestred emellertid deras analys och fortsatte att marknadsföra sin egen. Lott hade samlat in data för vart och ett av Amerikas län för varje år från 1977 till 1992. Problemet med detta är att USA: s län varierar enormt i storlek och sociala egenskaper. Några stora, som innehåller stora städer, står för en mycket stor andel av morden i USA. När det händer har inget av dessa mycket stora län “utfärda” lagar om vapenkontroll. Detta innebär att Lotts massiva datamängd helt enkelt var olämplig för hans uppgift. Han hade ingen variation i sin viktigaste kausala variabel – “ska utfärda” lagar – på de platser där de flesta morden inträffade.

Han nämnde inte denna begränsning i sin bok eller sina artiklar. När jag upptäckte bristen på “ska utfärda” lagar i de större städerna i min egen granskning av hans data, frågade jag honom om det. Han ryckte av det och sa att han hade “kontrollerat” för befolkningsstorlek i sin analys. Men att införa en statistisk kontroll i den matematiska analysen kompenserade inte för det faktum att han helt enkelt inte hade några data för de större städerna där mordproblemet var mest akut.

Det tog lite tid att hitta detta problem i hans data, eftersom jag inte kände till pistolkontrollfrågan. Men Zimring och Hawkins nollade in det omedelbart för att de visste att “ska utfärda” lagar infördes i stater där National Rifle Association var kraftfullt, till stor del i söder, väst och på landsbygden. Dessa var stater som redan hade få restriktioner för vapen. De observerade att denna lagstiftningshistoria frustrerar “vår förmåga att jämföra trender i” ska utfärda “stater med trender i andra stater. Eftersom staterna som ändrade lagstiftning skiljer sig åt i läge och konstitution än de stater som inte gjorde det, kommer jämförelser mellan lagstiftningskategorier alltid att vara riskerar att förväxla demografiska och regionala influenser med beteendeeffekterna av olika rättsliga system. ” Zimring och Hawkins observerade vidare att:

Lott och senap är naturligtvis medvetna om detta problem. Deras lösning, en standardekonometrisk teknik, är att bygga en statistisk modell som ska kontrollera alla skillnader mellan Idaho och New York City som påverkar mord och brottslighet, förutom lagarna “ska utfärda”. Om man kan “specificera” de viktigaste påverkningarna på mord, våldtäkt, inbrott och autostöld i vår modell, kan vi eliminera påverkan av dessa faktorer på de olika trenderna. Lott och senap bygger modeller som uppskattar effekterna av demografiska uppgifter, ekonomiska uppgifter och straffrättsliga bestraffningar på olika brott. Dessa modeller är de ultimata inom statistisk hemmamatlagning genom att de skapas för denna datauppsättning av dessa författare och bara testas på de data som kommer att användas vid utvärderingen av rättigheterna att ha med sig.

Lott och senap jämförde trender i Idaho och West Virginia och Mississippi med trender i Washington, D.C. och New York City. Vad som faktiskt hände var att det förekom en explosion av sprickrelaterade mord i större östra städer på 1980-talet och början av 1990-talet. Lots hela argument kom ner till ett påstående att de i stort sett lantliga och västerländska “ska utfärda” staterna skonades av den sprickrelaterade mordepidemin på grund av deras “ska utfärda” lagar. Detta skulle aldrig ha tagits på allvar om det inte hade skymts av en labyrint av ekvationer.

Myt två: Fängelse av fler människor minskar brott

Fallet Lott och senap var exceptionellt endast i den mängd allmänhet som den fick. Det är ganska vanligt, även typiskt, att rivaliserande studier publiceras med ekonometriska metoder för att dra motsatta slutsatser om samma fråga. Ofta är det inget som bevisligen är fel med någon av analyserna. De använder helt enkelt lite olika datamängder eller olika tekniker för att uppnå olika resultat. Det verkar som om regressionsmodeller kan uppnå vilket resultat de vill utan att på något sätt bryta mot reglerna för regressionsanalys. I ett utomordentligt uppriktigt frustrationsmeddelande över detta tillstånd rapporterade två högt respekterade kriminologer, Thomas Marvell och Carlisle Moody (1997: 221), mottagandet av en studie de gjorde om fängelsets effekt på mordprocenten. De rapporterade att de:

spridit [deras] fynd, tillsammans med de data som används, till kollegor som är specialiserade på kvantitativ analys. Det vanligaste svaret är att de vägrar att tro på resultaten oavsett hur bra den statistiska analysen. Bakom detta påstående ligger tanken, som ofta diskuteras informellt men sällan publiceras, att samhällsvetare kan uppnå önskat resultat genom att manipulera de använda förfarandena. Faktum är att det stora utbudet av uppskattningar om fängelsepopulationernas inverkan anses vara ett gott bevis på forskningens smidighet. Implikationen, även bland många som regelbundet publicerar kvantitativa studier, är att resultaten, oavsett hur grundlig analysen är, är inte trovärdiga om de inte överensstämmer med tidigare förväntningar. En forskningsdisciplin kan inte lyckas inom en sådan ram.

Till sin stora förtjänst erkände Marvell och Moody uppriktigt sagt problemen med multipel regression och kom med några förslag på förbättringar. Tyvärr blir vissa ekonometriker så nedsänkta i sina modeller att de tappar koll på hur godtyckliga de är. De kommer att tro att deras modeller är mer verkliga, mer giltiga än den röriga, motstridiga, “okontrollerade” verklighet de påstår sig förklara.
Myt tre: Att avrätta människor minskar brott

1975 publicerade American Economic Review en artikel av en ledande ekonom, Isaac Ehrlich från University of Michigan, som uppskattade att varje utförande avskräckt åtta mord. Före Ehrlich var Thorsten Sellen, den mest kända specialist på dödsstraffets effektivitet, som hade använt en mycket enklare analysmetod. Sellen förberedde diagram som jämför trender i olika stater. Han fann liten eller ingen skillnad mellan stater med eller utan dödsstraff, så han drog slutsatsen att dödsstraffet inte gjorde någon skillnad. Ehrlich hävdade i en handling av statistisk en-upmanship att hans analys var mer giltig eftersom den kontrollerade för alla faktorer som påverkar mordfrekvensen.

Redan innan det publicerades citerades Ehrlichs arbete av Förenta staternas advokat i ett amicus curiae-kort som inlämnades till USA: s högsta domstol för att försvara dödsstraffet. Lyckligtvis beslutade domstolen att inte förlita sig på Ehrlichs bevis eftersom det inte hade bekräftats av andra forskare. Detta var klokt, för inom ett eller två år publicerade andra forskare lika sofistikerade ekonometriska analyser som visade att dödsstraffet inte hade någon avskräckande effekt.

Kontroversen om Ehrlichs arbete var så viktig att National Research Council sammankallade en panel med blå band av experter för att granska den. Efter en mycket grundlig granskning beslutade panelen att problemet inte bara var med Ehrlichs modell utan med tanken att använda ekonometriska metoder för att lösa kontroverser om straffrättslig politik. De (Manski, 1978: 422) drog slutsatsen att:

Eftersom de uppgifter som sannolikt kommer att finnas tillgängliga för en sådan analys har begränsningar och på grund av att kriminellt beteende kan vara så komplicerat, bör man inte förvänta sig en definitiv beteendestudie som ligger till grund för alla kontroverser om beteendeeffekterna av avskräckningspolitiken.

De flesta experter tror nu att Sellen hade rätt, att dödsstraff inte har någon påvisbar effekt på mordprocenten. Men Ehrlich har inte övertalats. Han är nu en ensam troende på giltigheten av sin modell. I en ny intervju (Bonner och Fessendren, 2000) insisterade han “om variationer som arbetslöshet, inkomstskillnad, sannolikhet för oro och villighet att använda dödsstraff beaktas visar dödsstraffet en betydande avskräckande effekt.”

Myt fyra: Legaliserad abort orsakade brottfallet på 1990-talet.

1999 släppte John Donohue och Steven Levitt en studie med en ny förklaring till den kraftiga nedgången i mordprocenten på 1990-talet. De hävdade att legaliseringen av abort från USA: s högsta domstol 1973 orsakade en minskning av födelsen av oönskade barn, av vilka ett oproportionerligt stort antal skulle ha vuxit upp till att vara brottslingar. Problemet med detta argument är att legalisering av abort var en engångshistorisk händelse och engångshändelser ger inte tillräckligt med data för en giltig regressionsanalys. Det är sant att abort legaliserades tidigare i vissa stater än andra, och Donohue och Levitt använder sig av detta faktum. Men alla dessa stater genomgick samma historiska processer, och många andra saker hände under samma historiska period som genomförde mordhastigheter. En giltig regressionsanalys skulle behöva fånga alla dessa saker och testa dem under ett stort antal variationer. De befintliga uppgifterna tillåter inte det, så resultaten av en regressionsanalys kommer att variera beroende på vilken data som väljs för analys.

I det här fallet valde Donohue och Levitt att fokusera på förändring över en tolvårsperiod och ignorerade fluktuationer inom dessa år. Genom att göra detta, som James Fox (2000: 303) påpekade, “missade de de flesta förskjutningarna i brott under denna period – den uppåtgående trenden under slutet av 1980-talets spricka och den nedåtgående korrigeringen under efter-sprickåren. Detta är något som att studera effekterna av månfaser på havets tidvatten men bara registrera data under perioder med lågvatten. “

När jag skrev den här artikeln inkluderade jag en mening om att “snart kommer en annan regressionsanalytiker troligen att analysera samma data och komma till andra slutsatser.” Några dagar senare gav min fru mig en tidningsberättelse om just en sådan studie. Författaren var ingen ringare än John Lott från Yale, tillsammans med John Whitley från University of Adelaide. De krossade samma antal och drog slutsatsen att “legalisering av abort ökade mordprocenten med cirka 0,5 till 7 procent” (Lott och Whitely, 2001).

Varför så markant olika resultat? Varje uppsättning författare valde helt enkelt ett annat sätt att modellera en otillräcklig mängd data. Ekonometri kan inte göra en giltig allmän lag av det historiska faktum att abort legaliserades på 1970-talet och brottsligheten minskade på 1990-talet. Vi skulle behöva minst några dussin sådana historiska erfarenheter för ett giltigt statistiskt test.

Slutsatser.

Syraprovet vid statistisk modellering är förutsägelse. Förutsägelse behöver inte vara perfekt. Om en modell kan förutsäga betydligt bättre än slumpmässig gissning är det användbart. Till exempel, om en modell skulle kunna förutsäga aktiekurser ännu lite bättre än slumpmässigt gissning, skulle det göra sina ägare mycket rika. Så mycket ansträngning har gjorts för att testa och utvärdera modeller av aktiekurser. Tyvärr utsätter forskare som använder ekonometriska tekniker för att utvärdera socialpolitiken mycket sällan sina modeller för prediktiva tester. Deras ursäkt är att det tar för lång tid innan resultaten är kända. Du får inte nya uppgifter om fattigdom, abort eller mord varannan minut som du gör med aktiekurser. Men forskare kan göra prediktiv testning på andra sätt. De kan utveckla en modell med hjälp av data från en jurisdiktion eller tidsperiod och sedan använda den för att förutsäga data från andra tider eller platser. Men de flesta forskare gör helt enkelt inte detta, eller om de gör det misslyckas modellerna och resultaten publiceras aldrig.

Tidskrifterna som publicerar ekonometriska studier av allmänna policyfrågor kräver ofta inte prediktiv testning, vilket visar att redaktörerna och granskarna har låga förväntningar på sina områden. Så forskare tar data under en bestämd tidsperiod och fortsätter att finjustera och justera sin modell tills de kan “förklara” trender som redan har hänt. Det finns alltid ett antal sätt att göra detta, och med moderna datorer är det inte särskilt svårt att fortsätta försöka tills du hittar något som passar. Vid den tiden stannar forskaren, skriver upp resultaten och skickar papperet för publicering. Senare kan en annan forskare justera modellen för att få ett annat resultat. Detta fyller sidorna i vetenskapliga tidskrifter, och alla låtsas att de inte märker att små eller inga framsteg görs. Men vi är inte närmare en giltig ekonometrisk modell för mord i dag än när Isaac Ehrlich publicerade den första modellen 1975.

Vetenskapssamhället har inte bra förfaranden för att erkänna misslyckandet med en mycket använd forskningsmetod. Metoder som är förankrade i doktorandprogram vid ledande universitet och publiceras i prestigefyllda tidskrifter tenderar att förbli. Många lekmän antar att om en studie har publicerats i en peer reviewed journal är den giltig. De fall vi har granskat visar att så inte alltid är fallet. Peer review säkerställer att etablerade metoder har följts, men det är till liten hjälp när dessa metoder är felaktiga.

1991 skakade David Freedman, en framstående sociolog vid University of California i Berkeley och författare till läroböcker om kvantitativa forskningsmetoder, grunden för regressionsmodellering när han uppriktigt sagt “Jag tror inte att regression kan bära mycket av bördan i ett kausalt argument. Inte heller ger regressionsekvationer i sig mycket hjälp med att kontrollera förvirrande variabler “(Freedman, 1991: 292). Freedmans artikel väckte ett antal starka reaktioner. Richard Berk (1991: 315) konstaterade att Freedmans argument “kommer att vara mycket svårt för de flesta kvantitativa sociologer att acceptera. Det går in i hjärtat av deras empiriska företag och därmed sätter hela professionella karriärer i fara.”

Inför kritiker som vill ha bevis på att de kan förutsäga trender, faller regressionsmodeller ofta tillbaka på statistisk en-upmanship. De gör argument så komplexa att endast andra högutbildade regressionsanalytiker kan förstå, än mindre motbevisa dem. Ofta fungerar denna teknik. Potentiella kritiker ger helt enkelt upp i frustration. Philadelphia-förfrågaren David Boldt (1999), efter att ha hört John Lott tala om dolda vapen och mord, och kontrollerat med andra experter, beklagade att “att försöka reda ut de akademiska argumenten är nästan ett dåligt ärende. -statistik, dummyvariabler och ‘Poisson’ kontra ‘minsta kvadrater’ dataanalysmetoder. “

Boldt hade rätt i att misstänka att han lockades in i en dårens uppdrag. Det finns faktiskt inga viktiga resultat inom sociologi eller kriminologi som inte kan kommuniceras till journalister och beslutsfattare som saknar examen i ekonometri. Det är dags att erkänna att kejsaren inte har några kläder. När de presenteras med en ekonometrisk modell bör konsumenterna insistera på bevis för att de kan förutsäga trender i andra uppgifter än de data som används för att skapa den. Modeller som misslyckas med detta test är skräpvetenskap, oavsett hur komplex analysen är.

REFERENSER

Berk, Richard.A. 1991. Toward a methodology for mere mortals,” Sociological Methodology21: 315-324.
Boldt, David. 1999. “Study evidence on guns,” Philadelphia Inquirer, December 14. Downloaded on May17, 2000 from: http://www.phillynews.com/inquirer/99/Dec/14/opinion/BOLDT14.htm.
Black, Dan. and Daniel Nagin 1998. Do right-to-carry laws deter violent crime? Journal of Legal Studies 27: 209-219.
Bonner, Raymond and Ford Fessendren. 2000. States with no death penalty share lower homicide rates,” New York Times, September 22. Downloaded from: http://www.nytimes.com/2000/09/22/national/22DEAT.html.
Donohue, John and Steven Levitt. 1999. Legalized Abortion and Crime. Stanford University Law School. Downloaded in August, 2000 from: http://papers.ssrn.com/paper.taf?ABSTRACT_ID=174508.
Fox, James. 2000. Demographics and U.S. homicide, In A. Blumstein and J. Wallman (eds.), The Crime Drop in AmericaCambridge University Press, New York, pp. 288-317.
Freedman, David 1991. Statistical models and shoe leather. Sociological Methodology 21: 291-313.
Lott, John. 2000. More Guns, Less Crime: Understanding Crime and Gun Control LawsUniversity of Chicago Press, second edition with additional analyses.
Lott, John. and John Whitley. 2001. Abortion and crime: Unwanted children and out-of-wedlock births,” Yale Law & Economics Research Paper No. 254. Downloaded on July 9, 2001 from: http://papers.ssrn.com/sol3/papers.cfm?abstract_id=270126.
Marvell, Thomas and Carlisle Moody, C. 1997. The impact of prison growth on homicide. Homicide Studies1: 205-233.
Zimring, Frank and Gordon Hawkins. 1997. Concealed handguns: the counterfeit deterrent, The Responsive Community7: 46-60.