Model voor datavergaring en data-analyse in de social sciences

Door Marco de Baar en Jelte Wicherts

In een eerdere post werd beschreven hoe in de big science, uit overwegingen van efficiëntievergroting, het hele wetenschappelijke proces (vraagstelling – methode – datavergaring – data-analyse – conclusies – publicatie) is geformaliseerd en geprofessionaliseerd. Zo’n systeem vergroot niet alleen de efficiëntie, maar maakt ook wetenschapsfraude zo goed als onmogelijk.

De kern van het systeem was dat het hele wetenschappelijke proces is ‘opengeknipt’ en dat er formele beslismomenten zijn ingevoerd. Iedere stap heeft -dus- een eigen kwaliteitsbewaking. Stakeholders uit verschillende teams, met verschillende, duidelijk gedefinieerde, procesbewakingsverantwoordelijkheden worden aangewezen. Openbare briefings en de-briefings worden georganiseerd. Door middel van een elektronisch pinboard is het publicatieproces volledig transparant gemaakt.

Vergelijkbare systemen zijn ook te realiseren in andere disciplines. Hieronder wordt een idee gegeven hoe zo’n systeem geimplementeerd zou kunnen werken in de empirische sociale wetenschappen. Bij een faculteit voor sociale wetenschappen zouden, naast de traditionele vakgroepen, twee nieuwe entiteiten in het leven geroepen moeten worden: de datavergaring unit en de data-analyse unit.

De traditionele vakgroepen definiëren hun onderzoeksvraag, en werken hun methode uit om deze vraag te beantwoorden. De hypothesen worden nu geformuleerd, alsmede de testen daarvoor. Tevens wordt een plan van aanpak voor de analyse geschreven. Hiermee wordt voorkomen dat de onderzoekers het analyseplan naar hun hand zetten of hypotheses achteraf formuleren. In discussie met de andere vakgroepen wordt bepaald welke onderzoeksvragen ver genoeg zijn uitgewerkt om uit te zetten. Als een onderzoek volwassen wordt bevonden, worden bedachte de testen, metingen, enquetes gegeven aan de datavergaring unit. Deze voert het onderzoekt daadwerkelijk uit, en vergaart de experimentele gegevens.

Nadat de data is vergaard worden de onverwerkte “ruwe” gegevens centraal gearchiveerd. Pas na de archivering op een centrale, afgeschermde, server van de universiteit is de data beschikbaar voor de onderzoekers. Alle verzamelde gegevens worden geregistreerd.

Onderzoekers mogen nu met de data aan de slag. De software die daarvoor wordt gebruikt archiveert de bewerkingen en de syntax. Hierdoor is de verwerking goed gedocumenteerd. Bijvoorbeeld het voor de sociale wetenschappen ontwikkelde en veel gebruikte statistische programma SPSS heeft hiervoor een optie (dat kan overigens ook in andere programma’s).

Iedere modificatie van de syntax die op de data wordt losgelaten, wordt opgeslagen met een nieuw volgnummer. Het zou goed zijn als de onderzoeker zijn codes documenteert, en dat deze comments ook gearchiveerd worden. De uiteindelijke versie van de analysesoftware kan de in het artikel gerapporteerde resultaten repliceren.

De data-analyse unit kan meta-tests op de data uitvoeren om de interne consistentie van te valideren. Gedacht kan daarbij worden aan tests  zoals de  Cronbachs alfa test (om een recent belangrijk voorbeeld te geven), of de net toegepaste test van Simonsohn. Ook kan de data-analyse unit op verzoek van de wetenschappers controles uit te voeren op de testen die door de wetenschappers zijn gedaan, of zelfs de gehele statistische analyse voor de wetenschapper doen.

Het is belangrijk om hier op te merken dat statistische analyses zeer gevoelig zijn, en daardoor moeilijk. Standaardisatie van de tests en de documentatie daarvan maakt dat het uiteindelijke bestand begrijpelijk is, een eis voor een eventuele verificatie door onafhankelijke wetenschappers na de publicatie.

Na analyse worden de bevindingen gerapporteerd in een artikel. Het is belangrijk dat aan het register een test wordt gekoppeld om zeker te stellen dat er van elke studie een rapportage komt, zodat de positive result publication bias beëindigd of op zijn minst verminderd zal worden.

Voordat het artikel wordt ingezonden verschijnt het op een intern publicatie pinboard. Waar mogelijk (i.v.m. Privacy) worden de data en de uiteindelijk software op het pinboard geplaatst. Interne peer reviewing kan worden georganiseerd, en in het bijzonder de dataverwerving unit en de data-analyse unit kunnen op dit moment formeel aangeven dat het werk volgens best practice is uitgevoerd, en dat testing achteraf mogelijk is.

Het artikel kan nu ingestuurd worden naar een Journal. Indien mogelijk, zouden de data en de analyse programma’s mee gepubliceerd kunnen worden.

Aangezien veel onderzoek in de sociale wetenschappen kleinschalig is, mag de procedure niet zwaar worden. Aangezien het aantal taken per publicatie is niet veel groter is dan voorheen, zou de overhead van een dergelijk systeem laag moeten (kunnen) zijn. De kern zit niet in de taken, maar in het scheiden van de verantwoordelijkheden en de formele beslismomenten.

Advertenties

Over Marco de Baar

http://de.linkedin.com/pub/marco-de-baar/5/141/b33
Dit bericht werd geplaatst in Hall of fame en getagged met . Maak dit favoriet permalink.

7 reacties op Model voor datavergaring en data-analyse in de social sciences

  1. asdf zegt:

    Alhoewel dit good practice is, is het de vraag is of dit bewuste wetenschapsfraude voorkomt. Er kan immers nog altijd met bijv. de ruwe data, meetapparatuur geknoeid worden.

    In hoeverre is het wetenschappelijke proces geformaliseerd in de Natuurkunde als je inzoomt op details, gebruikte software etc.? Is Natuurkunde een formele wetenschap? Enkel mathematische, theoretische natuurkunde wellicht.

    Sociaal onderzoek is altijd in grote mate afhankelijk van subjectieve interpretatie, bijv. voor het onderzoek van hoogleraar Smeesters dat uitwees dat een bedrijf beter kan adverteren met niet al te dunne fotomodellen, zelfs als de “formele” procedures van publicatie gevolgd zijn.

    • Dank voor je reactie asdf!

      De fraudegevallen die recent langskwamen roepen het beeld op van wetenschappers die in hun kamertjes master of the data zijn. Dat moet doorbroken worden.
      Garanties kan ik niet geven, maar er is geen belang voor de datavergaarders om met de data te prutsen. Het is immers het onderzoek van de vakgroepen. Ik hoop een dergelijk systeem het de Smeesters te moeilijk maakt om too far fetched conclusies te trekken.

      In de big science zijn idd ook veel van de codes geformaliseerd. Deze post is een light variant van een eerdere bijdrage over kwaliteits bewaking in de big science. Hier beschrijf ik ondermeer hoe de codes, en hun afhakelijkheden worden gemanaged op JET.

  2. Pingback: Universiteiten beginnen met centrale data-opslag | activescience

  3. asdf zegt:

    Ik ben het met je voorstel eens, en verwacht dat hoe meer van dit soort “schandalen” er bekend worden, (hoe kritischer studenten en collega’s naar elkaars data gaan kijken en) hoe eerder er maatregelen in de trend van uw voorstel gemaakt zullen worden.

    • Dank voor de reactie, asdf.

      Kritiek en openheid is een voorwaarde voor een gezond wetenschappelijk bedrijf. Afschermen is ongezond. We zullen zien hoe dergelijke systemen geimplementeerd gaan worden. Fijne dag!

  4. Ja, dat zou kunnen werken; een reeks mogelijkheden tot fraude sorteer je zo weg. Ik vrees alleen dat in de sociale wetenschappen (en de geesteswetenschappen) de eigenlijke manipulatie zit in de wijze waarop je an sich betrouwbare cijfers interpreteert. Daar zijn modellen voor, maar hoe bewaak je de toepassing daarvan? Ik weet het zo snel niet.

    • Hi! 100% garanderen kun je niets. Maar van vergaande transparantie en de zekerheid dat ‘key results’ tegen het licht gehouden zullen worden, moet toch een afschrikkende werking uitgaan lijkt me.

Geef een reactie

Vul je gegevens in of klik op een icoon om in te loggen.

WordPress.com logo

Je reageert onder je WordPress.com account. Log uit / Bijwerken )

Twitter-afbeelding

Je reageert onder je Twitter account. Log uit / Bijwerken )

Facebook foto

Je reageert onder je Facebook account. Log uit / Bijwerken )

Google+ photo

Je reageert onder je Google+ account. Log uit / Bijwerken )

Verbinden met %s