Een model om wetenschapsfraude onmogelijk te maken: Datavergaring en analyse in de big science

In de eerder genoemde uitzending van Pauw en Witteman werd Robert Dijkstra de vraag gesteld hoe controle van wetenschappers was opgezet. Dijkgraaf verwees naar ‘de buurman,’ de collega-wetenschapper die, door scherpe vragen, inzicht en goed opletten, eventuele fraudeurs moet identificeren en daarmee de wetenschap zuiver houdt.

Ik begrijp dat niet. De ‘informele discussie met de slimme buurman over een kop koffie’ is ongetwijfeld onmisbaar in de ontwikkeling van goede wetenschap, maar het is geen instrument voor fraudebestrijding. De recente fraudegevallen zijn er in ieder geval niet mee voorkomen.

Veel excellente wetenschappers zijn niet gewend om na te denken over hun processen en de kwaliteitsbewaking daarvan. Ze werken in erg kleine teams (~ 5 tot 8 personen), met hele goede collega’s. Hierdoor blijven de processen zo overzichtelijk dat ze niet geformaliseerd hoeven te worden. Ook zijn bijna alle wetenschappers verantwoordelijk voor het gehele wetenschappelijke proces van hun onderzoek. Ze definiëren het onderzoek in termen van de precieze vraagstelling, het vergaren en analyseren van data, het formuleren van de conclusies. Aan het einde van de keten schrijven ze een artikel over hun bevindingen. Wetenschappers zoeken inderdaad in dit proces vaak en uitvoerig de discussie met hun collega’s. Maar fraudeurs kunnen heel gemakkelijk hun data afschermen voor collega’s.

Als het artikel is geschreven, komen de referees in het spel. Zij zien alleen de tekst en de verwerkte data, en kunnen dan alleen nog maar bepalen of de data de conclusies ondersteunen, of de bijdrage origineel is en of de resultaten belangrijk genoeg zijn voor publicatie in het gekozen tijdschrift. Juist artikelen waar wetenschapsfraude in het spel is, zullen aan alle criteria voldoen.

Maar het kan anders.

In de big science is procesbewaking van de hele wetenschapsketen normaal. De motivatie daarvoor is om op een zo efficiënt mogelijke manier de enorme resources in te zetten, en snel en effectief om te gaan met de enorme hoeveelheden data die tijdens een experiment worden geproduceerd. Tevens is het vaak van belang om de samenwerking in de grote teams met meer dan 40 personen, afkomstig uit verschillende landen, en van verschillende instituten te structureren.

Ik neem hier als voorbeeld JET, de kernfusie reactor bij Culham in de UK, gewoon omdat ik JET heel goed ken. Maar kwaliteitsbewakingssystemen bestaan op alle big science sites. In de huidige opzet heeft JET 2 taskforces van ongeveer 40 tot 60 senior wetenschappers uit alle EU landen en Zwitserland.

De definitie van het programma (de selectie van de experimenten voor het komende jaar) is altijd een stevige strijd. De schottijd is beperkt en typisch is er een overschrijving van een factor drie. Het grote aanbod wordt in een open debat in taskforces teruggebracht tot een uitvoerbaar programma van de beste experimentele voorstellen. Hierbij wordt voornamelijk gekeken naar wetenschappelijke relevantie. Tijdens deze eliminatieronde worden ook scientific coördinators aangewezen. Zij gaan het hele proces leiden, en zijn verantwoordelijk voor het uiteindelijke artikel. Vaak worden er door verschillende wetenschappers vergelijkbare voorstellen ingediend, maar uiteindelijk wordt er maar een scientific coördinator aangewezen.

Als het programma draait wordt per week in de taskforces bepaald welke experimenten uitgevoerd gaan worden. Technische realiseerbaarheid (de beschikbaarheid van de experimentele systemen) bepaalt dan de discussie. Aan het einde van de discussie is voor het hele team duidelijk wat de wetenschappelijke vraag is, welke methode gevolgd gaat worden, welke systemen vereist zijn, bij welke performance, wat de eventuele ontwikkelingseisen zijn, en wie in het experimentele team zitten.

Het key-team bestaat uit 4 personen. De scientific coördinator (SC) is verantwoordelijk voor de definitie van het programma. De diagnostic coördinator (DC) is verantwoordelijk voor de beschikbaarheid van alle meetsystemen. Hij stuurt typisch 8 tot 15 speciaisten aan die verantwoordelijk zijn voor de meetsystemen. De engineer in charge (EIC) is verantwoordelijk voor de veiligheid van alle werknemers op de plant, en de integriteit van de machine. De sessieleider bereidt de pulsen voor, en geeft deze af aan de EIC.

Dan wordt het experiment uitgevoerd, en wordt data vergaard en geanalyseerd. Op JET wordt een onderscheid gemaakt tussen de automatisch uitgevoerde inter-shot analyses, en de door specialisten uitgevoerde analyses. We beginnen met de inter-shot analyse.

Aan de tokamak JET hangen ongeveer 60 meetsystemen. Voor ieder meetsysteem is een verantwoordelijke fysicus (de responsible officer RO). De RO staat garant voor de kwaliteit van de data en de calibratie daarvan. Hij ziet er op toe dat de data worden genomen op de best mogelijk manier, en zal tijdens het experiment de SL informeren als de kwaliteit van de data niet goed is. De SL moet dan de condities verbeteren.

De ruwe data worden automatisch geanalyseerd door 85 centraal beheerde codes. De ruwe data inclusief calibraties worden gearchiveerd (jet pulse file, jpf). De output van het proces zijn data (processed pulse files, ppf) die fysische grootheden representeren. Dit hele proces wordt door ‘Chain1’ automatisch tussen twee schoten uitgevoerd. De snelheid waarmee chain1 werkt bepaalt soms het aantal schoten dat tijdens een experiment kan worden gehaald.

Het grote aantal meetsystemen leidt onvermijdelijk tot redundantie. Zo zijn er verschillende methoden om de electronentemperatuur en de electronendichtheid te bepalen. Deze moeten onderling natuurlijk consistent zijn. Maar daar houdt het niet op: samen moeten ze ook weer consistent zijn met drukmetingen die met magnetische systemen worden uitgevoerd (u leest het goed). Met andere woorden, er wordt een consistent beeld opgebouwd dat gebaseerd is op metingen van verschillende meetsystemen die door verschillende fysici worden bedreven. Chain1 controleert de interne consistentie van de meetsystemen, en waarschuwt bij onverwacht grote afwijkingen.

In de simultane analyse van data van 60 systemen, met 85 codes ontstaan onvermijdelijk afhankelijkheden. Deze zijn met behulp van een kritische pad methode geanalyseerd, en geformaliseerd in de chain1 code. Mocht een beheerder van een meetsysteem retrospectief de calibratie veranderen, dat houdt chain1 de afhankelijkheden bij, en worden de analyses opnieuw gedaan, met een nieuw volgnummer. De oude analyses worden gearchiveerd. Alle fysici worden van een dergelijke retrospectieve analyse op de hoogte gesteld. Zij zijn verplicht om altijd de nieuwste data te gebruiken.

Daarna is er de post-experiment analyse. Voor de analyse van bijvoorbeeld transport, turbulentie, magnetohydrodynamische stabiliteit, wave propagation, koppeling van de neutrale bundels, of plasma-wand interactie zijn er specialisten on-site. Deze kunnen gebruik maken van centraal beheerde codes voor hun analyse. De outputs van deze analyses worden ook opgeslagen als ppf, en zijn voor iedereen toegankelijk. Iedereen mag deze analyses gebruiken.

Na de experimenten worden de uitkomsten van de experimenten in de taskforces besproken. De SC geeft de uiteindelijke pulslijst met motivatie (in 70623 was de ECE niet goed, in 70624 hebben we daarom het magneetveld gevarieerd, omdat we daarmee betere ECE data kregen), en toont de belangrijkste resultaten, en voorlopige conclusies.

Dan schrijft de SC een artikel. Dit artikel moet hij op een ‘pinboard’ plaatsen. Het pinboard een file-beheersprogramma waarmee het complexe, en iteratieve proces van het schrijven van een artikel voor iedereen transparant wordt gemaakt. Iedereen die experimenten doet op JET kan zien dat er een artikel op het pinboard is geplaatst, en kan reageren. Iedere diagnostic RO kan (en moet) controleren dat de laatste datafiles zijn gebruikt voor de analyse, en of de data wel correct zijn geïnterpreteerd. De co-auteurschappen worden tegen het licht gehouden. Modelrekenaars, diagnostische ROs en de SL geven door hun co-auteurschap aan dat het artikel naar best practice geschreven is, en dat de data en het experiment op het beste niveau beschreven worden. Minimaal 2 taskforce leaders moeten hun akkoord geven. Daarna gaat artikel voor final approval naar de JET directeur zelf.

Als conclusie: in de big science is voor efficientievergroting het hele proces van vraagstelling-methode-datavergaring-dataanalyse-conclusies-publicatie geformaliseerd en geprofessionaliseerd. Daartoe is het proces opengeknipt en zijn formele beslismomenten  ingevoerd. Stakeholders uit verschillende teams, met verschillende goed gedefinieerde verantwoordelijkheden in het proces worden aangewezen. Er zijn openbare briefings, en de-briefings. Ook het publicatieproces is transparant, en kent twee formele stappen voordat een artikel gesubmit kan worden.

Wetenschapsfraude wordt heel erg moeilijk in een dergelijk systeem. De grap is dat Dijkgraaf er niet ver van af zat. Door het proces te bewaken is de discussie met de buurman is geformaliseerd.

Ik zal in een volgend artikel beschrijven hoe dit model vertaald kan worden naar de small sciences, en in het bijzonder de social sciences.

Advertenties

Over Marco de Baar

http://de.linkedin.com/pub/marco-de-baar/5/141/b33
Dit bericht werd geplaatst in Hall of fame, Hall of shame en getagged met . Maak dit favoriet permalink.

14 reacties op Een model om wetenschapsfraude onmogelijk te maken: Datavergaring en analyse in de big science

  1. M. Clean zegt:

    Beste Marco,

    Naar aanleiding van je laatste zin: ik ben zeer benieuwd naar je blogpost over de vertaling naar ‘small sciences’. Hopelijk komt deze nog?

    Met vriendelijke groet.

    • die komt zeker, maar ik ben ‘overwhelmed’ met het eigenlijke werk. Hoe vond je de beschrijvinbg van het proces op JET? Spreekt dat aan? Of denk je juist dat het een enorme overhead procuceert? Let me know. Ben je zelf als wetenschapper actief. Zo ja in welk vak?

      Groet!

  2. Pingback: “There are some experiments that everyone knows don’t replicate, but this knowledge doesn’t get into the literature,” | activescience

  3. M. Clean zegt:

    Geen wetenschapper, maar werkzaam in de wetenschapsfinanciering…

    Voor Big Science snap ik de noodzakelijkheid om zulke strenge randvoorwaarden voor te schrijven. Big Science kan het zich denk ik echter veel meer veroorloven om een hogere overhead (of eigenlijk: een lagere productiviteit, want het zijn wel wetenschappers die deze bureaucratische minder productieve taken uitvoeren) te hebben, daarom was ik zo benieuwd naar de vertaling.
    Verder denk ik dat het onderzoeksproces in Big Science op zichzelf meer gestandaardiseerd verloopt waardoor het makkelijker is voorspellingen te doen.

    • Hi! Interessant. Ik ben voor je bezig. Na je verzoek (ik ben altijd verbaasd dat iemand dit blog ueberhaupt leest) heb ik besloten om de vertaling grondig te doen, en heb ik contact gezocht met een sociale wetenschapper van de Universiteit Tilburg. Mijn hoop is om de ‘vertaling’ met hem te doen. Dat is toch waardevoller dan wanneer ik dat eenzijdig doe. Ik beloof tekst!

    • Hi! Ik heb feed-back van de methode-en-technieken specialist. Vanavond schrijf ik een draft. Hoop voor het einde van de week een tekst te plaatsen. Stuur je een bericht als het zover is.
      Groet,
      Marco

      • M. Clean zegt:

        Zeer interessant. En ik vroeg me al af wie je had gevraagd en had stiekem al op JW gegokt 😉

        Overigens zijn er behoorlijk wat psychologen die (grote) delen van de genoemde aanbevelingen reeds in de praktijk brengen, bijvoorbeeld Eveline Crone met haar Brain & Development Lab in Leiden. Ook in de sociale psychologie zijn wel positieve uitzonderingen, bijvoorbeeld Ap Dijksterhuis met zijn Unconscious Lab in Nijmegen.

        Ik denk echter wel dat jullie gelijk hebben dat de psychologiebeoefening wereldwijd nog een professionaliseringsslag behoeft, waardoor er in ieder geval een minimumniveau ontstaat.

        ps. M. Clean = SF = Scientific Fraud. Sorry, ik verdrink af en toe in mijn eigen pseudoniemen…

      • Hi M Clean = Scientific Fraud! Fijn dat het interessant is en dat het deels al in de praktijk wordt gebracht. Vanwaar de pseudoniemen?

  4. Casper zegt:

    Las een link in een reactie op de Mainzer Beobachter. Intrigerend artikel. Ik ben absoluut geen wetenschapper wel economisch onderlegd. Krijg de indruk dat beschreven voorbeeld een voorbeeld is van op effectieve wijze omgaan met schaarse middelen. Oftewel competitie brengt ons verder (hm). Vanwege de big van big science valt de overhead relatief mee, je kan je het e.e.a. veroorloven op deze schaal. In small science lijkt het allemaal meer op het individu gericht. Met hooguit als economische vraag heeft u nog wat geld voor mijn hoogst individuele onderzoek. Dijkgraaf heeft toch veel meer en big science achtige achtergrond?

  5. M. Clean zegt:

    Pseudoniemen zijn omdat ik graag vrijblijvend uitspraken wil doen los van mijn professionele of privé achtergrond.
    Overigens ken ik je op geen van beider vlakken irl…

  6. Got you! We bent van harte welkom om te blijven vragen en prikken.

Geef een reactie

Vul je gegevens in of klik op een icoon om in te loggen.

WordPress.com logo

Je reageert onder je WordPress.com account. Log uit / Bijwerken )

Twitter-afbeelding

Je reageert onder je Twitter account. Log uit / Bijwerken )

Facebook foto

Je reageert onder je Facebook account. Log uit / Bijwerken )

Google+ photo

Je reageert onder je Google+ account. Log uit / Bijwerken )

Verbinden met %s