artikel

Arbo-onderzoek langs de meetlat

Wetgeving

In dergelijke onderzoeken wordt slechts een beperkte steekproef genomen; niet alle mensen worden met het onderzoek belast en het is goedkoper.

 

Als je een steekproef slim samenstelt, kun je met een bepaalde zekerheid aangeven of datgene wat voor die steekproef wordt gevonden, geldt voor alle mensen waarvoor het onderzoek van toepassing is (een statisticus noemt dat laatste een populatie).

 

Die mate van zekerheid drukken statistici doorgaans in getallen uit. Zij geven dan de uitkomst (bijvoorbeeld 70 procent), voorzien van extra informatie. Die uitkomst bestaat uit twee onderdelen. Het eerste is een onder- en bovengrens (bijvoorbeeld 60 procent en 80 procent) en het tweede onderdeel is een percentage waarvoor tussen die grenzen de gevonden uitkomst geldt (bijvoorbeeld 95 procent). Stel dat men in een steekproef vindt dat 70 procent tevreden is met het werk, dan kan dat getal met 95 procent zekerheid evengoed in de populatie 60 procent of 80 procent zijn. Dat betekent dat de mate waarin een uitkomst van een steekproefonderzoek ook voor de populatie geldig is, met een fikse marge is omgeven.

 

Het is een goed gebruik deze onzekerheidsmarge in een rapport te vermelden. In geen van de genoemde onderzoeken zijn de marge en het percentage genoemd. En dat al geeft ons ernstig te denken.

 

In tegenstelling tot wat veel mensen denken, wordt de kwaliteit van een steekproef niet zozeer bepaald door zijn grootte, maar door zijn samenstelling. Wil je iets zinnigs over de populatie zeggen, dan moet de samenstelling van een steekproef gelijk zijn aan de samenstelling van de populatie. Een statisticus noemt die gelijkheid representativiteit.

 

Hoe meer interne verschillen zich voordoen in een populatie, hoe groter de steekproef zal moeten zijn om die verschillen te kunnen terugvinden. Het is hier als met het voorproeven van een soep: bij een soep met weinig ingredienten volstaat soms een enkele lepel, maar bij een soep met veel ingredienten (zoals erwtensoep) zul je meerdere keren een lepel moeten nemen. Voor steekproeven geldt verder net als met het proeven van soep, dat hoe zekerder je wilt zijn van je resultaat, hoe groter de steekproef zal moeten zijn.

 

Kortom, de theorie over steekproeven zegt dat de grootte van een representatieve steekproef afhangt van de samenstelling ervan alsmede van de nagestreefde zekerheid. Hoezeer die eisen gerealiseerd kunnen worden, hangt uiteraard weer af van praktische factoren als tijd en geld. In hoeverre vinden we deze overwegingen terug in onze onderzoeken?

 

Het onderzoek over de ‘Lage Risico’s’ meldt dat een op de vijf werknemers regelmatig langer dan twee uur moet staan tijdens het werk en dat een op de vier vaak te maken heeft met een onprettig binnenklimaat. Uiteindelijk deed 93 procent van de benaderde mensen mee, dus het onderzoek lijkt op het eerste gezicht betrouwbaar.

 

Helaas geven de onderzoekers niet aan in hoeverre hun resultaat representatief is. Ze verwijzen alleen naar een onduidelijke trekking uit een bestaand adressenbestand. Het grote nadeel hiervan is dat de steekproef er heel anders uit kan zien dan de populatie. Het is bijvoorbeeld mogelijk dat de helft van het aantal respondenten in een winkel werkt, terwijl de Nederlandse beroepsbevoling slechts voor een klein deel uit winkelmedewerkers bestaat. Als je vervolgens bedenkt dat deze werknemers veel meer moeten staan dan gemiddeld, is het duidelijk dat hier vertekening kan optreden.

 

De studie naar ‘Werkplek Babyproof’ concludeert dat 30 procent van de medewerkers niet weet of in de eigen bedrijfstak wordt gewerkt met stoffen die schadelijk zijn voor voortplanting of zwangerschap. De selectie van de ondervraagden heeft hier terecht geen enkele pretentie. De onderzoekers deelden onder schilders een groot aantal vragenlijsten uit zonder enige controle op binnenkomst. Ook de teruggestuurde schriftelijke vragenlijsten bij de andere beroepsgroepen (metaal, chemie en meubel/ hout) geven geen enkel inzicht in het beeld van de populatie.

 

De schrijvers zeggen het eerlijk: ‘Over de respons kan niets worden gezegd.’ Waarschijnlijk is dat mensen met klachten meer hebben gereageerd dan anderen. De onderzoekers hebben ook niet de moeite genomen om de binnengekomen gegevens te vergelijken met bestaande administratieve gegevens. Wat is dan nog de waarde van een dergelijke studie?

 

Hier komt nog eens bij dat de vragen in een onbegrijpelijke ambtenarentaal zijn geformuleerd – de term ‘reproductieschadelijke stoffen’ is een mooi voorbeeld. Dat gegeven hoogt het percentage nog eens extra op. Aangetoond is dat respondenten de neiging hebben om op algemene en onbegrijpelijke vragen instemmend te antwoorden: ja, het zal wel. Het argument voor de keuze voor een webenquete is bovendien erg zwak. De auteurs vergelijken de kwaliteit daarvan met die van een toegestuurde vragenlijst. Onlangs heeft Yfke Ongena echter aangetoond dat de betrouwbaarheid van zo’n toegestuurde vragenlijst slechts zo’n 40 procent bedraagt. Vaak vullen mensen die lijst immers in terwijl ze televisie kijken of met het gezin koffie drinken. Ongena verwacht van de betrouwbaarheid van webenquetes ook maar weinig.

 

Het onderzoek naar ‘Functioneren en Arbeidsverzuim’ lijkt er wat degelijker uit te zien. De onderzoekers stellen dat 50 procent van de arbeidsongeschikten geen uitkering ontvangt. Hiervoor hebben ze aan 4100 bedrijven vragenlijsten toegestuurd, waarvan er 528 zijn teruggekomen. Daarnaast hebben 26 verdiepende interviews plaatsgehad. In het verslag is veel ruimte gereserveerd voor de voornoemde representativiteit. De onderzoekers melden verschillen in percentages van sekse, leeftijd en arbeidssector. Toch is de degelijkheid van de studie slechts schijn. Als we mogen verwachten dat bij een representatieve steekproef de verdelingen van steekproef en populatie aan elkaar gelijk zijn, en we constateren een onderlinge afwijking, dan zou die hooguit ‘toevallig’ mogen zijn. Voor het vaststellen van die toevalligheid hebben statistici uiterst eenvoudige toetsen ontwikkeld die algemeen bekend zijn. Wanneer zo’n toets wordt uitgevoerd, weet de lezer van een verslag in hoeverre hij de gegevens kan vertrouwen. Het verslag ‘Functioneren en Arbeidsverzuim’ vermeldt een dergelijke toets helaas niet. Ook al is in deze studie meer gerekend dan in de andere studies, toch lijkt zij te lijden aan dezelfde willekeur.

 

Alle studies lijken een exacte beschrijving van een feitelijke stand van zaken te presenteren. Dat wordt in de hand gewerkt doordat zij iets vertellen over de steekproef en getallen presenteren. Toch is deze pretentie zeker te hoog gegrepen omdat het in alle gevallen om een lukrake verzameling van respondenten lijkt te gaan.

 

Was dat niet het geval, dan nog zouden de gegeven getallen omgeven zijn door een brede marge van onzekerheid. Op zijn best gaat het in alle gevallen om studies die aangeven dat er iets aan de hand is, maar niet in welke mate. Aan de concrete uitkomsten mag helaas niet al te veel waarde worden gehecht.

 

» Irene Houtman en Ruurt van den Berg (2005), Zogenaamde lage risico’s in Nederland: welke regels vinden werknemers belangrijk om in de Arbowet te handhaven, en wat zijn de gevolgen van het schrappen van deze regels?, Leiden, TNO. Rapport 20352/11292 in opdracht van FNV.

 

» Coen van der Giesen, Nanneke van der Heyden, Sander Polze en Kees le Blansch (2005), Is Uw werkplek babyproof?, Den Haag: Onderzoek en Adviesgroep Questions, Anwers and More BV, in opdracht van FNV Bouw en FNV Bondgenoten.

 

» Tinka van Vuuren, Jos Sanders, Jan Besseling en Merijn de Bruin (2005), Werkgevers over het functioneren en ziekteverzuim van hun (ex-) arbeidsgeschikte werknemers, Leiden, TNO, Rapport 20076/27310.

 

Reageer op dit artikel