Bayes, Trilussa, il pollo e la Salmonella
Ieri abbiamo proposto “alla rete” un paio di quesiti, al fine di stimare il grado di dimestichezza degli addetti ai lavori nei confronti di alcuni concetti, a cavallo tra la statistica e la sanità pubblica. Rivediamoli, prima di passare alle risposte e ad alcune considerazioni.
Qui i link ai quesiti:
Quesito sotto l’ombrellone n. 1
Avete avuto un esito di “presenza di Salmonella” su un campione di un Vostro cliente (se siete un laboratorio) o avete ricevuto un esito di “presenza di Salmonella” su un Vostro campione (se siete un’azienda alimentare) o su quello di un Vostro cliente (se siete un consulente).
Il metodo utilizzato ha una specificità del 99,99%.
Qual è la probabilità che la partita di merce sia stata veramente contaminata da Salmonella?
- 99,99%
- 0,01%
- Per fare una stima dovrei sapere di che prodotto si tratta (es. piatto pronto cotto o carne cruda di pollo)
Mettete anche la spiegazione del perché nei commenti.
Quesito sotto l’ombrellone n. 2
Avete avuto un esito di “presenza di Salmonella” su un campione di un Vostro cliente (se siete un laboratorio) o avete ricevuto un esito di “presenza di Salmonella” su un Vostro campione (se siete un’azienda alimentare) o su quello di un Vostro cliente (se siete un consulente). Cosa indica l’analisi e cosa ha senso fare? E perché?
- Ripetere l’analisi
- Sanificare
- Formazione del personale
- Analisi delle cause
Le risposte
Innanzitutto una buona notizia, anzi due:
- La maggioranza delle risposte pervenute è esatta;
- Per il primo quesito i risultati sono decisamente migliori di quelli ottenuti da Gerd Gigerenzer quando sottopose un problema analogo a un gruppo di medici: sembrerebbe quindi che chi si occupa di sicurezza alimentare abbia una cultura statistica migliore di chi si occupa di salute umana (ma forse questa non è una buona notizia…).
Per il primo quesito la risposta esatta è la 3: “Per fare una stima dovrei sapere di che prodotto si tratta”. Molti l’hanno azzeccata ma nessuno ha provato a spiegare il perché. Ci proviamo quindi con l’aiuto del reverendo Thomas Bayes (un prete dedito a cose utili per l’umanità, forse perché suo padre, anch’esso prete, aderiva alla corrente “non conformista” della Chiesa anglicana) e del suo famoso teorema (il Teorema di Bayes, appunto). Ci piacciono i “non conformisti”, quelli che non si allineano supinamente al gregge, di qualunque gregge si tratti.
Diciamo innanzitutto che una specificità del 99,99% indica che il metodo di analisi che è stato utilizzato fornisce un risultato corretto “presenza di Salmonella” nel 99,99% dei casi, ovvero 9.999 volte su 10.000, mentre fornisce un risultato errato (falso positivo) nel rimanente 0,01% dei casi (una volta su 10.000).
Non abbiamo parlato, nel quesito, di sensibilità, ovvero di capacità di rilevare correttamente i veri positivi, ovvero di non rilevare come negativi dei campioni contenenti Salmonella. Diciamo che anche il valore di sensibilità del metodo è pari al 99,99%: il metodo individua la Salmonella, se effettivamente presente, nel 99,99% dei casi. Questo numero ci servirà tra poco.
Ora, poniamo che si tratti di un campione di carcassa di pollo per il quale, diciamo, la prevalenza ipotizzata (“a priori”, direbbe Bayes) di Salmonella è pari all’1%, ovvero ci aspetteremmo che, per varie questioni legate alle tecniche di allevamento e di macellazione, l’1% delle carcasse di pollo sia realmente contaminato da Salmonella (ovviamente il 99% non lo è: i casi si escludono a vicenda e la somma deve essere 100%).
Perché proprio campione di carcassa di pollo? Quando si parla di statistica il pollo, intero o a metà, è d’obbligo, come insegna il maestro Trilussa.
Vediamo allora i numeri: in termini di frequenze assolute, se si esaminano 10.000 carcasse poniamo in un anno di duro lavoro laboratoristico, l’1% di esse (100 carcasse) è realmente contaminata, mentre il 99% non lo è (le altre 9.900 carcasse).
Come abbiamo detto il nostro metodo ha una sensibilità e una specificità pari al 99,99% (un ottimo metodo, no? dipende). Vediamo come si comporta con la nostra serie di 10.000 carcasse:
- Il 99,99% delle 100 carcasse realmente contaminate risulta positivo all’analisi mentre il restante 0,01% (un valore evidentemente trascurabile) risulta falsamente negativo; quindi 100 campioni positivi all’analisi;
- Il 99,99% delle 9.900 carcasse realmente NON contaminate risulta negativo all’analisi mentre lo 0,01% risulta falsamente positivo: ma lo 0,01% di 9.900 è… circa uno (arrotondiamo 0,99 a 1).
Abbiamo quindi un totale di 101 campioni positivi, di cui uno falsamente positivo. In termini statistici il valore predittivo positivo è pari a 100/101, circa il 99%. Detto in altro modo vi è, in questo caso (pollo crudo, 1% prevalenza attesa), il 99% circa di probabilità che a un risultato positivo dell’analisi corrisponda un vero positivo. Non il 99,99% quindi (risposta sbagliata, come sbagliato era lo 0,01%).
Tutto bene, o quasi. Chi si accorgerà mai di quel campione? È normale che le carcasse di pollo contengano Salmonella, no?
Ma… se il pollo fosse invece cotto?
Potremmo ipotizzare in questo caso una prevalenza di Salmonella pari allo 0,01% (ovvero, in base a considerazioni sul ciclo di produzione e sulla possibilità di contaminazione secondaria da attrezzature e da operatori potremmo ipotizzare che un solo pollo cotto su 10.000 possa essere realmente contaminato da Salmonella). Cosa comporterebbe ciò, in base ai calcoli sui veri e falsi positivi?
- Il 99,99% dei polli cotti realmente contaminati risulta positivo all’analisi mentre il restante 0,01% (un valore evidentemente trascurabile) risulta falsamente negativo; ma il pollo contaminato è uno solo, quindi un solo campione positivo;
- Il 99,99% dei 9.999 polli cotti realmente NON contaminati risulta negativo all’analisi mentre lo 0,01% risulta falsamente positivo: ma lo 0,01% di 9.999 è sempre… circa uno.
In questo caso però abbiamo DUE campioni positivi, dei quali UNO SOLO realmente positivo. C’è quindi, per ogni analisi effettuata che abbia dato esito positivo (presenza di Salmonella), il 50% di probabilità che il nostro risultato positivo sia un falso positivo, per il quale metteremmo ingiustamente in allarme produttore, ASL, mangiatori di polli (o di mezzi polli, direbbe Trilussa). In termini statistici il valore predittivo positivo è, in questo caso, pari al 50%.
A questo punto, che fare? Ripetere l’analisi (e qui passiamo al quesito 2)?
Dipende: sullo stesso campione o su un altro campione?
Lo stesso campione o, meglio, un suo residuo congelato? Un’altra aliquota dello stesso campione (se ce l’abbiamo)?
Quasi certamente il congelamento avrà “maltrattato” abbastanza le povere Salmonelle che, forse, non riusciranno a farsi rilevare all’analisi.
Un altro campione?
Se il campione analizzato era realmente contaminato, molto probabilmente il secondo campione non lo sarà ugualmente. Sarà quasi certamente negativo (a meno che la contaminazione secondaria da ambiente o da operatore non sia così estesa da colpire tanti polli). Altrettanto probabilmente l’analisi del secondo campione non fornirà nuovamente un falso positivo (o meglio, lo farà nello 0,01% dei casi: poco probabile) se il primo campione NON era realmente contaminato.
In definitiva, molto probabilmente, la ripetizione dell’analisi non potrà, se il campione era realmente positivo, che darci l’illusione dell’assenza di Salmonella laddove invece il germe era presente, mentre invece, se si trattava di falso positivo, ci confermerà un’effettiva assenza del patogeno.
In pratica non sapremo se la ripetizione dell’analisi sarà servita o meno a qualcosa, se non a consolarci e a farci pensare ad altre questioni (quale cock-tail ordinare con i soldi guadagnati con la ripetizione, se siamo il laboratorio, o col consiglio della ripetizione, se siamo il consulente; per rimanere in tema “cock” = gallo, Trilussa ci azzecca sempre, in fondo).
Magari mentre il processo produttivo è fuori controllo, e il produttore dei polli, felice, ci firma l’assegno.
Ah, non abbiamo considerato che la contaminazione da patogeni è disomogenea, puntiforme, irregolare, e nemmeno ubbidisce alle leggi di Poisson (i patogeni sono fatti così: a differenza dei polli se ne fregano quasi sempre della statistica). Il che non fa che peggiorare le cose, se si vuole proprio ripetere l’analisi.
Quindi, evidentemente, ripetere l’analisi non è una buona idea, a meno che non si dubiti dell’operato del laboratorio, ma questa inizia ad essere ANALISI DELLE CAUSE della non conformità (la risposta esatta al secondo quesito). Se questo è il caso meglio, comunque, cambiare laboratorio, che non ripetere l’analisi.
Sbagliato correre a sanificare, anche se la contaminazione era effettivamente secondaria (le cattive prassi alla radice delle cause di contaminazione secondaria probabilmente saranno ancora in atto). Sbagliato anche il rifugium peccatorum della “formazione del personale”, a meno che l’analisi delle cause (la risposta esatta!) non ci abbia portato a individuare in comportamenti scorretti l’origine della contaminazione.
E ci sarebbe poi anche da parlare della masturbazione cerebrale di chi, in un contesto come questo, continua a insistere sul “comunicare al cliente il rischio associato alla regola decisionale”. Ma questa è un’altra (triste) storia, di cui abbiamo già parlato e forse riparleremo.
Commenti recenti