Wikipedia inaffidabile? E se a sbagliare fosse il giudice?

Questo post rappresenta un approfondimento “tecnico” all’articolo #Wikipedia fa davvero male alla salute? e nasce prevalentemente dai commenti di Vincenzo Guardabasso, che mi hanno spinto ad approfondire l’analisi statistica del lavoro pubblicato da Hasty e colleghi sul Journal of the American Osteopathic Association.
E’, perciò, un post molto più suo che mio.
Per poter comprendere quanto qui riportato rimando alla lettura integrale dell’articolo di Hasty; in particolare farò riferimento ai dati riportati nella tabella 3 dell’articolo.

Nel leggere l’articolo di Hasty c’erano alcune incongruenze che non riuscivo a spiegare.
Riporto come esempio nella tabella sottostante le valutazioni dei revisori riguardanti gli articoli sul diabete mellito e il trauma cranico. Per comodità ho riportato solo i dati relativi alle cosiddette “similar assertions” (Implication or statement of fact found by both…affermazioni trovate e valutate da entrambi i revisori).

Wikipedia vs fonte di riferimento - Distribuzione del numero di affermazioni concordanti e discordanti per revisore.
Wikipedia vs fonte di riferimento – Distribuzione del numero di affermazioni concordanti e discordanti per revisore.

Come si può notare, nel caso del diabete mellito il primo revisore ha trovato una sola affermazione discordante su 38 esaminate (2,6%), il secondo 2 su 36 (5,6%). Nonostante queste percentuali molto basse, per Hasty et al le informazioni contenute nell’articolo di Wikipedia sul diabete discordano dalla fonte di riferimento in maniera statisticamente significativa (con un valore di p estremamente basso). Nel caso del trauma cranico, invece, il primo revisore ha classificato come discordanti 24 affermazioni su 64 valutate (37,5%), il secondo revisore 8 su 34 (23,5%). Nonostante queste percentuali siano 10 volte più elevate di quelle osservate nel caso del diabete, gli autori riportano che quello sul trauma cranico è l’unico articolo che concorda con la fonte di riferimento.
Tutto questo, però, sembra andare contro la logica.
Rimane, inoltre, da capire come mai, pur trattandosi di “similar assertions”, il primo revisore abbia valutato 64 affermazioni e il secondo 34. Non dovevano essere implication or statement of fact found by both?

Veniamo allora al problema della statistica. Gli autori dichiarano di aver utilizzato il test di McNemar (A McNemar test for correlated proportions was conducted…).
Per cercare di spiegare il test di McNemar cito quanto riportato nella versione italiana di Wikipedia:

Il Test di McNemar è un test non parametrico che si applica a tabelle di frequenza 2 x 2. Viene generalmente impiegato per verificare l’esistenza di differenze in dati dicotomici (presenza/assenza; positivo/negativo) prima e dopo un certo cambio o evento o trattamento (ovvero per valutare l’efficacia di quel trattamento), qualora siano disponibili dati sotto forma di frequenze. Il test vuole determinare se le frequenze marginali di riga e colonna sono uguali.

Il test di McNemar è una sorta di test del chi-quadrato che si applica quando le osservazioni non sono indipendenti tra di loro, come avviene quando è lo stesso soggetto a essere “misurato” due volte, per esempio nel tempo (prima e dopo un evento/trattamento) o con due metodi diversi, o dopo essere stato sottoposto a due trattamenti differenti.
Cercando di esemplificare, si può cercare di immaginare di confrontare tra loro due esami diagnostici A e B, sottoponendo gli stessi soggetti a entrambi gli esami.

Alcuni soggetti sono positivi a entrambi gli esami (a), alcuni negativi a entrambi (d), altri risultano positivi a uno ma negativi all’altro (celle b e c). Semplificando in maniera un po’ grossolana, il test di McNemar si disinteressa dei risultati concordanti (celle a e d) e va a valutare se c’è un’equa distribuzione dei soggetti nelle celle b e c. Se la distribuzione in queste celle è sbilanciata significa che la probabilità di risultare positivo al primo e negativo al secondo non è uguale a quella di risultare rispettivamente negativo e positivo. Non c’è, cioè, concordanza tra i due metodi.
Proviamo ad inserire nella tabella i dati riguardanti la valutazione dell’articolo sul diabete mellito, per come sono riportati nella tabella 3 dell’articolo di Hasty:
Tabella_3

Come si può osservare, nella cella b c’è 1 solo soggetto, in quella c ce ne sono 34. Già “a occhio” la distribuzione sembra sbilanciata, e questa prima impressione trova conferma effettuando l’analisi con il test di McNemar (i curiosi possono p.es. provare a utilizzare questo calcolatore).
Dove sta allora il busillis? In realtà nell’articolo di Hasty ce n’è più di uno. Ignoriamo il primo problema: che i dati riportati in tabella 3 sono indipendenti (quindi non sarebbe possibile a priori l’analisi con McNemar). Ignoriamo il secondo: che l’analisi statistica, qualora fosse correttamente applicata, valuterebbe semmai la concordanza tra i due revisori, e non tra Wikipedia e la fonte di riferimento. Ne rimane un terzo: che nella tabella 3 dell’articolo di Hasty “34” riguarda il numero di affermazioni di Wikipedia che concordano con la fonte di riferimento (a giudizio del secondo revisore); nella tabella 2×2 usata per il test di McNemar queste 34 affermazioni finiscono invece per essere giudicate come “discordanti”.

Vediamo cosa succede nel caso del trauma cranico:
Tabella_4

Come si può notare i valori riportati nelle celle b e c sono rispettivamente 26 e 24, due valori molto simili. Tanto che l’analisi con il test di McNemar indica che la differenza non è significativa, con un valore di p pari a 0,88.
Ecco spiegato perchè nonostante per il primo revisore il 38% delle affermazioni non trovasse conferma nella fonte di riferimento, per gli autori l’articolo sul trauma cranico fosse l’unico “affidabile”.

E’ come se gli autori avessero ribaltato la realtà, analizzando come “discordante” quello che era invece “concordante” e viceversa.
In realtà ci sono altre imprecisioni e aspetti non chiari, al di là dell’analisi statistica.
E uno degli aspetti che dovrà trovare spiegazione è: come mai un articolo scientifico così impreciso è stato ripreso da tutti i principali media, senza alcuna verifica della sua attendibilità?

 

Annunci

Rispondi

Inserisci i tuoi dati qui sotto o clicca su un'icona per effettuare l'accesso:

Logo WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione / Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione / Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione / Modifica )

Google+ photo

Stai commentando usando il tuo account Google+. Chiudi sessione / Modifica )

Connessione a %s...