Egy ok: Egyes tudományos tanulmányok tévesek lehetnek

Van egy replikálhatósági válság a tudományban - azonosítatlan „hamis pozitív” még a legnépszerűbb kutatási folyóiratainkat is áthatja.

A hamis pozitív az az állítás, hogy a hatás létezik, ha valójában nem. Senki nem tudja, hogy a publikált cikkek hány százaléka tartalmaz ilyen helytelen vagy túlbecsült eredményeket, de vannak jelei annak, hogy az arány nem kicsi.

John Ioannidis epidemiológus a legjobb magyarázatot adta erre a jelenségre egy híres 2005 -ös, provokatív „Miért hamis a legtöbb publikált kutatási eredmény?”. Az egyik ok, amiért Ioannidis a sok hamis eredményt hozta, az úgynevezett „p hackelés ”, amely abból a nyomásból ered, amelyet a kutatók úgy érznek, hogy elérik a statisztikai szignifikanciát.

Mi a statisztikai szignifikancia?

Az adatokból a következtetések levonására a kutatók általában támaszkodnak szignifikancia tesztelés. Leegyszerűsítve ez azt jelenti, hogy kiszámítjuk a „p érték ”, ami a miénkhez hasonló eredmények valószínűsége, ha valóban nincs hatás. Ha a p Ha az érték kellően kicsi, az eredményt statisztikailag szignifikánsnak nyilvánítják.

Hagyományosan a p 05 alatti érték a szignifikancia kritériuma. Ha jelentést tesz a p<.05, az olvasók valószínűleg azt hiszik, hogy valódi hatást talált. Valószínűleg azonban valójában nincs hatása, és hamis pozitív eredményt jelentett.


belső feliratkozási grafika


Sok folyóirat csak olyan tanulmányokat tesz közzé, amelyek egy vagy több statisztikailag szignifikáns hatást jelenthetnek. A végzős hallgatók gyorsan megtanulják a mitikus megvalósítását p

Ezt a nyomást elérni pp hackelés.

A csalit p hacker

Illusztrálni p hacker, íme egy hipotetikus példa.

Bruce nemrég végzett doktori fokozatot, és rangos ösztöndíjat kapott, hogy csatlakozzon a területének egyik legjobb kutatócsoportjához. Első kísérlete nem sikerül jól, de Bruce gyorsan finomítja az eljárásokat, és lefuttat egy második tanulmányt. Ez ígéretesebbnek tűnik, de még mindig nem ad a p értéke kisebb, mint 05.

Meggyőződve arról, hogy valamihez ért, Bruce további adatokat gyűjt. Elhatározza, hogy elenged néhány eredményt, amelyek egyértelműen távolinak tűntek.

Aztán észreveszi, hogy egyik intézkedése világosabb képet ad, ezért erre összpontosít. Még néhány módosítás, és Bruce végül egy kissé meglepő, de valóban érdekes hatást azonosít p

Bruce annyira igyekezett megtalálni a hatást, mint ő tudta lappangott valahol. Ő is érezte a nyomást az ütésre p

Csak egy fogás van: valójában nem volt hatás. A statisztikailag szignifikáns eredmény ellenére Bruce hamis pozitív eredményt tett közzé.

Bruce úgy érezte, hogy tudományos ismereteit felhasználva feltárja a rejtőző hatást, miközben tanulmánya megkezdése után különböző lépéseket tett:

  • További adatokat gyűjtött.
  • Elvetett néhány hibásnak tűnő adatot.
  • Elhagyott néhány intézkedést, és a legígéretesebbre összpontosított.
  • Kicsit másként elemezte az adatokat, és néhány további módosítást hajtott végre.

A baj az, hogy mindezeket a döntéseket meghozták után látva az adatokat. Bruce öntudatlanul csiripelhetett - válogatott és csípett, amíg meg nem kapta a megfoghatatlanot pp

A statisztikusoknak van egy mondásuk: ha eleget kínozod az adatokat, akkor bevallják. Az adatok megtekintése után hozott döntések és módosítások megkérdőjelezhető kutatási gyakorlatok. Ezek felhasználása, szándékosan vagy sem, a megfelelő statisztikai eredmény eléréséhez p hacker, ami az egyik fontos oka annak, hogy a publikált, statisztikailag szignifikáns eredmények hamis pozitívak lehetnek.

A közzétett eredmények hány százaléka hibás?

Ez jó kérdés, és ördögien trükkös. Senki sem tudja a választ, amely valószínűleg különböző lesz a különböző kutatási területeken.

A társadalmi és kognitív pszichológia kérdésének megválaszolására nagy és lenyűgöző erőfeszítést tettek közzé 2015 -ben. Brian Nosek és kollégái a Központi Tudományos Központban Replikálhatósági projekt: Pszichológia (RP: P) Világszerte 100 kutatócsoport végezte el a 100 közzétett eredmény egyikének gondos másolását. Átfogó, nagyjából 40 ismétlődött meglehetősen jól, míg körülbelül 60 esetben a replikációs vizsgálatok kisebb vagy sokkal kisebb hatásokat értek el.

A 100 RP: P replikációs vizsgálat olyan hatásokról számolt be, amelyek átlagosan csak feleakkoraak voltak, mint az eredeti vizsgálatokban jelentett hatások. A gondosan elvégzett replikációk valószínűleg pontosabb becsléseket adnak, mint amennyire lehetséges p feltörték az eredeti tanulmányokat, így arra a következtetésre jutottunk, hogy az eredeti tanulmányok átlagosan kétszeresére becsülték a valódi hatásokat. Ez riasztó!

Hogyan kerülhető el? p hacker

A legjobb módja annak, hogy elkerülje p A hackelés célja, hogy elkerülje a kiválasztást vagy a módosítást az adatok megtekintése után. Más szóval, kerülje a megkérdőjelezhető kutatási gyakorlatokat. A legtöbb esetben erre a legjobb módszer a használat előregisztráció.

Az előregisztráció megköveteli, hogy előre készítsen részletes kutatási tervet, beleértve az adatokra alkalmazandó statisztikai elemzést. Ezután előregisztrálja a tervet dátumbélyegzővel a Nyílt tudományos keret vagy más online rendszerleíró adatbázisban.

Majd végezze el a vizsgálatot, elemezze az adatokat a tervnek megfelelően, és jelentse az eredményeket, bármilyenek is legyenek. Az olvasók ellenőrizhetik az előre regisztrált tervet, és így biztosak lehetnek abban, hogy az elemzést előre megadták, és nem p feltört. Az előregisztráció sok kutató számára kihívást jelentő új ötlet, de valószínűleg ez lesz a jövő útja.

Inkább becslés, mint p értékek

A kísértés arra p a hack az egyik nagy hátránya a támaszkodásnak p értékeket. A másik az, hogy a pinkább azt mondani, hogy van hatás, vagy nincs.

De a világ nem fekete -fehér. A szürke számos árnyalatának felismeréséhez sokkal jobb használni becslés helyett p értékeket. A becslés célja a hatás nagyságának becslése - lehet kicsi vagy nagy, nulla vagy akár negatív is. A becslés szempontjából a hamis pozitív eredmény olyan becslés, amely nagyobb vagy sokkal nagyobb, mint egy hatás valódi értéke.

Vegyünk egy hipotetikus tanulmányt a terápia hatásáról. A tanulmány például azt becsülheti, hogy a terápia átlagosan 7 pontos csökkenést eredményez a szorongásban. Tegyük fel, hogy adatainkból számolunk a megbízhatósági intervallum - bizonytalansági tartomány a legjobb becslésünk mindkét oldalán - [4, 10]. Ez azt sugallja, hogy a 7 -es becslésünk nagy valószínűséggel körülbelül 3 ponton belül van a valódi hatás szorongási skáláján - a terápia valódi átlagos haszna.

Más szóval, a konfidencia intervallum azt jelzi, hogy a becslésünk mennyire pontos. Egy ilyen becslés és annak megbízhatósági intervallumának ismerete sokkal informatívabb, mint bármelyik p értéket.

A becslést az „új statisztikák” egyikeként említem. A technikák önmagukban nem új keletűek, de ezek felhasználása az adatokból a következtetések levonásának fő módjaként sok kutató számára új lenne, és nagy előrelépést jelentene. Ez is segít elkerülni az okozott torzulásokat p hackelés.

A szerzőről

Geoff Cumming, emeritus professzor, La Trobe Egyetem

Ezt a cikket eredetileg közzétették A beszélgetés. Olvassa el a eredeti cikk.

Kapcsolódó könyvek:

at InnerSelf Market és Amazon