Dlaczego dzisiejsze fakty to jutrzejsze mity

5

Okazuje się, że dowody naukowe mają zaskakująco krótki żywot. Najczęściej umierają już po roku, rzadko dożywając kilku lat. W grudniu 2010 roku magazyn „The New Yorker” opublikował artykuł pt. „The Truth Wears Off” (pl. Prawda, która przemija). Jego autor, dziennikarz Jonah Lehrer poruszył pewien intrygujący problem występujący w nauce. Polega on na tym, że rezultaty badań naukowych, które przez pewien okres potwierdzają prawdziwość stawianych hipotez, z biegiem czasu zanikają. Zjawisko to, zwane „efektem zanikania” (ang. decline effect), jest zaskakująco powszechne i powtarzalne, sprawia, że w nauce niemal wszystkie dzisiejsze fakty to jutrzejsze mity. Jak podkreśla Lehrer, ów „efekt zanikania” występuje we wszystkich dziedzinach nauki (szczególnie widoczny jest w naukach medycznych). Jest też dobrze znany w środowisku naukowym, ale stanowi pośród uczonych temat tabu. Jako że wierzymy na Nowej Debacie, iż „zamilczanie” ważkich problemów ich nie unieważnia, przyjrzyjmy się bliżej poszukiwaniom przez Lehrera odpowiedzi na pytanie: „co jest nie w porządku z metodą naukową?”.

18 września 2007 roku w jednym z brukselskich hoteli zgromadzili się neurolodzy, psychiatrzy i szefowie znaczących firm farmaceutycznych . Przedmiotem ich spotkania były nowe doniesienia na temat atypowych preparatów antypsychotycznych II generacji, wprowadzonych na rynek we wczesnych latach 90-tych. Specyfiki te, znane na rynku pod takimi markami jak Abilify, Seroquel i Zyprexa, przebadano uprzednio na schizofrenikach w kilku szeroko zakrojonych eksperymentach klinicznych. Wszystkie badania wykazały, że nowe leki znacząco poprawiają stan pacjentów. Nie minęło dużo czasu, zanim specyfiki te stały się jedną z najbardziej zyskownych kategorii leków na rynku. Do roku 2001 produkowany przez koncern Eli Lilly specyfik o nazwie Zyprexa przynosił już większy dochód niż Prozac i do dziś pozostaje najbardziej zyskownym produktem tej firmy.

Jednak informacje zaprezentowane podczas spotkania Brukseli wskazywały jednoznacznie na pewne nieoczekiwane i niepokojące zjawisko: działanie terapeutyczne tych leków systematycznie słabło. Według najnowszych badań ich skuteczność była o ponad 50 % mniejsza w stosunku do rezultatów uzyskanych w eksperymentach z wczesnych lat 90-tych. Coraz więcej naukowców zaczynało dochodzić do przekonania, że te kosztowne specyfiki są niewiele skuteczniejsze od ich poprzedników stosowanych od lat 50-tych. „Czasami ich działanie okazuje się nawet słabsze od leków I generacji”, zauważył John Davis – profesor psychiatrii Uniwersytetu Stanowego Illinois w Chicago.

Trzeba wiedzieć, że zanim lek zostanie uznany za skuteczny, przechodzi on wiele badań i testów; rożni badacze w różnych laboratoriach niezależnie od siebie powtarzają określone procedury badawcze i następnie publikują rezultaty swojej pracy. Innymi słowy każdy specyfik musi „zdać” tzw. test powtarzalności (ang. test of replicability), który stanowi fundament współczesnej nauki. Wymóg ten ochronić ma nas przed subiektywnością w badaniach. W większości przypadków badacze znają rezultat, jakiego oczekują, co sprawia, że mogą wpływać na wyniki badań . Wymóg powtarzalności wyników jest narzędziem do zapobiegania tym potencjalnym nieprawidłowościom.

Ostatnimi laty bardzo wiele dobrze znanych i zaakceptowanych odkryć naukowych straciło swoje uzasadnienie w dowodach naukowych. Wygląda to tak, jakby nasze prawdy traciły prawdziwość: twierdzenia dawno zapisane w podręcznikach jako fakty stają się nagle niemożliwe do udowodnienia. Zjawisko to nie ma jeszcze oficjalnej nazwy, niemniej występuje nagminnie w rozmaitych gałęziach nauki, od psychologii po ekologię. Nadzwyczaj powszechne wydaje się być w medycynie, w ramach której skuteczności wielu powszechnie stosowanych terapii nie sposób dowieść. Dotyczy to nie tylko stosowania antypsychotyków, ale wielu innych sposobów leczenia w tym użycia stentów, witaminy E czy antydepresantów. Dla przykładu prof. Davis ustalił, że skuteczność antydepresantów na przestrzeni ostatnich dziesięcioleci spadła w badaniach aż trzykrotnie.

Dla wielu uczonych istnienie „efektu zanikania dowodów” jest kłopotliwe, ponieważ odkrywa prawdę o procesie dochodzenia do odkryć w nauce. Jeśli powtarzalność wyników odróżniać ma rygorystyczną naukę od frywolnej pseudonauki, to jak mamy potraktować odkrycia, niegdyś dowiedzione w badaniach naukowych, których nie sposób obecnie w eksperymentach powtórzyć. W jakie rezultaty mamy wierzyć? Prekursor metody naukowej w erze nowożytnej Francis Bacon stwierdził niegdyś, że eksperymenty są niezbędne, ponieważ pozwalają nam stawiać naturze pytania. Okazuję się jednak, że natura niejednokrotnie udziela nam różnych odpowiedzi na te same pytania -zauważa Lehrer.

 Przesłanianie przez słowa

Lehrer omawia dorobek prof. Jonathana Schoolera, który jeszcze jako student Uniwersytetu Waszyngtońskiego dokonał w latach 80-tych ciekawego odkrycia dotyczącego języka i pamięci. Miało ono podważyć dominujący w owym czasie pogląd, że opisywanie naszych wspomnień utrwala je. W eksperymentach Schoolera okazało się, że osoby, które najpierw zobaczyły daną twarz a następnie opisały ją słownie, miały większe kłopoty z jej późniejszym rozpoznaniem aniżeli osoby, które jedynie daną twarz widziały. Schooler nazwał to zjawisko „przesłanianiem przez opisy słowne” (ang. verbal overshadowing).

Badania Schoolera przyniosły mu sławę i uznanie w środowisku naukowym. Od czasu, kiedy w 1990 roku ogłosił on wyniki swoich eksperymentów, cytowano je ponad 400 razy. Schooler bardzo szybko poszerzył zastosowanie swojego modelu na inne aktywności takie jak zapamiętywanie smaku wina, identyfikacja najsmaczniejszego dżemu truskawkowego, rozwiązywanie trudnych zagadek. W każdym wypadku okazywało się, że badani, którzy swoje doświadczenia wzrokowe ujmowali w słowa, mieli gorsze wyniki od osób z grupy „wzrokowej”.

Jednak z upływem czasu, jeszcze kiedy Schooler publikował swoje rezultaty w najbardziej uznanych pismach fachowych, zaczął gnębić go pewien mały sekret: coraz trudniej było mu uzyskiwać wcześniejsze wyniki. „Efekt wciąż był widoczny, ale coraz mniej. Zupełnie jakby moja wielka koncepcja słabła”, wyznał naukowiec po czasie. Początkowo sądził, że popełniał błędy projektując eksperymenty lub mylił się w obliczeniach statystycznych. To okazało się nieprawdą. Podejrzewał następnie, że do wczesnych badań dobrał grupę nadzwyczaj podatną na zjawisko „verbal overshadowing”. W podobny sposób rozumował John Davis spekulując, że zaobserwowany spadek skuteczności antypsychotyków może być spowodowany tym, że do badań dobiera się grupę osób cierpiących na umiarkowane formy psychoz i dlatego nie odnotowuje się u nich znaczącej poprawy wskutek terapii tymi środkami. Jednak Schoolerowi takie wyjaśnienie nie wystarczało. „Wytłumaczenie takie nie było dostatecznie satysfakcjonujące. Jeden z moich nauczycieli powiedział, że popełniam duży błąd starając się powtarzać wyniki. Mawiał, że w ten sposób szykuję dla siebie porażkę”, wspominał Schooler.

Z biegiem czasu uczony próbował nawet zapomnieć o tych trudnościach, poświęcając się badaniu innych zagadnień. Jednak problem z powtarzaniem wyników narastał. W roku 1995 udało mu się powtórzyć jedynie 70% rezultatów, jakie osiągnął w roku 1990. W roku kolejnym ten poziom spadł o kolejne 30 %. Także inni naukowcy, powtarzający eksperymenty Schoolera, osiągali coraz gorsze rezultaty. Częstotliwość występowania efektu przysłaniania stale spadała. „To było niezwykle frustrujące. Zupełnie jakby natura najpierw podarowała mi to wspaniałe odkrycie, a potem chciała mi je zabrać”, skarżył się Schooler.

W rozmowach prywatnych Schooler opisywał swój problem jako rezultat „kosmicznej habituacji”, przywołując proces stopniowego zobojętniania na powtarzający się bodziec. „Habituacja powoduje, że przestajesz zauważać rzeczy, które widzisz cały czas. To nieunikniony proces dostosowywania się, opadania podniecenia. Żartowałem, że kosmos habituował się do moich koncepcji”, tłumaczy naukowiec.

Chociaż „verbal overshadowing” pozostaje do dziś ogólnie akceptowaną teorią (nierzadko stosowaną w kontekście zeznań naocznych świadków) jej twórca nie jest usatysfakcjonowany, pozostając w konflikcie z naturą. „Wiem że powinienem już o tym nie myśleć, zająć się czymś innym, ale nie potrafię”, powiedział Schooler. Jak sam przyznał, gnębi go przekonanie, iż natknął się na poważny problem, który dotyczy wielu nowych i ekscytujących koncepcji w psychologii.

Zjawisko zanikania dowodów

Owo tajemnicze zjawisko ujawniło się już we wczesnych latach 30-tych XX wieku w pracy psychologa z Uniwersytetu Duka – Josepha Banksa Rhine’a. Przedmiotem jego zainteresowań były możliwości postrzegania pozazmysłowego ESP (ang. extrasensory perception), które uczony badał z wykorzystaniem kart Zenera, czyli talii 25 kart, z których każda przedstawia 1 z 5 symboli. Podczas eksperymentów Rhine wyjmował kartę ze spodu talii, prosząc badaną osobę o zidentyfikowanie znajdującego się na niej symbolu, którego badani nie widzieli. Zgodnie z rachunkiem prawdopodobieństwa, większość badanych zgadywała poprawnie ok 25% kart, ale jeden student, Adam Linzmayer, osiągał średnią prawie 50%. Potrafił też odgadnąć właściwe symbole na 9 kartach z rzędu, czego prawdopodobieństwo wynosi jak 1 do 2 milionów. Linzmayerowi udało się to aż trzy razy.

Rhine skrupulatnie udokumentował te zaskakujące rezultaty. Przygotował nawet do druku kilka artykułów naukowych na ten temat. Jednak kiedy już zaczynał wierzyć w istnienie zdolności postrzegania pozazmysłowego, jego cudowny student nagle utracił swój talent. Między rokiem 1931 a 1933 Linzmayer odgadł poprawnie jeszcze kilka tysięcy kart, lecz średnia poprawnych odpowiedzi ledwie przekraczała statystyczne prawdopodobieństwo. Rhine musiał odnotować, że „zdolności postrzegania pozazmysłowego [u badanego studenta] znacząco osłabły”. Linzmayer nie był jedynym badanym, który doświadczył takiego zaniku. Niemal w każdym przypadku, w którym Rhine początkowo odnotowywał występowanie ESP, umiejętności te z biegiem czasu słabły. Rhine nazwał to zjawisko „efektem zanikania dowodów” (ang. decline effect).

Schoolera zafascynowała historia Rhine’a: oto był inny naukowiec, który również doświadczył słabnięcia dowodów; zupełnie jakby został obdarzony talentem do uzyskiwania dowodów, które miały się z czasem ulotnić. W 2004 roku Schooler podjął próbę odtworzenia osiągnięć Rhine’a: postanowił powtórzyć porażkę Rhine’a w powtarzaniu swoich wyników. Znając zainteresowania Rhine’a, Schooler postanowił zbadać zjawisko parapsychologiczne znane jako prekognicja. W tym celu zaprojektował prosty eksperyment: badanej osobie wyświetlał przez krótką chwilę różne obrazy, prosząc ją o zidentyfikowanie każdego z nich. Co było do przewidzenia, badani potrafili zidentyfikować tylko minimalną liczbę obrazów, ponieważ znikały zbyt szybko. Następnie Schooler wybrał losowo połowę obrazów i wyświetlił je badanym ponownie. Chciał w ten sposób ustalić, czy obrazy wyświetlone po raz drugi należały do grupy najczęściej identyfikowanych za pierwszym razem. Czy ponowne wyświetlanie mogło mieć wpływ na pierwotne rezultaty. Innymi słowy, czy efekt mógł stać się przyczyną? W myśl założeń prekognicji badani powinni za pierwszym razem rozpoznać obrazy, które mieli zobaczyć podczas drugiej projekcji.

Schooler wiedział, że prekognicja nie posiada wyjaśnienia naukowego. Jednak jego celem nie było sprawdzenie istnienia zdolności paranormalnych, lecz „efektu zanikania dowodów”. „Początkowo uzyskane wyniki były zgodnie z oczekiwaniami zaskakujące. Nie mogłem uwierzyć jak dużo prekognicji udało się nam zaobserwować. Jednak z biegiem czasu ten zakres stale się zmniejszał”. Naukowcy przebadali w sumie ponad 2 tysiące studentów. „Pod koniec nasze rezultaty przypominały rezultaty Rhine’a. Najpierw odkryliśmy zjawisko paranormalne, które nam następnie zniknęło”, wspomina Schooler.

Najbardziej prawdopodobnym wytłumaczeniem zanikania dowodów jest dążenie w kierunku średniej. Powtarzanie eksperymentów powoduje, że z biegiem czasu eliminuje się rezultaty przypadkowe. W badaniach Schoolera nie dochodziło zatem do zaniku zdolności paranormalnych u badanych, bo te są iluzją, która w toku badań uleciała. Pomimo tego Schooler zaobserwował, że początkowo gromadzone wyniki (które następnie zanikają) są istotne statystycznie. „Są to rezultaty, które spełniają wszystkie kryteria. Szansa, że wyniki te są dziełem przypadku jest znikoma, nie większa niż jeden na milion. Oznacza to, że efekt zanikania dowodów powinien być nieznaczny, ale on się ciągle powtarza! Do diabła, mnie się przydarzył wielokrotnie”, zauważa Schooler. Uważa on, zjawisko to zasługuje na więcej uwagi niż mu się obecnie poświęca. Jego wszechobecność gwałci bowiem prawa statystyki. „Zawsze kiedy zaczynam o tym mówić, naukowcy bardzo się denerwują. Ale ja chcę wiedzieć co się stało z moimi rezultatami. Jak większość badaczy zakładałem, że z biegiem czasu coraz łatwiej będzie mi gromadzić dowody na prawdziwość mojej teorii. Będę przeprowadzał coraz doskonalsze eksperymenty, będę umiał lepiej przewidywać okoliczności, w jakich dochodzi do efektu przesłaniania przez słowa. Dlaczego więc jest na odwrót? Jestem przekonany, że używając naukowych narzędzi jesteśmy w stanie to wyjaśnić. Jednak aby tego dokonać, musimy najpierw przyznać się do tego, że mamy problem”, komentuje Schooler.

 Asymetria fluktuacyjna

W 1991 roku Anders Møller, duński zoolog z Uniwersytetu w Uppsali w Szwecji, dokonał niezwykłego odkrycia dotyczącego płci, jaskółek dymówek i symetrii. Od dawna wiadomo było, że niesymetryczny wygląd danego stworzenia ma związek z zakresem mutacji w jego genomie – im więcej mutacji, tym większy zakres tzw. asymetrii fluktuacyjnej (ang. fluctuating asymmetry). W myśl tej teorii sposobem na określenie stopnia asymetrii u ludzi jest porównanie długości palców na każdej z dłoni. Møller odkrył, że samice jaskółek były dużo bardziej skłonne łączyć się w pary z samcami mającymi długie i symetryczne pióra. Takie preferencje sugerowały, że wybredne samice używały symetrii jako kryterium oceny genów u męskich partnerów. Møller opublikował artykuł na ten temat w magazynie “Nature”, wywołując szaleństwo badań poświęconych temu zagadnieniu. Oto pojawił się łatwo mierzalny, uniwersalny wskaźnik jakości genetycznej, powszechnie wykorzystywany przez płeć żeńską. Okazało się, że w estetyce chodzi tak naprawdę o genetykę.

W kolejnych trzech latach przeprowadzono dziesięć różnych badań poświęconych roli asymetrii fluktuacyjnej w procesie selekcji płciowej. W dziewięciu z nich odkryto związek między symetrią a powodzeniem reprodukcyjnym osobników męskich. Bez względu na to, czy naukowcy badali owłosienie muszek owocowych, czy powtarzali badania na jaskółkach, płeć żeńska zawsze preferowała osobników męskich mających symetryczną budowę. Nie minęło dużo czasu, nim teorię tę zastosowano do ludzi. Na przykład zauważono, że kobiety preferują zapach mężczyzn o symetrycznej budowie ciała, ale tylko podczas okresu płodnego w cyklu menstruacyjnym. W innych badaniach okazało się, że kobiety częściej przeżywały orgazm, jeśli ich partnerzy mieli symetryczną budowę ciała. Zdaniem jednego z antropologów z Uniwersytetu Rutgersa, który przeanalizował 40 jamajskich tańców, mężczyźni symetryczni byli oceniani przez kobiety jako lepsi tancerze.

Niedługo potem cała teoria zaczęła upadać. W 1994 roku z 14 opublikowanych badań, już tylko 8 znalazło korelację między symetrią i selekcją płciową. W 1995 opublikowano kolejnych osiem badań i tylko w czterech pojawiła się pozytywna korelacja w tym zakresie. Do roku 1998 wykonano jeszcze 12 badań nad symetrią fluktuacyjną i jedynie cztery z nich potwierdziły tę teorię. Co gorsza, nawet w badaniach dostarczających potwierdzenia dla hipotezy, liczba dowodów stale malała. Między rokiem 1992 i 1997 ilość danych potwierdzających jej prawdziwość zmalała aż o 80%.

Teoria asymetrii fluktuacyjnej nie jest wyjątkiem. W 2001 roku Michael Jennions, biolog z Australijskiego Uniwersytetu Narodowego, postanowił przeanalizować różne okresowe trendy w ekologii i biologii ewolucyjnej. Przestudiował w tym celu setki artykułów oraz 44 metaanalizy. Zauważył, że w przypadku każdej proponowanej hipotezy wystąpił efekt zanikania dowodów. Większość teorii z upływem czasu całkowicie traciła swoje naukowe uzasadnienie. Zwykle znaczące kurczenie się ilości dowodów na słuszność danej hipotezy widoczne jest już po upływie jednego roku od jej sformułowania i opublikowania. Jennions przyznaje, że jego ustalenia są niepokojące, ale niechętnie rozmawia o nich publicznie. „Dla naukowców to drażliwa sprawa. Wiesz, powinniśmy mieć do czynienia z twardym danymi, z faktami, które wytrzymują próbę czasu, ale kiedy przyjrzeć się tym zjawiskom, to człowiek nabiera sceptycyzmu”, tłumaczy Jennions. O co zatem chodzi?

Leigh Simmons, biolog z Uniwersytetu  Australii Zachodniej, opowiadając o swojej początkowej fascynacji teorią asymetrii fluktuacyjnej, zaproponował pewne wyjaśnienie. „Byłem bardzo podekscytowany koncepcją asymetrii fluktuacyjnej. Wczesne badania jednoznacznie potwierdzały istnienie tego zjawiska.” Simmons postanowił samodzielnie wykonać kilka eksperymentów szukając asymetrii fluktuacyjnej wśród żuków. „Niestety, nic nie znalazłem. Jednak najgorsze było to, że miałem trudności z opublikowaniem wyników swoich badań. Pisma fachowe oczekiwały jedynie danych potwierdzających tę teorię. To była nazbyt ekscytująca koncepcją, żeby ją podważać. Przynajmniej w tamtym czasie”, wspomina Simmons. Dla niego nagła popularność i upadek hipotezy asymetrii fluktuacyjnej stanowi klasyczny przykład działania paradygmatu naukowego jako intelektualnej mody, która określa kierunek badań i zarazem je ogranicza. Skoro tylko nowy paradygmat zostaje sformułowany, proces peer-review zapewnia to, że preferowane są dowody na potwierdzenie jego prawdziwości. Jednak po kilku latach, kiedy paradygmat zdąży się już utrwalić, następuje odwrócenie tendencji: w środowisku naukowym najważniejsze są wtedy te rezultaty, które kwestionują starą teorię.

Tendencyjność publikacyjna

Zdaniem Jennionsa efekt zanikania dowodów jest w dużej mierze rezultatem zjawiska „tendencyjności publikacyjnej” (ang. publication bias). Określa się w ten sposób preferencję naukowców i wydawców prasy specjalistycznej do tego, aby publikować przede wszystkim te rezultaty, które potwierdzają prawdziwość jakiejś hipotezy. Odrzuca się zatem prace, które obalają preferowaną teorię, bądź poddają ją w wątpliwość. Występowanie tego typu tendencyjności po raz pierwszy zidentyfikował w 1959 roku statystyk Theodore Sterling. Dostrzegł on, że 97 % wszystkich publikowanych badań z dziedziny psychologii, w których zgromadzono statystycznie istotne dane, potwierdzało prawdziwość wcześniej przyjętych hipotez. (W tym miejscu należy dodać, że wynik istotny statystycznie to taki, który można osiągnąć przez przypadek z prawdopodobieństwem nie przekraczającym 5 %. Takie kryterium sformułował w 1922 roku brytyjski matematyk Ronald Fisher, który uznał (dość arbitralnie), że pięcioprocentowy próg ułatwia obliczenia statystyczne). Sterling uznał, że jeśli 97% badań w psychologii udowadnia stawianą przez badaczy hipotezę, to albo mają oni niezwykłe szczęście, albo publikują tylko te wyniki, które potwierdzają ich teorie.

W ostatnich latach zjawisko „tendencyjności publikacyjnej” podnosi się najczęściej jako problem w kontekście badań klinicznych. Wynika to z tego, że firmy farmaceutyczne, będące głównym fundatorem takich prób, nie są zainteresowane publikowaniem wyników niekorzystnych dla swoich produktów. Jednak staje się coraz bardziej oczywiste, że mechanizm „tendencyjności publikacyjnej” zniekształca badania również w tych dziedzinach, w których zachęty korporacyjne są z pozoru słabsze np. w psychologii lub ekologii.

 Selektywne raportowanie wyników

O ile „tendencyjność publikacyjna” z pewnością odgrywa rolę w procesie „zanikania dowodów”, o tyle nie stanowi pełnego wyjaśnienia dla tego zjawiska. Nie tłumaczy, dlaczego w początkowej fazie dochodzi do znaczącego nagromadzenia dowodów na rzecz danej hipotezy także w tych badaniach, które nie zostają nigdy opublikowane. Nie tłumaczy również doświadczeń takich naukowców jak Schooler, którym nie udaje się odtworzyć pierwotnie uzyskanych rezultatów pomimo najlepszych chęci i intensywnych starań. Richard Palmer, biolog na Uniwersytecie Alberty, który badał kontrowersje wokół asymetrii fluktuacyjnej, podejrzewa, że równie ważnym problemem jest selektywne raportowanie wyników, czyli danych, które naukowcy decydują się w ogóle udokumentować.

Argumentacja Palmera opiera się na graficznej metodzie analizy znanej jako wykres lejkowy (ang. funnel graph). Kiedy wykonuje się dużą liczbę badań dotyczących jednego zagadnienia, uzyskiwane rezultaty powinny układać się w następujący wzór: wyniki badań z dużą próbą powinny gromadzić się wokół jednej wspólnej wartości (prawdziwego rezultatu), podczas gdy badania z małą próbą powinny dostarczać wyników porozrzucanych przypadkowo, ponieważ badania te są bardziej podatne na błąd. Stąd pochodzi nazwa wykresu, który przypomina lejek.

Przy pomocy wykresu lejkowego można wychwycić nieprawidłowości spowodowane selektywnym raportowaniem wyników. Na przykład, na podstawie analizy wszystkich badań poświęconych asymetrii fluktuacyjnej, Palmer zauważył, że wyniki badań o małej próbie nie są przypadkowo porozrzucane, ale gromadzą się wokół rezultatów pozytywnych dla tej hipotezy. Od tego czasu Palmer udokumentował podobne zjawisko w przypadku innych zagadnień badawczych. „Kiedy zauważyłem, że selektywne raportowanie wyników w nauce występuje wszędzie, nie było mi do śmiechu.”, wyznał Palmer. W jednym ze swoich artykułów opisał wpływ selektywnego raportowania wyników na badania ze swojej dziedziny. „Nasuwają się wnioski, że wiele dobrze znanych twierdzeń naukowych to w najlepszym wypadku wyolbrzymienia, jeśli chodzi o ich znaczenie biologiczne, a w najgorszym wypadku to zbiorowa iluzja podtrzymywana dzięki utrwalonym założeniom a priori”.

Palmer podkreśla, że „selektywne raportowanie wyników” nie jest równoznaczne z naukowym oszustwem. Polega ono raczej na subtelnych opuszczeniach i nieświadomych nadinterpretacjach, pozwalających naukowcom nadać określone znaczenie uzyskiwanym rezultatom. „Dokonywanie pomiarów w nauce to trudne zadanie. Mówiąc o asymetrii fluktuacyjnej, mamy do czynienia z drobnymi różnicami np. pomiędzy prawą i lewą stroną badanego zwierzęcia. Chodzi o milimetry piór ogonowych. Zatem badacz analizujący udanego osobnika (który się już sparował) jeszcze przed pomiarem wie, że powinien on mieć symetryczną budowę. Sam pomiar jest zatem podatny na wpływ wcześniejszych założeń. To nie jest tylko cyniczna obserwacja. Tak działają ludzie ”, zauważa Leigh Simmons.

Jednym z klasycznym przykładów na „selektywne raportowanie wyników” są badania nad skutecznością akupunktury przeprowadzane w różnych częściach świata. O ile akupunktura jako metoda leczenia cieszy się uznaniem w wielu krajach azjatyckich, o tyle na Zachodzie jej skuteczność często się kwestionuje. Różnice kulturowe mają głęboki wpływ na rezultaty eksperymentów klinicznych dotyczących skuteczności akupunktury. W latach 1966-1995 w Chinach, na Tajwanie i w Japonii przeprowadzono 47 badań, z których każde wykazało lecznicze działanie tej formy terapii. W tym samym czasie w USA, Szwecji i Wielkiej Brytanii z 94 eksperymentów tylko 56% pokazało jakiekolwiek terapeutyczne korzyści akupunktury. Jak zauważył Palmer, taka duża rozbieżność oznacza, że naukowcy zawsze znajdą sposób, aby potwierdzić preferowaną hipotezę, ignorując dane, których wolą nie widzieć. Nasze przekonania są formą ślepoty.

John Ioannidis – znany epidemiolog z Uniwersytetu Stanforda -uważa, że zniekształcenia stanowią poważny problem zwłaszcza w badaniach biomedycznych. (O dorobku Ioannidisa i jego wpływie na współczesną naukę pisaliśmy na Nowej Debacie w artykule pt. „Prawdy, półprawdy i kłamstwa w naukach medycznych„) „Wyolbrzymianie jest powodem, dla którego zanikanie dowodów jest tak powszechne” mówi. „Byłoby znakomicie, gdyby wczesne badania dostarczały prawdziwej diagnozy sytuacji, ale tak nie jest. Dlatego marnujemy fortunę stosując różne terapie i wykonując badania typu follow-up na podstawie mylących rezultatów”. W artykule z 2005 roku, opublikowanym w piśmie „Journal of the American Medical Association”, Ioannidis przeanalizował 49 najczęściej cytowanych badań klinicznych, opublikowanych w trzech wiodących pismach fachowych. Aż 45 z nich wykazało rzekomo, że badana interwencja była skuteczna. Jako że większość z tych badań to randomizowane próby kontrolowane, stanowiące tzw. złoty standard badawczy, wywarły one duży wpływ na stosowane terapie i praktyki lekarskie. Na ich podstawie upowszechniono takie pomysły na leczenie jak terapia hormonalna dla kobiet po menopauzie czy codzienne zażywanie aspiryny w celu zapobieżenia atakom serca i udarom. Jednak Ioannidis ustalił, że spośród 35 twierdzeń, jakie poddano ponownym próbom, aż 41% zostało albo całkowicie obalonych, albo ich rzeczywiste znaczenie drastycznie spadło.

Sytuacja jest jeszcze gorsza, jeśli jakiś temat jest modny. Na przykład w ostatnich latach wykonano setki badań poświęconych genom, które mają być odpowiedzialne za inne ryzyko powstawania różnych chorób u kobiet i mężczyzn. Uzyskiwane rezultaty dotyczyły niemal wszystkich aspektów, od mutacji zwiększających ryzyko zachorowania na schizofrenię do genetycznych przyczyn nadciśnienia tętniczego. Wraz ze swoim zespołem Ioannidis przeanalizował 432 badania w tym zakresie, odkrywając że znacząca ich większość ma poważne wady i błędy. Jednak najbardziej niepokojący fakt dotyczył powtarzalności wyników: spośród 432 eksperymentów tylko w jednym przypadku wyniki stale się powtarzały. „Nie oznacza to, że żaden z tych wszystkich rezultatów nigdy się nie potwierdzi”, tłumaczy Ioannidis, „ale biorąc pod uwagę, że badania te były wykonane nieprawidłowo, nie liczyłbym na wiele”.

Zdaniem Ioannidisa główny problem polega na tym, że naukowcy uczestniczą w „pogoni za istotnością statystyczną”, wynajdując różne sposoby, aby uzyskane przez nich rezultaty spełniały warunek istotności – granicę 95 % ustanowioną przez Ronalda Fishera. „Naukowcy są tak zdeterminowani, aby spełnić ten magiczny warunek, że zaczynają grać liczbami. Próbują odkryć cokolwiek, co byłoby statystycznie istotne” uważa Ioannidis. W ostatnich latach naukowiec ten coraz mniej owija w bawełnę, mówiąc o tym nasilającym się problemie. Jeden z najczęściej cytowanych artykułów jego autorstwa nosi prowokacyjny tytuł „Why Most Published Research Findings Are False”. (pl. „Dlaczego większość publikowanych badań naukowych jest błędna”)

Zjawisko „selektywnego raportowania wyników” jest skutkiem fundamentalnej wady poznawczej występującej u człowieka. Polega ona na tym, że lubimy udowadniać naszą słuszność, a nienawidzimy być w błędzie. „Miło jest potwierdzić słuszność jakiejś hipotezy. A jeszcze przyjemniej jest ją udowadniać, gdy od tej hipotezy zależy nasza sytuacja materialna lub kariera zawodowa. Z tego względu długo po tym, jak dana teoria została naukowo obalona, nie brakuje upartych naukowców, którzy cytują jakieś wczesne badania wykazujące rzekomo wysoką skuteczność danej interwencji. Oni naprawdę chcą wierzyć w jej działanie”, mówi Ioannidis.

Schooler uważa, że naukowcy muszą być bardziej rygorystyczni właśnie na etapie gromadzenia danych, przed ich opublikowaniem. „Tracimy zbyt dużo czasu na nieprawidłowe eksperymenty”, mówi. Dodaje, że dzisiejsza „obsesja” na punkcie powtarzalności wyników odwraca naszą uwagę od sedna sprawy a jest nim nierzetelne projektowanie badań. Schooler zauważa, że w obecnych czasach nikt już nawet nie próbuje powtarzać badań, bo wykonuje się ich zbyt wiele. Według pisma „Nature” jedna trzecia wszystkich badań naukowych nigdy nie zostanie nawet zacytowana, nie mówiąc już o ich powtórzeniu. „Nauczyłem się trudnej umiejętności bycia boleśnie dokładnym”, wyznaje Schooler. „Jeszcze przed eksperymentem każdy badacz musi sobie dokładnie powiedzieć, ilu będzie miał do dyspozycji badanych, co dokładnie jest przedmiotem badania i jaki poziom stanowić będzie dowód. Mamy narzędzia do tego, aby eksperymenty naukowe były bardziej przejrzyste”.

Schooler proponuje, aby utworzyć otwartą bazę danych typu open source, do której badacze będą mieli obowiązek zgłaszać opis planowanych eksperymentów, jak również wszystkie uzyskane rezultaty. „Sądzę, że w ten sposób udałoby się znacząco poszerzyć dostęp do badań oraz zyskać nowe sposoby oceny jakości eksperymentów. Pomogłoby to nam uporać się z wszystkimi problemami, jakie obnaża zjawisko zanikania dowodów naukowych.”

Siła przypadku

Chociaż proponowane rozwiązania mogłyby ograniczyć takie zjawiska jak „tendencyjność publikacyjna” czy „selektywne raportowanie wyników”, to wciąż nie rozwiązałyby problemu zanikania dowodów. Jest tak dlatego, że badania naukowe zawsze będą podatne na działanie siły, której nie sposób okiełznać; można ją jedynie w pewnym zakresie kontrolować. Tą siłą jest zwykły przypadek. Nie zbadano jeszcze w stopniu dostatecznym ryzyka i konsekwencji działania przypadku w nauce, niemniej to, co już wiemy, nie napawa optymizmem.

W późnych latach 90-tych John Crabbe, neurolog z Oregon Health and Science University, przeprowadził znany eksperyment, w którym wykazał, w jaki sposób nieprzewidywalne okoliczności wpływają na powtarzalność wyników. W trzech różnych laboratoriach przeprowadził on na myszach identyczny eksperyment. Przed jego wykonaniem dołożył wszelkich starań, aby uwzględnić i ustandaryzować wszystkie dające się przewidzieć zmienne, które mogłyby wpłynąć na przebieg realizowanej próby: wykorzystał ten sam gatunek mysz; zwierzęta dostarczono do laboratoriów w ten sam dzień; gryzonie trzymane były w dokładnie takich samych warunkach; miały takie same oświetlenie; żyły w takich samych grupach, jadły identyczną karmę; myszami zajmowano się przy użyciu rękawiczek z tego samego materiału; eksperymentów na myszach dokonano za pomocą identycznego sprzętu, w ten sam dzień i o tej samej porze.

Ów test powtarzalności oparty był na założeniu, że badania przeprowadzone w niemal identycznych warunkach powinny dostarczyć takich samych rezultatów. „ Jeśli jakieś badania miałyby pomyślnie przejść test powtarzalności, to właśnie nasze”, mówi Crabbe. „Ale okazało się inaczej”. W laboratorium w Portland podany myszom preparat spowodował, że pokonały 600 dodatkowych centymetrów w stosunku do przeciętnej. W laboratorium w Albany zwierzęta pokonały 701 dodatkowych centymetrów. Natomiast w laboratorium w Edmonton wskutek podania leku myszy wykazały nadzwyczajną aktywność, pokonując ponad 5 tys. centymetrów ponad średnią. Co więcej, rozbieżności te wystąpiły właśnie na skutek działania zupełnie nieznanych, niekontrolowanych czynników. Można powiedzieć, że były dziełem przypadku.

Wyniki badań Crabbe’a są niepokojące, ponieważ oznaczają, że znacząca część gromadzonych w badaniach danych to zwykły chaos, tzw. „szum w eterze”. Hiperaktywność myszy w jednym z laboratoriów okazała się nie tyle nowym interesującym faktem, ile tzw. elementem odstającym (ang. outflier) bez znaczenia, produktem ubocznym niewidzialnych czynników, których ani nie znamy, ani nie rozumiemy. Jak na ironię to właśnie tego typu nadzwyczajne rezultaty mają największą szansę na opublikowanie w prestiżowych pismach naukowych. Podparte są bowiem danymi , które są zarówno statystycznie istotne, jak i całkowicie zaskakujące. Na podstawie takich odkryć przygotowuje się następnie wnioski o granty i przeprowadza badania typu follow-up. W końcu okazuje się, że chodzi o zwykły przypadek. Ale dopiero po latach.

Wszystko to sugeruje, że efekt zanikania dowodów jest w rzeczywistości efektem zanikania iluzji. Co ciekawe, wiele teorii naukowych uchodzi za prawdziwe nawet po tym, jak obalono je w wielokrotnie powtarzanych eksperymentach. Przykładem tego jest opisana wyżej hipoteza przesłaniania przez słowa, która boleśnie doświadczyła efektu zanikania dowodów. Mimo to w branży wciąż teorię tę stosuje się dość powszechnie. Ten sam mechanizm dotyczy wielu innych zagadnień, od znikających korzyści stosowania psychotyków II generacji do złożonych hipotez zaawansowanej fizyki. Nawet prawo grawitacji nie zawsze działa bez zarzutu, co wykazały na przykład eksperymenty prowadzone na pustyni w amerykańskim stanie Nevada. Mimo to psychotyki II generacji przypisuje się wielu pacjentom w najlepsze, a prawo grawitacji pozostaje nie zmienione.

Opisane wyżej anomalie odkrywają niedostatki empirii. Mimo że wiele koncepcji naukowych dostarcza w badaniach sprzecznych rezultatów, a dowody na ich prawdziwość „maleją w oczach”, hipotezy te pozostają niezmiennie cytowane w różnych książkach, przez co kształtują codzienne praktyki np. medyczne. Dlaczego? Ponieważ wydają się prawdziwe, odpowiada Lehrer. Ponieważ mają sens. Ponieważ nie potrafimy się z nimi rozstać. Tym bardziej niepokojący jest „efekt zanikania dowodów”. Nie dlatego, że obnaża słabość nauki, w której przy danych się „gmera”, a przekonania wpływają na interpretację wyników. Takie zagrożenia nie stanowią zaskoczenia, przynajmniej nie dla naukowców. Głównym powodem do niepokoju nie jest również to, że zanikanie dowodów obrazuje, jak wiele obowiązujących i ekscytujących teorii to moda, która niebawem przeminie (o tym pisał już Thomas Kuhn). Zjawisko zanikania dowodów powinno nas martwić przede wszystkim dlatego, że przypomina nam, jak trudno jest cokolwiek udowodnić. Jesteśmy przywiązani do twierdzenia, że badania naukowe definiują prawdę. Jednak to iluzja. W rzeczywistości wielu prawdziwych idei nie udaje się nigdy udowodnić. Natomiast sam fakt, że jakąś koncepcję udaje się udowodnić, nie oznacza jeszcze, że jest ona prawdziwa. Kiedy zakończą się badania, sami musimy zdecydować i wybrać, w co uwierzymy – jak słusznie zauważa Lehrer.

Przełożył i omówił: Mateusz Rolik

Na ten temat przeczytaj również:

Jeśli spodobał ci się ten artykuł podziel się nim ze znajomymi! Przyłącz się do Nowej Debaty na Facebooku TwitterzeWesprzyj rozwój Nowej Debaty darowizną w dowolnej kwocie. Dziękujemy! 

Komentarze

Komentarze

PODZIEL SIĘ
Poprzedni artykułNauka uwikłana
Następny artykułNowe pytania o otyłość, czyli szczęśliwie wraca stare.
Z wykształcenia jestem anglistą (Uniwersytet Wrocławski), ukończyłem też stosunki międzynarodowe Unii Europejskiej (Loughborough University). W latach 2002-2003 byłem stypendystą w ramach programu Josepha Conrada (Chevening programme) ufundowanego przez brytyjskie Ministerstwo Spraw Zagranicznych. Interesuję się sprawami międzynarodowymi, historią, gospodarką oraz szeroko pojętą polityką nauki. Ciekawi mnie też geneza i historia obowiązujących paradygmatów medycznych oraz mechanizmy, dzięki którym dominują. Czytam, piszę i tłumaczę teksty na te temat. Mieszkam i działam we Wrocławiu.

5 KOMENTARZE

  1. Hmm, mam niejasne wrażenie że zjawisko opisane w tym artykule może również dotyczyć koncepcji lansowanych na stronach „Nowej Debaty”. I mówię to bez cienia ironii, bo sam jestem do nich dosyć mocno przywiązany.

    • Pełna zgoda, Sceptycyzm i rewolucyjną czujność należy stosować w każdym wypadku i w stosunku wszystkich koncepcji, także tych przedstawianych na Nowej Debacie. Z tym że będzie to już podwójny sceptycyzm i mega czujność. Na szczęście, poglądy przedstawiane na ND nie są jedynie oparte na zwodniczej empirii. Pozdrawiamy!

  2. Ten artykuł udowadnia niekompetencję psychiatrów, bo trudno twierdzić, że to korupcja spowodowała, iż lekarz twierdzi, że antypsychotyki typowe (te od lat 50) mają mieć co najwyżej taką samą skuteczność co antypsychotyki „drugiej generacji”.
    Otóż w polskiej medycynie na ogół (tam gdzie nie występuje korupcja, a lekarze nie uczyli się jeszcze za Łysenkizmu) , celem stosowania starszych leków jest szybkie zmniejszenie natężenia objawów „pozytywnych” (urojenia, omamy) w warunkach szpitalnych (działania niepożądane uniemożliwiają stosowanie ich w warunkach domowych), z kolei leki nowsze stosuje się do łagodzenia objawów „negatywnych” (autyzm, anhedonia, brak motywacji, których w najmniejszym stopniu nie zwalczają takie leki jak haloperidol), natomiast wpływ tych leków na urojenia jest słabszy (często uzupełniany drugim antypsychotykiem) i stosuje je się również w leczeniu ambulatoryjnym. W teorii pierwsza i druga generacja antypsychotyków działają na zupełnie różne objawy. W teorii, bo z praktyką bywa różnie (zacząć trzeba od tego, iż lekarze niechętnie stawiają diagnozy, psycholodzy odmawiają podawania „domysłów”, powołując się na etykę psychologa, która w Polsce nie istnieje, to znaczy jakieś PTP coś tam wyskrobało, ale nikt nie ma obowiązku do PTP należeć, więc widzimy w mediach co widzimy; dalej dochodzi korupcja, fałszowanie badań nad lekami, czy zwykłe niedouczenie, braki kadrowe – brakuje psychologów-diagnostów, choć psycholodzy dziś zamiast dyplomu mogliby dostawać od razu skierowanie na zasiłek – może to specjaliści od feminizmu wśród rasistowskich szczepów drożdży?).
    Co więcej, czasopisma i portale medyczne pomijają biologiczny aspekt zaburzeń, które wpadają w strefę wpływów psychoanalityków i psychoterapeutów. Od maja 2013 w amerykańskiej psychiatrii zostanie w kategorii „zaburzenia osobowości” (czyli trwały wzorzec osobowości, niezwiązany z zaburzeniami biologicznymi) tylko pięć zaburzeń osobowości, w tym:
    -osobowość antyspołeczna (badania wskazują na podłoże biologiczne)
    -osobowość borderline (w Polsce osobowość chwiejna emocjonalnie, obejmuje typ impulsywny i typ borderline – ten drugi związany z uszkodzeniami ośrodków odpowiedzialnych za pamięć i kontrolę emocji, o czym rzadko się pisze, bo te wszystkie ego, selfy, zazdrość o kastrację matki edypa lepiej brzmią)
    -osobowość schizotypowa (w Polsce zaburzenie typu schizofrenii lub zaburzenia schizotypowe, klasyfikowane jako lekka choroba psychiczna, zmiany biochemiczne i strukturalne, dziedziczne).

ZOSTAW ODPOWIEDŹ