อะไรคือหลักฐาน?

xkcd “Significant”

 

เราเคยหยิบยกเรื่องความน่าเชื่อถือของความรู้ในบล็อกนี้มาก่อน หนึ่งในตัวอย่างในโพสท์นั้นก็คือโครงการ Many Labs ที่พยายามทำซ้ำการทดลองสำคัญในจิตวิทยาโดยความร่วมมือของนักจิตวิทยาทั่วโลกและพบว่า 3 ใน 13 การทดลองไม่สามารถทำซ้ำได้ เมื่อเร็วๆนี้ผลของความพยายามทำซ้ำที่ใหญ่ที่สุดในประวัติศาสตร์ของจิตวิทยาได้เริ่มออกมาให้เห็นแล้ว และจะเรียกได้ว่าจิตวิทยาสอบตกก็ได้
First results from psychology’s largest reproducibility test

An ambitious effort to replicate 100 research findings in psychology ended last week — and the data look worrying. Results posted online on 24 April, which have not yet been peer-reviewed, suggest that key findings from only 39 of the published studies could be reproduced.

[E]arlier studies have suggested that reproducibility rates in cancer biology and drug discovery could be even lower.

และตอกย้ำคำถาม(ที่สำคัญและทุกคนที่ทำการทดลองต้องถามตัวเอง)ที่ว่า “เมื่อไรที่จะเรียกการทำซ้ำว่าสำเร็จ?”

Of the 61 non-replicated studies, scientists classed 24 as producing findings at least “moderately similar” to those of the original experiments, even though they did not meet pre-established criteria, such as statistical significance, that would count as a successful replication.

ความสงสัยในความน่าเชื่อถือของงานวิจัยที่ได้รับการตีพิมพ์นั้นเริ่มเป็นเรื่องที่คนให้ความสนใจอย่างมากเมื่อนักระบาดวิทยาชาวกรีก John P. A. Ioannidis ในปี 2005 ตีพิมพ์เปเปอร์ Why Most Published Research Findings Are False

There is increasing concern that in modern research, false findings may be the majority or even the vast majority of published research claims. However, this should not be surprising. It can be proven that most claimed research findings are false.

ในปี 2012 วารสาร Perspectives on Psychological Science ได้อุทิศทั้งฉบับให้กับปัญหาการ(ขาดการ)ทำซ้ำในจิตวิทยา ซึ่งก็มีบทความของ Ioannidis และบทความนำเสนอโครงการของ Open Science Collaboration ที่ผลเพิ่งออกมาข้างต้นรวมอยู่ด้วย Ioannidis”พิสูจน์” ได้ว่างานวิจัยที่ตีพิมพ์ส่วนใหญ่ผิดอย่างไร? งานวิจัยส่วนใหญ่ใช้ค่า p (p-value) เป็นปัจจัยตัวเดียวในการตัดสินว่าผลที่พบมีนัยสำคัญหรือไม่: p < 0.05 (“สำคัญ”) หรือ p < 0.01 (“สำคัญมาก”) โดยที่ไม่รู้ว่าจริงๆแล้วมันแปลว่าอะไรด้วยซ้ำ ค่า p บอกความน่าจะเป็นที่ได้ผลการทดลอง D หากสมมติฐาน H0 เป็นจริง

p = P(D|H0)

ถ้าค่า p น้อยคนก็มักจะบอกว่าเพราะเห็นผลการทดลองที่ไม่น่าจะมีโอกาสเกิดน้อยขนาดนั้น สมมติฐานจึงไม่น่าเป็นจริง และทำการปฏิเสธ H0 “null hypothesis” นี่คือเป้าหมายที่ Fisher และ Neymann และ Pearson ต้องการจะไปถึง แต่จะเห็นว่าค่า p โดยตัวมันเองไม่สามารถบอกอะไรเกี่ยวกับความน่าจะเป็นที่สมมติฐานที่เราต้องการพิสูจน์ (H) เป็นจริงเมื่อได้ผล D เลย. P(H|D) ขึ้นอยู่กับความน่าจะเป็นที่ H เป็นจริง(ก่อนที่จะทำการวิจัยนั้น)และสิ่งที่ Ioannidis เรียกว่าพลังทางสถิติ (statistical power) ในเทอมของสถิติดั้งเดิม (ถ้าอยากอ่านหลุมพรางนักวิทยาศาสตร์ในการใช้สถิติดั้งเดิมและตัวอย่างและผลที่ตามมาในประวัติศาสตร์ก็ไปที่ Statistics Done Wrong ได้) ซึ่งเท่าที่เราอ่านๆดูเทียบได้กับ P(D|H)ในเทอมของสถิติ Bayesian ซึ่งจากทฤษฎีบทของ Bayes เราก็จะเห็นว่าความสัมพันธ์ของสองความน่าจะเป็นนี้ขึ้นอยู่กับอะไรบ้าง

P(H|D) = \frac{P(D|H)P(H)}{P(D)}

หรือในภาษาอังกฤษ

\text{Posterior} \propto \text{Likelihood} \times \text{Prior}

โดยถือว่า P(D) ในตัวส่วนสเกลให้ P(H|D) เป็นความน่าจะเป็นเฉยๆ ถ้าความเชื่อของสมมติฐาน H ก่อนจะทำการทดลองแทบเป็นไปไม่ได้ ไม่ว่าพลังทางสถิติจะสูงขนาดไหนก็ยากที่จะบอกได้ว่า H เป็นจริงจากผลการทดลอง ความหายนะที่เกิดขึ้นก็คือนักวิทยาศาสตร์ก็ชอบจะคอนเฟิร์มสมมติฐานอะไรที่ดูดึงดูดน่าสนใจ ไม่น่าเป็นจริงได้ เพื่อจะตีพิมพ์เป็นงานสำคัญได้ เพราะระบบการตีพิมพ์ในบางสาขาวิจัยให้รางวัลผลที่เป็นบวกมากกว่าผลที่เป็นลบ

ถ้าอย่างนั้นนักวิทยาศาสตร์จะทำอย่างไรดี? รายงานการแจกแจงของ Prior, Likelihood, Posterior ทั้งหมด? ใช้เครื่องมืออื่นๆสรุปผล? ไม่ว่าอย่างไหนก็เป็นงานยากสำหรับนักวิทยาศาสตร์ที่ได้รับการฝึกแต่ใช้สถิติแบบทำตามๆกัน แต่ถูกแล้วที่จะมันเป็นเรื่องยาก สำหรับเราหัวใจของวิทยาศาสตร์และความมีเหตุผลคือการหาวิธีที่จะหลอกตัวเองได้น้อยลง ถ้าทำไม่ได้ความรู้เฉพาะทางมากมายมหาศาลแค่ไหนก็กลายเป็นขยะ

สิ่งที่น่าสนใจก็คือถ้าอย่างนั้นแล้วความก้าวหน้าของความรู้ในสาขาที่โอกาสที่สมมติฐานที่ต้องการพิสูจน์จะเป็นจริงได้มีน้อยนิดก็ดูจะเป็นแค่ความหวังลมๆแล้งๆ แต่เราเชื่อว่าจะยังมีและจะมีคนที่ฉลาดพอที่จะแก้ปัญหาเหล่านี้ได้

Neural Networks and Deep Learning: Chapter 3

You have to realize that our theoretical tools are very weak. Sometimes, we have good mathematical intuitions for why a particular technique should work. Sometimes our intuition ends up being wrong […] The questions become: how well does my method work on this particular problem, and how large is the set of problems on which it works well.

Question and answer with neural networks researcher Yann LeCun

In many parts of science – especially those parts that deal with simple phenomena – it’s possible to obtain very solid, very reliable evidence for quite general hypotheses. But in neural networks there are large numbers of parameters and hyper-parameters, and extremely complex interactions between them. In such extraordinarily complex systems it’s exceedingly difficult to establish reliable general statements. Understanding neural networks in their full generality is a problem that, like quantum foundations, tests the limits of the human mind. Instead, we often make do with evidence for or against a few specific instances of a general statement. As a result those statements sometimes later need to be modified or abandoned, when new evidence comes to light.

One way of viewing this situation is that any heuristic story about neural networks carries with it an implied challenge… Each heuristic is not just a (potential) explanation, it’s also a challenge to investigate and understand in more detail.

Of course, there is not time for any single person to investigate all these heuristic explanations in depth. It’s going to take decades (or longer) for the community of neural networks researchers to develop a really powerful, evidence-based theory of how neural networks learn. Does this mean you should reject heuristic explanations as unrigorous, and not sufficiently evidence-based? No! In fact, we need such heuristics to inspire and guide our thinking. It’s like the great age of exploration: the early explorers sometimes explored (and made new discoveries) on the basis of beliefs which were wrong in important ways. Later, those mistakes were corrected as we filled in our knowledge of geography. When you understand something poorly – as the explorers understood geography, and as we understand neural nets today – it’s more important to explore boldly than it is to be rigorously correct in every step of your thinking. And so you should view these stories as a useful guide to how to think about neural nets, while retaining a healthy awareness of the limitations of such stories, and carefully keeping track of just how strong the evidence is for any given line of reasoning. Put another way, we need good stories to help motivate and inspire us, and rigorous in-depth investigation in order to uncover the real facts of the matter.