ทฤษฎีควอนตัมในฐานะทฤษฎีความน่าจะเป็น ตอนที่ 2

23 ก.ย.: ปรับปรุงตรงส่วน axioms ใหม่ของทฤษฎีควอนตัม, เพิ่มอรรถาธิบาย
25 ก.ย.: เพิ่มเรื่อง superposition และคำอธิบายของสมมติฐานของทฤษฎีบทของ Gleason ที่เป็นภาษาคนก่อนภาษาคณิตศาสตร์

ในตอนที่แล้วเราได้ประกาศให้

a\left[\begin{array}{c} 1 \\ 0 \end{array}\right] +b\left[\begin{array}{c} 0 \\ 1 \end{array}\right]

เมื่อ a และ b เป็นจำนวนเชิงซ้อนใดๆเป็นสถานะของความรู้ที่มากที่สุดในทฤษฎีควอนตัม ต่างกับในทฤษฎีความน่าจะเป็นแบบไม่ต่อเนื่อง (discrete) ที่

\left[\begin{array}{c} 1 \\ 0 \end{array}\right]

และ

\left[\begin{array}{c} 0 \\ 1 \end{array}\right]

เป็นเพียง 2 สถานะของความรู้ที่มากที่สุดถ้ามีเพียง 2 เหตุการณ์ที่ไม่สามารถเกิดพร้อมกันได้ (mutually exclusive) ถ้ามีมากกว่านั้นก็ประกาศให้ทุกๆเวกเตอร์ของจำนวนเชิงซ้อนที่เป็นผลบวกของเวกเตอร์ของเหตุการณ์ที่ไม่สามารถเกิดพร้อมกันได้เป็นสถานะของความรู้ที่มากที่สุดเช่นกัน

แต่มันเสียเวลาที่จะเขียนเวกเตอร์แถวหรือหลักโดยการลิสต์ตัวเลขทุกๆตำแหน่งของเวกเตอร์ตลอดเวลา นักฟิสิกส์จึงบอกให้รู้ว่าสิ่งที่เขียนเป็นเวกเตอร์โดยการครอบสัญลักษณ์อะไรก็ได้ที่ label เวกเตอร์ระหว่างเส้นแนวตั้งกับหัวลูกศร โดยข้อตกลงทั่วไปคือถ้าชี้ขวาเป็นเวกเตอร์หลัก (column vector) | \psi \rangle เรียกว่า “ket” ถ้าชี้ซ้ายเป็นเวกเตอร์แถว (row vector) \langle \psi | (ที่ได้จากการสลับแถวกับหลักของ |\psi \rangle แล้ว complex conjugate ทุกตำแหน่ง) เรียกว่า “bra”(การใช้เครื่องหมายมากกว่า > หรือน้อยกว่า < เป็นหัวลูกศรเป็นบาปหนัก ตายไปแล้วจะตกนรก LaTeX ชั้นที่แปด) เพราะเมื่อเอามันมาคูณกันตามหลักการคูณเมทริกซ์แล้วจะได้ inner product “bracket” ซึ่งเป็นตัวเลข

โดย Sabine Hossenfelder

ในขณะที่ “ket-bra” |\psi\rangle \langle \varphi | เป็นเมทริกซ์

คำติดปากที่นักฟิสิกส์ใช้เรียกสถานะที่เขียนได้เป็นผลบวกของเวกเตอร์ |\psi \rangle = |\varphi \rangle + |\chi \rangle ก็คือ |\psi \rangle เป็น superposition ของ |\varphi \rangle และ | \chi \rangle คำศัพท์ที่ตกทอดมาจากฟิสิกส์ของคลื่นที่สามารถซ้อนทับ (superpose) กันได้

คำเตือนหนึ่งในการใช้คำว่าสถานะ superposition ก็คือมันขึ้นอยู่กับเบสิสที่เราเลือก ทุกๆสถานะควอนตัมเป็น superposition ของเซตของเวกเตอร์ที่เป็นเบสิสเบสิสใดเบสิสหนึ่งเสมอ จึงไม่มีความหมายที่จะพูดว่าสถานะที่เรามีเป็นสถานะ superposition หรือไม่ถ้าไม่ได้เจาะจงเบสิสลงไป

แต่สถานะ superposition ในควอนตัมมีความหมายอะไรทางฟิสิกส์? สมมติถ้าเราเอาเวกเตอร์ของแมวมารวมกับเวกเตอร์ของบรา เวกเตอร์แทนสถานะของความรู้ที่มากที่สุดซึ่งก็คือสถานะของความรู้ที่รู้ทุกอย่างเท่าที่จะรู้ได้ ดังนั้นสถานะ superposition ของแมวกับบราจึงไม่ใช่สถานะของความไม่แน่นอนที่เราอาจจะสังเกตแล้วเจอแมวหรือบราได้ ดังเช่นในกรณีของ polarization ของแสง, polarization แบบหมุนซึ่งเป็น superposition ของ polarization แนวตั้งกับแนวนอนนั้นต่างกับ polarization แนวตั้งหรือแนวนอนและไม่ใช่ความไม่แน่นอนที่จะเห็น polarization ไม่แนวตั้งก็แนวนอนซึ่งจะเป็นแสงที่ polarized บางส่วนหรือไม่ polarized แทน ดังนั้น superposition ของแมวและบราก็อาจจะเป็น

(หรือแมวกับบราอาจจะรวมกันไม่ได้ด้วยเหตุผลเดียวกับที่โบซอน (boson) และเฟอร์มิออน (fermion) รวมกันไม่ได้) แต่ประเด็นที่เกี่ยวข้องกับเราในตอนนี้ก็คือเราสมมติว่าเมื่อไรก็ตามที่เรามีเซตของเวกเตอร์ของสถานะของความรู้มากที่สุดที่ตั้งฉากกัน กล่าวคือเซตของสถานะความรู้มีความสัมพันธ์หนึ่งต่อหนึ่งกับเซตของเหตุการณ์ที่เกิดขึ้นพร้อมกันไม่ได้ เราสามารถทำการวัดที่จะแยกแยะมันได้ อย่างในคิวบิท (qubit), ระบบควอนตัมที่มีเหตุการณ์ที่เกิดขึ้นพร้อมกันไม่ได้อย่างมาก 2 เหตุการณ์, ถ้าเราสามารถทำการวัดเพื่อแยกแยะ |0\rangle กับ |1\rangle ได้เราก็แยกแยะ |0\rangle +|1\rangle กับ |0\rangle - |1\rangle หรือ |0\rangle +i|1\rangle กับ |0\rangle - i|1\rangle ได้ ซึ่งเป็นสมมติฐานภายใต้ทฤษฎีบทของ Gleason

ทฤษฎีบทของ Gleason และการวัด

Andrew M. Gleason (1921-2008) บอกว่าเราจะคำนวณความน่าจะเป็นจากการวัดในทฤษฎีความน่าจะเป็นแบบใหม่นี้ได้อย่างไร ในปี 1957, Gleason พิสูจน์ว่าถ้าเรามีการวัดที่ให้ผลแน่นอนซึ่งแทนด้วยเซตของเมทริกซ์การฉาย {E} ที่ตั้งฉากซึ่งกันและกัน หากมีฟังก์ชัน P ที่ให้ความน่าจะเป็น (ตัวเลขที่มีค่าได้ตั้งแต่ 0 ถึง 1) ของผล j ซึ่งขึ้นอยู่กับ Ej เท่านั้น โดยเฉพาะว่า P ไม่ขึ้นกับสมาชิกอื่นๆ Ek ≠ j ของการวัด และ P มีพฤติกรรมเหมือน P(E) ในทฤษฎีความน่าจะเป็นดั้งเดิมดั้งต่อไปนี้

I. ความน่าจะเป็นที่จะไม่มีผลการวัดเป็น 0

P(0) = 0

II. ความน่าจะเป็นที่จะได้ผลสักผลเป็น 1

P(I) = 1

(I คือเมทริกซ์เอกลักษณ์ เราให้เซต {E} มีเมทริกซ์การฉายทั้งหมดที่เป็นไปได้ ดังนั้นจะต้องมีสักเซตย่อยที่รวมกันได้เมทริกซ์เอกลักษณ์)

III. ความน่าจะเป็นที่ j และ k จะเกิดขึ้นเป็นผลบวกของความน่าจะเป็นของ j และของ k เมื่อ j และ k ไม่สามารถเกิดขึ้นพร้อมกันได้

E_j E_k =0 \implies P(E_j+E_k) = P(E_j) + P(E_k)

P จะต้องให้ความน่าจะเป็นตามทฤษฎีควอนตัม! นั่นคือความน่าจะเป็นที่จะได้ผล Ej ในสถานะที่รู้มากที่สุดเท่าที่จะรู้ได้ |\psi\rangle คำนวณได้จาก

P( j | \psi ) = \langle \psi|E_j|\psi \rangle

[1] ทฤษฎีบทของ Gleason ไม่ต้องสมมติความต่อเนื่อง (continuity) ของ P หรืออะไรอย่างอื่นอีกเลย (แต่เดี๋ยวเราจะพูดถึงช่องโหว่ของมันและวิธีอุด)

ณ จุดนี้จะเห็นได้ว่าทำไมเราถึงแยะแยะความรู้ที่มากที่สุดและความรู้ที่สมบูรณ์ ถ้าจำได้ความรู้ที่รู้ทุกอย่างเท่าที่จะรู้ได้แล้วเราเรียกว่าความรู้ที่มากที่สุด และความรู้ที่ทำให้ความน่าจะเป็นของทุกๆเหตุการณ์เป็น 0 หรือ 1 เท่านั้นเป็นความรู้ที่สมบูรณ์ ในสถานะที่รู้มากที่สุดเท่าที่จะรู้ได้ |\psi \rangle ถ้าเราทำการวัดด้วย |\psi \rangle \langle \psi | ที่ฉายลงบนตัวมันเองเราก็จะได้ผลที่แน่นอน, |\psi \rangle ด้วยความน่าจะเป็น 1 แต่ทันทีที่เราทำการวัดนอกเหนือจากนี้ (ซึ่งมีให้เลือกจำนวนนับไม่ถ้วน เราสามารถฉายไปบนสถานะ |\varphi \rangle \langle \varphi | ไหนก็ได้ ) เราจะทำนายได้เพียงความน่าจะเป็นที่จะได้ผลการวัดใดผลการวัดหนึ่ง

P(\varphi | \psi) = |\langle \varphi | \psi \rangle |^2

ดังนั้นในทฤษฎีควอนตัม, ความรู้ที่มากที่สุดไม่มีทางสมบูรณ์ [2] สถานะของความรู้ที่มากที่สุดในทฤษฎีควอนตัมทำตัวเหมือนความน่าจะเป็นที่มีความไม่แน่นอนมากกว่า

การคำนวณความน่าจะเป็นด้วยการ “ยกกำลังสอง” นี้คือสิ่งที่ Max Born (1882-1970) เขียนเป็นครั้งแรกในปี 1926 ในเชิงอรรถของเปเปอร์ (แถมยังเขียนผิดไม่มีกำลังสองอีกตะหาก!)

กฏการคำนวณความน่าจะเป็นนี้เทียบเท่ากับบางส่วนของ axioms III และ IV เพราะการคำนวณค่าเฉลี่ยของผลการวัด xj เท่ากับการนิยามเมทริกซ์ X = ∑j xj Eขึ้นมา

\sum_j x_j \langle \psi |E_j|\psi \rangle = \langle \psi | \left( \sum_j x_j E_j \right) |\psi \rangle = \langle \psi |X|\psi \rangle

แต่ X จะเป็นเมทริกซ์ Hermitian ก็ต่อเมื่อ xj เป็นจำนวนจริงเท่านั้น ซึ่งไม่มีความจำเป็น สิ่งที่จำเป็นคือมันต้องเป็นเมทริกซ์ที่แปลงเป็นเมทริกซ์ทแยงมุมได้ถึงจะแตกกลับเป็น ∑j xj Eได้ ในทางกลับกันกฎการหาค่าเฉลี่ยก็เพียงพอที่จะให้ความน่าจะเป็นกับเราได้เพราะถ้าเรานิยาม X = ∑j xj Ej ให้หนึ่งใน xเป็น 1 และที่เหลือเป็น 0 เมื่อเราคำนวณค่าเฉลี่ยของ X ก็จะได้ความน่าจะเป็นที่จะได้ผล Ej แทน (ในมิติอนันต์ที่ทำอย่างนี้ไม่ได้ก็อาศัยว่าเรารู้การแจกแจงความน่าจะเป็นได้ถ้าเรารู้ทุกๆโมเมนต์ (moment) \langle \psi |X|\psi \rangle,\langle \psi |X^2|\psi \rangle …, ของมัน)

สมการ Schrödinger

ผลพลอยได้จากการรู้กฎการคำนวณความน่าจะเป็นก็คือกฎการแปลงความน่าจะเป็น ในการฉาย |\psi \rangle ลงบนตัวมันเอง,

|\langle \psi|\psi \rangle |^2 = 1

จากพีชคณิตเชิงเส้นเรารู้แล้วว่าการแปลงด้วยเมทริกซ์ unitary U

U^{\dagger} U = UU^{\dagger} = I

อนุรักษ์ปริมาณ |\langle \psi|\psi \rangle |^2 นี้แสดงว่ามันเป็นการแปลงที่อนุรักษ์ความน่าจะเป็นในทฤษฎีควอนตัม สิ่งที่ Eugene Wigner (1902-1995) พิสูจน์ (หมอนี่พิสูจน์หลายอย่างมากจนได้รางวัลโนเบล) คือการแปลงที่ต่อเนื่อง(ที่เราต้องการ)ที่รักษาปริมาณนี้จะต้องเป็นเมทริกซ์ unitary โดยไม่ต้องสมมติว่าเป็นการแปลงเชิงเส้นด้วยซ้ำ

และนี่คือวิธี derive สมการ Schrödinger ถ้ายังไม่เคยเห็น: เขียน U ในรูป exponential ของเมทริกซ์ Hermitian

U = e^{-iHt/\hbar},

เมื่อไรก็ตามที่ U และ H เขียนในรูปเมทริกซ์ทแยงมุมได้ (ซึ่งเขียนได้เพราะทั้งคู่เป็นเมทริกซ์ normal), exponential ของเมทริกซ์คือเมทริกซ์ทแยงมุมที่มี exponential (ในที่นี้ e-iEt/ħ เมื่อ E เป็น eigenvalue ของ H) บนแนวทแยง และ ħ (“h-บาร์”)คือค่าคงที่ของ Planck ที่มีหน่วยพลังงาน × เวลาเพื่อตัดกับหน่วยของ H กับ t ที่เราจะให้เป็นพลังงานและเวลาตามลำดับ

เราก็หาอนุพันธ์ของมัน

\begin{aligned} i\hbar \frac{d}{dt} U &= H U \\ i\hbar \left(\frac{d}{dt} U \right)|\psi (0)\rangle &= H U |\psi (0) \rangle \\ i\hbar \frac{d}{dt} |\psi (t)\rangle &= H |\psi (t)\rangle \end{aligned}

และก็จะได้สมการ Schrödinger ออกมา

สมการที่ Erwin Schrödinger (1887-1961) เขียนเป็นครั้งแรกในปี 1925-26 ใช้ไม่ได้ในมิติที่มีขอบเขต (finite) และตอนนั้น Schrödinger ยังไม่รู้ด้วยซ้ำว่ามันเป็นสมการของความน่าจะเป็นและนึกว่าเป็นสมการของคลื่นสสารอะไรบางอย่าง

Where Do We Stand?

สิ่งที่มีแล้วในทฤษฎีควอนตัมของเราตอนนี้คือ

I. สถานะของความรู้ที่มากที่สุดในทฤษฎีควอนตัมแทนด้วยเวกเตอร์ของจำนวนเชิงซ้อน
II. การเปลี่ยนสถานะของความรู้ที่มากที่สุดไปในเวลาเป็นไปตามสมการ Schrödinger
III. การวัดแทนด้วยเซตของเมทริกซ์การฉาย {E} ที่ตั้งฉากซึ่งกันและกัน
IV. ความน่าจะเป็นที่จะได้ผลการวัด j ในสถานะ |\psi \rangle  คือ \langle \psi|E_j|\psi \rangle
V. หลายระบบประกอบกันด้วยการคูณแบบเทนเซอร์

และเราไม่จำเป็นต้องถือ 5 ข้อนี้เป็น axioms อีกต่อไปแล้วเพราะเราเห็นแล้วว่า II, III, IV, และ V มาจากเพียง axiom เดียว

ทฤษฎีควอนตัมคือทฤษฎีความน่าจะเป็นซึ่งใช้เวกเตอร์ของจำนวนเชิงซ้อนแทนสถานะของความรู้ที่มากที่สุด

[3] ณ จุดนี้ยังไม่มีอะไรที่บอกเราเกี่ยวกับสถานะหลังการวัด และในความเป็นจริงแล้วมันไม่จริงที่ว่าการวัดที่สำเร็จจะปล่อยให้ระบบอยู่ในสถานะที่เราวัดได้เสมอไป เช่น ในการวัดว่ามีโฟตอน (photon) ของแสงหรือไม่ ถ้าเครื่องมือวัดดูดซับโฟตอนไปไม่ว่าจะมีโฟตอนอยู่ก่อนหน้าหรือไม่ก็จะไม่เหลือโฟตอนหลังการวัด

เราจึงตกอยู่ในสถานการณ์ที่น่าสนใจ เราเริ่มต้นจากการพยายามค้นหาความเข้าใจของ “axioms” ของทฤษฎีควอนตัมที่มีในหนังสือเรียนทั่วไป แต่กลับพบว่าบาง “axiom” ก็ต้องมีการเพิ่มเติมเปลี่ยนแปลง บาง “axiom” ก็ไม่จำเป็นจะต้องเป็นจริง

เพื่อหาผลที่ general ที่สุดของ axiom ของทฤษฎีควอนตัม เราจะกลับไปที่ทฤษฎีบทของ Gleason และดูว่าทำไมทฤษฎีบทที่เราร่างไปข้างต้นที่ Gleason พิสูจน์จริงๆแล้วมันใช้ไม่ได้ใน 2 มิติและมีวิธีแก้อย่างไร

ทฤษฎีบทของ Gleason ใน 2 มิติ

เหตุผลก็คือใน 3 มิติขึ้นไปเมทริกซ์เอกลักษณ์สามารถแตกเป็นการวัดได้จำนวนนับไม่ถ้วนเพราะเราสามารถหมุนเบสิสได้อย่างอิสระ I = E1+E2+E3, I = E1+E4+E5 ,… โดยคงเมทริกซ์เดิม (ในที่นี้ E1) ในทุกๆการแตกได้ อิสระของการแตกเมทริกซ์เอกลักษณ์บวกกับข้อแม้ว่า P ของผลของการวัดที่ 1 ไม่สามารถขึ้นกับ Ej ≠ 1ได้จำกัดรูปแบบที่เป็นไปได้ของ P ให้เป็นกฎความน่าจะเป็นในควอนตัม ในขณะที่ในสองมิติถ้าเราจะใช้ E ในการแตก I ส่วนที่เหลือของ I ก็ต้องเป็น I-E เท่านั้น เป็นอย่างอื่นไม่ได้ เพราะฉะนั้นถึงแม้ว่าจะมีสองเวกเตอร์ที่ใกล้กันแค่ไหน กฎของความน่าจะเป็นในสองทิศทางนั้นก็ไม่จำเป็นต้องมีความสัมพันธ์กันก็ได้

Counterexample: ถ้าเราคิดถึงเวกเตอร์ของจำนวนจริงที่หมุนใน 2 มิติ (ทฤษฎีบทของ Gleason ใช้ได้ทั้งกับเวกเตอร์ของจำนวนจริงและจำนวนเชิงซ้อน) กำหนดให้ฟังก์ชัน Q(θ) นิยามบนช่วง 0 ≤ θ < π/2 มีค่าใดๆก็ได้ตั้งแต่ 0 ถึง 1 เราสามารถนิยาม P(θ)ให้เป็น Q(θ) เมื่อ 0 ≤ θ < π/2, ให้เป็น 1 – Q(θ – π/2) เมื่อ π/2 ≤ θ < π ก็จะได้ความน่าจะเป็นในช่วง 0 ≤ θ < π ทีเหลืออีก π ก็นิยาม P จาก Q ให้เป็นความน่าจะเป็นในทำนองเดียวกัน [4] ก็จะได้ฟังก์ชันที่ให้ความน่าจะเป็นที่ไม่จำเป็นจะต้องต่อเนื่อง (continuous) หรือมีอนุพันธ์ (differentiable) ซึ่งไม่ใช่กฎความน่าจะเป็นของทฤษฎีควอนตัม

แต่ไม่ต้องกังวล ถ้าเราไม่ด่วนเพิกเฉย “การวัดที่สับสนระหว่างผลการวัดที่แตกต่างกันได้” และกำหนดแค่ว่า E ต้อง “เป็นบวก” และรวมกันได้เมทริกซ์เอกลักษณ์เฉยๆ เราสามารถพิสูจน์กฏความน่าจะเป็นของควอนตัมใน 2 มิติได้ [5] เมทริกซ์ E เป็นบวกถ้าหาก

\langle \psi|E|\psi \rangle \ge 0

สำหรับทุกๆเวกเตอร์ |\psi \rangle แม้ในทฤษฎีความน่าจะเป็นดั้งเดิมที่ P(λ) มีแต่จำนวนบวกเราก็ต้องการ P(E|λ) ที่เป็นบวกเพื่อป้องกันไม่ให้ได้ความน่าจะเป็นที่ติดลบออกมา การวัดแบบนี้ในทฤษฎีควอนตัมเรียกว่า “positive-operator valued measure” หรือ POVM ซึ่งหลากหลายกว่าการวัดแบบฉายทำให้พิสูจน์ทฤษฎีบทของ Gleason ได้ง่ายกว่า

ไอเดียก็คือจากความอิสระในการเลือก POVM เราสามารถขยายฟังก์ชัน P ไปเป็นฟังก์ชันเชิงเส้นในเวกเตอร์สเปซของเมทริกซ์ได้ (ไม่ใช่เฉพาะของ E) และทุกคนรู้ว่าฟังก์ชันเชิงเส้นจากเวกเตอร์สเปซไปยังจำนวนจริงเขียนได้ในรูปของ inner product แต่เมื่อเวกเตอร์ของเราเป็นเมทริกซ์ เราก็ใช้ trace inner product แทน (ไม่ว่า inner product ไหนก็เหมือนกันเพราะเราแปลง “Hermitian form” ของมันให้เป็นเมทริกซ์ทแยงมุมได้)

P = \mbox{tr}(E\rho)

นั่นคือ Gleason พิสูจน์ว่าจะต้องมี “density matrix”ρ (เดาว่าชื่อและสัญลักษณ์ตกทอดมาจากความหนาแน่นของความน่าจะเป็น (probability density) บน phase space ในฟิสิกส์ดั้งเดิม) ของสถานะควอนตัมที่ไม่จะเป็นจะต้องเป็นสถานะที่รู้มากที่สุดซึ่งให้ความน่าจะเป็นที่ต้องการออกมาในรูปของ trace inner product ข้างต้น

เราจึงมี density matrix และ POVM เข้ามาในคำอธิบายของทฤษฎีควอนตัม ซึ่งการที่จะเข้าใจสองอย่างนี้ได้จะต้องไปเกินกว่าทฤษฎีควอนตัมของระบบเดี่ยวซึ่งจะทำให้เราได้เห็นธรรมชาติอันเป็นมายาของสถานะควอนตัม: entanglement

อรรถาธิบาย

[1] บางครั้งเราจะได้ยินความพยายามในการพิสูจน์กฎความน่าจะเป็นนี้ในการตีความแบบ Many-Worlds เขาไม่อยากใช้ทฤษฎีบทของ Gleason ก็เพราะในการตีความประเภทนั้นทุกอย่าง deterministic หมด ทฤษฎีควอนตัมไม่ใช่ทฤษฎีความน่าจะเป็นตั้งแต่แรกซึ่งเป็นสิ่งที่เราสมมติในโพสท์นี้
[2] “Maximal information is never complete.” จาก Carlton Caves และ Christopher Fuchs, “Quantum information: How much information in a state vector?” (1996)  
[3] นี่จะเรียกว่าเป็นสโลแกนเฉยๆก็ได้ เราไม่ได้เข้มงวด (rigorous) มากนักเพราะนึกจะเก็บส่วนไหนของทฤษฎีความน่าจะเป็นก็เก็บ นึกจะทิ้งก็ทิ้ง ถ้าจะทำให้เข้มงวดจะต้องหา axioms ที่สอดคล้องกับทั้งทฤษฎีความน่าจะเป็นและทฤษฎีควอนตัมก่อน จากนั้นจึงเติม axiom ที่สอดคล้องกับทฤษฎีควอนตัมแต่ขัดแย้งกับทฤษฎีความน่าจะเป็นอย่างใน Lucien Hardy, “Quantum Theory From Five Reasonable Axioms” (2001) ภาพรวมสั้นๆ ของสิบกว่าปีของความพยายามนี้หาอ่านได้ใน section 2 ของ Lucien Hardy, “Reconstructing quantum theory” (2013)  
[4] K. R. Parthasarathy, An Introduction to Quantum Stochastic Calculus
[5] Paul Busch, “Quantum states and generalized observables: a simple proof of Gleason’s theorem” (2003), Carlton Caves, Christopher Fuchs, Kiran Menne และ Joseph Renes, “Gleason-Type Derivations of the Quantum Probability Rule for Generalized Measurements” (2003) 

ทฤษฎีควอนตัมในฐานะทฤษฎีความน่าจะเป็น ตอนที่ 1

ในโพสท์ก่อนเราพูดถึง axiom หรือชุดความจริงพื้นฐานที่เราหวังว่าจะใช้พิสูจน์ความจริงทั้งหมดได้ (ซึ่งเราพบว่าไม่สามารถทำได้) ในทางคณิตศาสตร์ โพสท์นี้จะนำเข้าสู่ทฤษฎีควอนตัมเพื่อเริ่มค้นหา “ความเข้าใจทฤษฎีควอนตัมและควอนตัมคอมพิวเตอร์… ซึ่งเมื่อคุณเข้าใจแล้วก็จะมองวิทยาศาสตร์และศาสนาเทียมที่อ้างทฤษฎีควอนตัมแบบผิดๆออก” โดยการอุ่นเครื่องเพื่อนำไปสู่ความเห็นที่ว่าทฤษฎีควอนตัมมาจากการเปลี่ยนแปลงทฤษฎีความน่าจะเป็นเพียงแค่ที่จุดจุดเดียวเท่านั้น

“If you want to learn about nature, to appreciate nature, it is necessary to understand the language that she speaks in.”

Richard Feynman

มันมีประโยชน์ไหมที่จะพูดถึง axiom ในฟิสิกส์? ในฟิสิกส์ดั้งเดิมเรามีกฎ Newton, สมการ Maxwell และกฎอุณหพลศาสตร์เป็นหลักแต่มันก็ยังต้องใช้ความจริงของธรรมชาติมากมายที่อธิบายไม่ได้จนกว่าจะค้นพบทฤษฎีของกาลอวกาศ – สัมพัทธภาพ – และทฤษฎีของทุกสิ่งที่นอกเหนือกาลอวกาศ – ควอนตัม เยี่ยม! ที่เหลือก็แค่เขียน axioms ของทฤษฎีทั้งสองนี้ แต่ขณะที่กำลังพยายามเขียน axioms อยู่ก็เจอกับ

standard_model_lagrangian

นี่คือ “Lagrangian ของ  standard model” ที่ให้สมการการเคลื่อนที่กับอนุภาคทุกชนิดที่เรารู้จักที่คนพิมพ์บอกว่าใช้เวลาพิมพ์ 4 ชั่วโมงและอาจจะมีเครื่องหมายบวกลบที่ผิด มันเขียนใน “ภาษา” ของทฤษฎีควอนตัมและสัมพัทธภาพแต่โครงสร้างของทั้งสองทฤษฎีเองไม่ได้ทำนายทุกส่วนของมัน ส่วนที่ทำนายไม่ได้ก็เป็น input เพิ่มเติมจากการสังเกต

ดังนั้นผมจะไม่พยายามที่จะเขียน axioms ของความเป็นจริงซึ่งเกินไปกว่าจุดมุ่งหมายของบล็อกนี้อยู่แล้ว เราต้องการแค่ axioms ของทฤษฎีควอนตัมซึ่งเป็นตัวกำหนด “แกรมมาร์” ของภาษาควอนตัม ซึ่งถ้าพูดได้ก็จะสื่อสารกับธรรมชาติในระดับที่ลึกซึ้งที่สุดได้

ทฤษฎีควอนตัม: เทค 1

Axioms ของทฤษฎีควอนตัมที่ทุกคนรู้ตั้งแต่อนุบาลแล้วคือ

I. ระบบในทฤษฎีควอนตัมอยู่ในสถานะที่แทนด้วยเวกเตอร์ของจำนวนเชิงซ้อน |\psi \rangle
II. ระบบเปลี่ยนไปในเวลาด้วย “สมการ Schrödinger”

i \hbar \frac{d}{dt}|\psi (t) \rangle = H |\psi (t) \rangle

III. การวัดแทนด้วย “Hermitian operator” O ซึ่งมี “eigenvalue” เป็นผลการวัดที่เป็นไปได้และ “eigenvector” เป็นสถานะหลังการวัด
IV. ค่าเฉลี่ยของการวัด O ในสถานะ |\psi \rangle คือ \langle \psi| O | \psi \rangle
V. หลายระบบประกอบกันด้วย “การคูณเทนเซอร์ (tensor product)”

แต่แน่นอนว่าทุกคนลืมไปแล้วว่าเคยเรียนมาเพราะมันไม่น่าจำเอาซะเลย บอกได้ยากว่าทำไม axioms ทั้งหมดนี้จึงควรจะเป็นจริง ไม่มีอะไรในฟิสิกส์ดั้งเดิมที่คล้ายคลึงกับ axioms เหล่านี้ [1] ยกเว้น axiom แรกที่ใช้อธิบายสถานะของคลื่นโดยจำนวนเชิงซ้อนแทนทั้ง amplitude และ phase ในฟิสิกส์ดั้งเดิม

ในโพสท์นี้เราจะบอกว่า ลืม axioms II,III,IV,V ไปซะ เพราะเมื่อใดที่เราใส่ “ความต่อเนื่อง (continuity)” ของ  axiom I ให้กับทฤษฎีความน่าจะเป็นแบบไม่ต่อเนื่อง (discrete) เราก็จะได้ทฤษฎีควอนตัม!

ทฤษฎีความน่าจะเป็นแบบไม่ต่อเนื่อง

ทุกคนรู้จักความน่าจะเป็นกันอยู่แล้ว มันเป็นการต่อยอดตรรกะจากที่มีแต่ “จริง” และ “เท็จ” มามี “อาจจะ” เข้าไปด้วย แต่เมื่อเรารู้มากที่สุดเท่าที่จะรู้ได้และไม่หลงเหลือความไม่แน่นอนอีกแล้ว ความน่าจะเป็นก็เป็น 0 หรือ 1 กลับสู่ตรรกะข้างต้นเหมือนเดิม

การกระทำของเราส่งผลต่อความไม่แน่นอนที่เรามีได้อย่างไรบ้าง? ถ้าเรามีเซต Λ ของเหตุการณ์ที่ไม่สามารถเกิดขึ้นพร้อมกันได้ (mutually exclusive) เราก็จะมีเซตของความน่าจะเป็น P(λ), λ ∈ Λ สิ่งที่สามารถทำกับมันได้คือการแปลงด้วยเมทริกซ์ (matrix) P(λ’|λ) ซึ่งบอกความน่าจะเป็นที่ λ’ จะเกิดขึ้นเมื่อ λ เกิดขึ้นไปแล้วก่อนหน้านี้ด้วยกฎของความน่าจะเป็นทั้งหมด (Law of total probability)

P(\lambda') = \sum_{\lambda \in \Lambda} P(\lambda'|\lambda) P(\lambda)

โดยจำเป็นจะต้องให้

\sum_{\lambda' \in \Lambda'} P(\lambda'|\lambda) = 1

เพื่อให้ P(λ’) เป็นความน่าจะเป็น นั่นคือถ้า P(λ) เป็นเวกเตอร์หลัก (column vector) ตัวเลขในแต่ละหลักของ P(λ’|λ) จะต้องรวมกันได้ 1

จากนั้นความน่าจะเป็นที่จะได้ผล E ∈ χ จากการทำการวัดคือ

P(E) = \sum_{\lambda \in \Lambda,\lambda' \in \Lambda'} P(E|\lambda')P(\lambda'|\lambda) P(\lambda)

ข้อที่แตกต่างกับการแปลงก็คือแต่ละ E ก็จะมี P(E|λ) ของมันเอง ดังนั้นถ้าให้มันเป็นเมทริกซ์ มันก็จะเป็นเซตของเมทริกซ์ทแยงมุมที่รวมกันได้เป็นเมทริกซ์เอกลักษณ์

\sum_{E \in \chi} P(E|\lambda) = I

เราเรียกเซต {P(E|λ)} ว่าการวัด การวัดในลักษณะนี้รวมถึงการวัดที่เราสับสนระหว่างผลการวัดที่แตกต่างกันได้ เช่น แสงในห้องอาจจะสลัวๆทำให้สังเกตได้ไม่ชัด ถ้าไม่มีปัญหาแบบนั้นแต่ละ P(E|λ) ก็เป็นเมทริกซ์ที่มี 1 ตำแหน่งเดียวบนแนวทแยงและ 0 ในตำแหน่งอื่นๆทั้งหมด นั่นคือ P(E|λ) เป็นเมทริกซ์ที่ทำหน้าที่ฉาย (project) เวกเตอร์ลงบนเวกเตอร์ที่ให้ความน่าจะเป็น 1 สำหรับเหตุการณ์ E และ 0 สำหรับเหตุการณ์อื่น และแต่ละ P(E|λ) ตั้งฉาก (orthogonal) ซึ่งกันและกัน

P(E|\lambda)P(E'|\lambda) = 0

เมื่อ E ≠ E’

ท้ายสุดก่อนที่เราจะไปยังทฤษฎีควอนตัม ถ้ามีสองระบบที่ไม่สัมพันธ์กัน (uncorrelated)

\left[\begin{array}{c}p\\1-p\end{array}\right]

และ

\left[\begin{array}{c}q\\1-q\end{array}\right]

เวกเตอร์ความน่าจะเป็นของระบบคู่ก็จะเป็น

\left[\begin{array}{c}pq\\p(1-q)\\(1-p)q\\(1-p)(1-q)\end{array}\right]

เพราะว่าความน่าจะเป็นของสองเหตุการณ์ที่เป็นอิสระต่อกันเป็นผลคูณของความน่าจะเป็นของสองเหตุการณ์นั้น นี่ไม่ใช่อะไรมากไปกว่าการคูณแบบเทนเซอร์ (tensor product) นักเรียนจะขยาดเวลาได้ยินชื่อนี้ครั้งแรก แต่หน้าที่ของมันในทฤษฎีความน่าจะเป็นซึ่งเหมือนกับหน้าที่ในทฤษฎีควอนตัมทุกประการก็แค่เพื่อรวมระบบที่ไม่สัมพันธ์กันเข้าด้วยกันอย่างที่เราทำเมื่อกี้โดยไม่ต้องเอ่ยชื่อมันขึ้นมาเลย

ทฤษฎีควอนตัม: เทค 2

เราคุ้นเคยกับความจริงที่ว่าความไม่แน่นอนจากความไม่รู้ของเราไม่ได้แปลว่าสิ่งที่เราไม่รู้มีความไม่แน่นอนในตัวมันเอง การที่เราไม่รู้ผลของการแข่งกีฬาที่ผ่านไปแล้วไม่ได้หมายความมันยังแข่งไม่เสร็จ เพียงแต่เราไม่รู้เท่านั้นเอง แต่ในทางกลับกันเราเชื่อว่าหากเรารู้ทุกอย่างเท่าที่จะรู้ได้แล้ว ความน่าจะเป็นของทุกๆเหตุการณ์ก็จะเป็น 0 หรือ 1 เท่านั้นและไม่มีความไม่แน่นอนหลงเหลืออยู่ในการวัดใดๆก็ตาม เราจะขอแยกแยะและเรียกความรู้ที่รู้ทุกอย่างเท่าที่จะรู้ได้ว่าความรู้ที่มากที่สุด ในขณะที่ความรู้ที่สมบูรณ์ทำให้ความน่าจะเป็นของทุกๆเหตุการณ์เป็น 0 หรือ 1 เท่านั้น

เวลาเราพูดถึงการเปลี่ยนแปลงของระบบใดระบบหนึ่ง จริงๆแล้วเราพูดถึงการเปลี่ยนแปลงของความรู้ที่มากที่สุด(ของเรา)เกี่ยวกับระบบนั้น เราจึงพูดได้ว่าในฟิสิกส์เราค้นหากฏการเปลี่ยนแปลงไปในเวลาของความรู้ที่มากที่สุดซึ่งต้องเปลี่ยนแปลงอย่างต่อเนื่องเพราะเวลาเป็นปริมาณที่ต่อเนื่อง แต่ในทฤษฎีความน่าจะเป็นแบบไม่ต่อเนื่องเราไม่มีการเปลี่ยนแปลงอย่างต่อเนื่องที่จะนำสถานะของความรู้ที่มากที่สุด

\left[\begin{array}{c} 1 \\ 0 \end{array}\right]

ไปสู่อีกสถานะของความรู้ที่มากที่สุด

\left[\begin{array}{c} 0 \\ 1 \end{array}\right]

หรือกลับกันโดยไม่ผ่านสถานะที่เรามีความไม่แน่นอนเกี่ยวกับระบบได้ จึงได้ฤกษ์อัญเชิญ axiom I เราทราบจากฟิสิกส์ดั้งเดิมของคลื่นแล้วว่าทุกๆสถานะของ polarization ของแสงเป็นผลบวกทางเวกเตอร์ของสองเวกเตอร์ของจำนวนเชิงซ้อนเท่านั้น ซึ่งเราจะเลือกสองเวกเตอร์ไหนก็ได้ ในภาษาพีชคณิตเชิงเส้น (linear algebra) สองเวกเตอร์นี้เรียกว่าเบสิส (basis) จะเป็น polarization แนวตั้งกับแนวนอน หรือ polarization ที่หมุนตามเข็มหรือทวนเข็มนาฬิกาก็ตามใจ

เราจึงประกาศว่า

a\left[\begin{array}{c} 1 \\ 0 \end{array}\right] +b\left[\begin{array}{c} 0 \\ 1 \end{array}\right]

ก็เป็นสถานะที่รู้ทุกอย่างเท่าที่จะรู้ได้แล้วเกี่ยวกับระบบ a และ b เป็นจำนวนเชิงซ้อนใดๆก็ได้ จะเป็นจำนวนจริงก็ได้ จะติดลบก็ได้! เราได้ทฤษฎีความน่าจะเป็นที่เป็นประชาธิปไตยมากกว่าเดิม ในทฤษฎีความน่าจะเป็นดั้งเดิมมีสองเวกเตอร์ที่ได้รับอภิสิทธิ์เหนือใคร เพราะเวกเตอร์จะเป็นเวกเตอร์ความน่าจะเป็นได้ก็ต่อเมื่อมันมีสัมประสิทธิ์เป็นบวกเมื่อใช้สองเวกเตอร์นี้เป็นเบสิสในขณะที่ axiom I ทำให้ทุกเวกเตอร์มีความเท่าเทียมกันหมด

ในโพสท์หน้าเราจะมาดูกันว่าจากจุดนี้ทฤษฎีบทของ Gleason และ Wigner ให้และไม่ให้ axioms II, III และ IV ได้อย่างไร พร้อมทั้งบอกใบ้วิธีการแก้ไขและขยาย axioms เหล่านี้ และทำไมในทฤษฎีความน่าจะเป็นแบบใหม่นี้, ความรู้ที่มากที่สุดจึงไม่มีทางสมบูรณ์

อรรถาธิบาย

[1] สมการ Schrödinger ใกล้เคียงกับสมการ Hamilton-Jacobi ในฟิสิกส์ดั้งเดิมซึ่งเป็นสมการสำคัญในการตีความทฤษฎีควอนตัมแบบ Bohm ด้วย แต่เราจะถือว่าไม่มีใครรู้จักแล้วกัน ที่แน่ๆมันยากกว่า approach สู่ทฤษฎีควอนตัมที่เราจะนำเสนอเยอะ 

ปิดช่องโหว่การทดสอบทฤษฎีบทของ Bell

8 ก.ย.: เพิ่มเรื่องความเร็ว(ความช้า)ของการทดลองนี้

ในโพสท์เมื่อปีที่แล้ว

ทฤษฎีบทนี้ได้รับการยืนยันจากการทดลองหลายต่อหลายครั้งตั้งแต่ปี 1972 และจากหลายกลุ่มทดลอง (การทดลองล่าสุดจากกลุ่ม Zeilinger ได้ผลที่ผิดจากคำทำนายของสามัญสำนึกถึง 69 ค่าเบี่ยงเบนมาตรฐาน!) ที่ถึงทุกแม้จะการทดลองที่ผ่านมาจะมี “loophole” ช่องโหว่จากความไม่สมบูรณ์ของการทดลองซึ่งคนกำลังไล่ปิดให้หมดในเร็วๆนี้ แต่ก็เป็นหลักฐานที่แน่นหนาว่าธรรมชาติเป็นไปตามที่ทฤษฎีควอนตัมทำนายจริงๆ

ข่าวใหญ่ในฟิสิกส์ตอนนี้ (นอกจาก Hawking ประกาศว่าแก้ปัญหาข้อมูลที่ตกลงไปในหลุมดำได้แล้ว) ก็คือกลุ่มทดลองที่เนเธอร์แลนด์ได้ปิดช่องโหว่จาก “ประสิทธิภาพของการวัด” และ “locality” แล้ว

Hensen et al., Experimental loophole-free violation of a Bell inequality using entangled electron spins separated by 1.3 km

ช่องโหว่นี้เป็นช่องโหว่ทางการทดลอง เรายังคงสมมติว่า

1. ผลการวัดที่เกิดขึ้นมีผลเดียว (ไม่จริงในการตีความแบบ Many-Worlds)

2. เราสามารถสุ่มเลือกคุณสมบัติที่จะวัดได้ สมมติฐานนี้มักจะถูกเรียกว่าเจตจำนงค์อิสระ (free will) ซึ่งไม่เกี่ยวกับจำนงค์อิสระของมนุษย์สักเท่าไรเพราะให้เครื่องจักรสุ่มก็ได้อย่างที่เราเขียนด้านบน (ไม่จริงถ้าเอกภพนั้น “superdeterministic” คือทุกอย่าง conspire กันให้การทดลองเป็นไปตามทฤษฎีฟิสิกส์ที่เรารู้ ให้ทฤษฎีบทของ Bell ได้รับการยืนยัน ถึงแม้ว่ามันจะไม่ได้เป็นอย่างนั้นจริงๆ)

3. ไม่มีการส่งสัญญาณเร็วกว่าแสง (no signaling)

เราเคยอธิบาย setup ของการทดลองไปแล้วในโพสท์ข้างต้น การทดลองเพื่อทดสอบทฤษฎีบทของ Bell ส่วนมากวัดแสง (“โฟตอน”) ว่าโพลาไรซ์ไปตามทิศที่วัดหรือตรงข้ามกับทิศที่วัด และการสร้างคู่โฟตอนที่ “entangled” กันที่จำเป็นก็ทำได้ไม่ยาก แต่การตรวจจับแสงมักทำได้โดยประสิทธิภาพต่ำ (Wikipedia บอกว่า 5-30%) ซึ่งเท่ากับว่าแค่ส่วนเดียวของผลการทดลองถูกเลือกมาเป็นตัวแทนของผลการทดลองทั้งหมดและซ้ำร้ายการเลือกไม่ได้อยู่ภายใต้การควบคุมของเราด้วย นี่คือช่องโหว่จากประสิทธิภาพของการวัด ในการทดลองนี้จึงใช้ nitrogen-vacancy (NV) center ในเพชรเป็นสปินแทนซึ่งคงสถานะควอนตัมอยู่ได้นานและง่ายต่อการควบคุมและวัด การทดลองจึงใช้สองสปินนั่งรอการวัดที่สองสถานี (A กับ B ในรูปด้านล่าง) แต่เราจะ entangle สปินได้อย่างไร? ทีมทดลองนี้ใช้การแลกเปลี่ยน entanglement (ซึ่งเราเขียนเป็นแผนภาพให้ดูในโพสท์ที่ผ่านมา) โดยแต่ละสปินปล่อยแสงที่ entangled กับสปินเอง จากนั้นการวัดแบบ Bell บนแสงทั้งสอง (ที่จุด C ในรูป) ย้าย entanglement ระหว่างสปินกับแสงเป็นสปินกับสปินแทน [1]

Hensen et al. arXiv:1508.05949

 

จากนั้นก็ใช้เครื่องสุ่มสุ่มการวัดที่แต่ละฝั่ง สิ่งที่ต้องทำให้แน่ใจก็คือผลการวัดสปินที่ฝั่งหนึ่งไม่ขึ้นกับอะไรก็ตามที่เกิดขึ้นที่ฝั่งตรงข้าม (อย่างที่บอกไป เรายังสมมติว่าความเร็วแสงเป็นขีดจำกัดของการสื่อสารทุกๆอย่าง) สถานีทั้งสองอยู่ห่างกัน 1.28 กิโลเมตร เราจึงมีเวลา 1280/(3 × 108) ประมาณ 4.27 microseconds ที่จะทำการวัดให้สำเร็จหลังจากสุ่มเลือกการวัดก่อนที่จะตกเป็นเหยื่อของ “ช่องโหว่ locality” (ทีมทดลองสามารถทำการวัดได้ใน 480 nanoseconds และใช้เวลาอ่านผล 3.7 microseconds)

นอกจากนั้นการวิเคราะห์ผลการทดลองในทางสถิติยังอยู่บน null hypothesis ว่าการทดลองในแต่ละรันสามารถส่งผลกระทบต่อรันหลังๆได้ (ช่องโหว่ “ความจำ” (ของอุปกรณ์การทดลอง)) แต่ก็ยังให้ค่า p = 0.039 ที่ก็ยังไม่ดีเท่าไร (ถึงแม้จะดีพอแล้วตามเกณฑ์ p < 0.05!) และหวังว่าการทดลองในอนาคตจะสามารถนำค่า p ให้ต่ำลงไปกว่านี้ได้อีก เราไม่ค่อยเข้าใจการ bound ค่า p ว่าทำยังไง รู้แต่ว่ามันมาจากงานของ Richard Gill และจำเป็นต้องพึ่งสมมติฐานเจตจำนงค์อิสระ อุปสรรคใหญ่ก็คือการสร้างคู่ entangled ในการทดลองนี้ทำได้ช้ามาก เพียงแค่ 2-3 คู่ต่อชั่วโมง ในขณะที่วินาทีหนึ่งก็น่าจะสร้างคู่โฟตอนที่ entangled กันได้อย่างน้อยเป็นพันเป็นหมื่นคู่แล้ว [2]

เป็นอีกหนึ่งชัยชนะของทฤษฎีควอนตัม

อรรถาธิบาย

[1] นี่ไม่ใช่การเลือกตัวแทนของผลการทดลองทั้งหมด ถ้าการวัดไม่สำเร็จก็แปลว่าเราไม่มี entanglement ระหว่างสปินกับสปินและเราก็ไม่สนใจกรณีนั้นเพราะมันผ่านบททดสอบของ Bell ไม่ได้อยู่แล้ว ต่างกับการเลือกเนื่องจากประสิทธิภาพของการวัดที่ต่ำที่โต้แย้งได้ว่าอาจจะทำให้ผ่านบททดสอบของ Bell ได้ถึงแม้ว่าทฤษฎีควอนตัมจะผิดและ entanglement ไม่สามารถช่วยให้ผ่านบททดสอบของ Bell ได้
[2] Kwiat et al., Ultrabright source of polarization-entangled photons (1999) “[W]e observed over 140 coincidences per second per milliwatt of pump power. For 150-mW pump power, this implies a coincidence rate of 21,000 s-1” 

บทพิสูจน์คือโปรแกรม ตรรกะคือการคำนวณ

หลายคนอาจจะเคยได้ยินทฤษฎีบทในตรรกศาสตร์ของ Kurt Gödel (1906-1978) เกี่ยวกับความ “ไม่สมบูรณ์” ของ axiomatic system (“มีความจริงที่พิสูจน์ไม่ได้” ที่ถูกให้ใครต่อใครเอาไปใช้ผิดๆเต็มไปหมด รวมเล่มใน Gödel’s Theorem: An Incomplete Guide to Its Uses and Abuses ของ Torkel Franzén) ผมอยากจะนำเสนอว่าจากมุมมองของทฤษฎีคอมพิวเตอร์ ทฤษฎีบทนี้ (รวมทั้งที่ปรับปรุงโดย Rosser) พิสูจน์ได้ไม่ยุ่งยาก บทพิสูจน์ทั้งหมดในโพสท์นี้มาจาก Scott Aaronson [1] แต่ถ้ามีตรงไหนที่มั่วอันนั้นเป็นความผิดของผมเอง

ทฤษฎีบทของ Gödel

สำหรับคนที่ไม่ชอบเรื่องยุ่งยาก มันจะดีไม่น้อยถ้าเราสามารถค้นพบทุกความจริงได้ด้วยเซ็ตของ “ความจริงพื้นฐาน” ที่เล็กกว่าเซ็ตของความจริงทั้งหมด ในคณิตศาสตร์หมายความว่าเราต้องการความจริง (“axiom”) ที่นิยามด้วยกระบวนการที่สามารถปฏิบัติตามเป็นขั้นๆได้ (ไม่ใช่ตั้งทุกๆความจริงให้เป็น axioms ทั้งที่ไม่รู้ด้วยซ้ำว่าอะไรคือความจริงบ้าง) [2] ที่สามารถนำไปใช้พิสูจน์ทุกความจริงได้เมื่อมีกฎในการพิสูจน์ (อย่างการอุปนัย) เช่น เรามี Peano axioms ของระบบจำนวนเต็ม หรือ axioms ของ ZFC set theory

เราจะรู้ได้อย่างไรว่า axioms เหล่านี้เป็น axioms ของระบบในความเป็นจริง ระบบในความเป็นจริงจะต้องไม่มีข้อขัดแย้งในตัวมันเอง (consistent) (ความขัดแย้งคือมีประพจน์ P ที่สามารถพิสูจน์ได้ทั้งว่าเป็นจริงและเป็นเท็จ (P และ not P))

Gödel พิสูจน์ทฤษฎีบทความสมบูรณ์ (completeness theorem) ที่กล่าวว่า ถ้า axiomatic system A [3] มีความขัดแย้งในตัวมันเอง เราจะสามารถหามันได้ใน axioms หรือกลับกัน ถ้า เราไม่สามารถหาข้อขัดแย้งจาก axioms ได้ ทุกๆ realization ที่มาจาก axioms นั้นก็จะไม่มีข้อขัดแย้ง

แต่ Gödel (1931) ก็ดันพิสูจน์ทฤษฎีบทความไม่สมบูรณ์ (incompleteness theorem) ซึ่งมีสองส่วน เราเชื่อว่าทุกๆประพจน์ใน A ถ้าไม่เป็นจริงก็เป็นเท็จ และเราอาจจะหวังด้วยว่าเราสามารถพิสูจน์มันได้ด้วย axioms (สมบัติที่เรียกว่าความสมบูรณ์ (completeness) [4]) แต่ Gödel บอกว่าความสมบูรณ์ต้องแลกมาด้วย unsoundness ซึ่งแปลว่าสิ่งที่พิสูจน์ได้อาจจะไม่เป็นจริง (พูดอีกแบบคือไม่มี A ที่สามารถพิสูจน์ทุกๆและเฉพาะประพจน์ที่เป็นจริงได้) ซึ่งเราไม่ต้องการในคณิตศาสตร์แน่ๆ อีกอย่างหนึ่งทีเราหวังว่าจะทำได้คือพิสูจน์ว่า A ไม่มีความขัดแย้งจาก axioms ของ A เองได้ (ต่างกับทฤษฎีบทความสมบูรณ์ที่บอกว่าพิสูจน์ว่า A มีความขัดแย้งจาก axioms ได้) แต่ Gödel ก็บอกอีกว่า A ที่พิสูจน์ความไม่ขัดแย้งของตัวมันเองได้มีแต่ A ที่มีความขัดแย้งในตัวมันเอง

สิ่งที่ Gödel ทำเพื่อพิสูจน์ทฤษฎีบทความไม่สมบูรณ์ส่วนแรกคือเขียนประพจน์ (“ประโยค Gödel”) G=“ประพจน์นี้ไม่สามารถพิสูจน์ใน A ได้” ใน A (ในบทพิสูจน์ของ Gödel A คือ axioms ใน Principia Mathematica ที่ใช้เกือบ 400 หน้าในการพิสูจน์ว่า 1+1=2 ของ Russell และ Whitehead ซึ่งซับซ้อนพอที่จะเขียนประพจน์นี้ได้) นี่คือส่วนที่ยาว แต่เมื่อเขียนได้แล้วคราวนี้เราก็สมมติว่า A สมบูรณ์ ถ้าพิสูจน์ G ได้ G ก็จะพิสูจน์ได้และพิสูจน์ไม่ได้ในเวลาเดียวกัน (มีความขัดแย้ง ซึ่ง implies unsoundness [5]) ถ้าพิสูจน์ not G ““ประพจน์นี้ไม่สามารถพิสูจน์ใน A ได้” สามารถพิสูจน์ใน A ได้” ได้ ถ้า not G ไม่เป็นจริง A ก็จะ unsound ในขณะที่ถ้า not G เป็นจริง A ก็จะพิสูจน์ว่ามันพิสูจน์ G ได้ ถ้ามันพิสูจน์ได้จริงก็วนกลับไปเคสแรก ถ้ามันพิสูจน์ไม่ได้ก็ unsound เพราะมันพิสูจน์ “มันพิสูจน์ G” ที่ไม่เป็นจริงได้

ทั้งหมดที่ว่ามาแปลว่าเราไม่สามารถหาบางสิ่งที่ต้องการในตรรกศาสตร์ได้ แล้วมันเกี่ยวอะไรกับการหาคำตอบของปัญหาที่มีประโยชน์มากกว่านี้หรือเปล่า?

เครื่องจักร Turing

หลังจากนั้นไม่นาน (1936) Alan Turing (1912-1954) ขณะที่กำลังศึกษาระดับ undergraduate ที่ Cambridge ก็พูดถึงคณิตศาสตร์ของคอมพิวเตอร์ ในสมัยนั้นเมื่อยังไม่มีคอมพิวเตอร์แบบในปัจจุบัน ความหมายเดิมของคอมพิวเตอร์คือผู้คำนวณที่ทำตามกระบวนการที่กำหนดไว้แล้วโดยไม่ต้องใช้ความคิดสร้างสรรค์ (คุ้นๆไหม?) ซึ่งกลายเป็นโมเดลของเครื่องจักร Turing (Turing machine) มีหน่วยความจำเป็น bit string แทนแผ่นกระดาษซึ่งทำหน้าที่รับ input และเขียนการคำนวณลงไปได้ จะเขียนอะไรก็ขึ้นอยู่กับชุดคำสั่งและสิ่งที่เขียนอยู่บนหน่วยความจำไว้ก่อนหน้า คอมพิวเตอร์สามารถอ่านหน่วยความจำได้ทีละช่องและถ้าจะเปลี่ยนไปยังช่องไกลๆต้องเคลื่อนที่ผ่านไปทีละช่องๆ นั่นก็คือมันต้องใช้เวลาในการเข้าถึงหน่วยความจำขนาดใหญ่ (คุณสมบัติซึ่งถูกใช้ในการพิสูจน์ “NP-completeness ของปัญหา 3SAT”) นี่คือเครื่องจักร Turing เครื่องจักร Turing ไม่ใช่โมเดลของคอมพิวเตอร์จริงๆ แต่เป็นไอเดียทางทฤษฎี [6] บางคนอาจจะนึกว่ามันต้องเป็นฮาร์ดแวร์แต่มันเป็นตัวแก้ปัญหาจึงจะคิดว่ามันเป็นซอฟต์แวร์หรือโปรแกรมก็ได้ และในที่สุดแล้วทุกอย่างเกี่ยวกับเครื่องจักร Turing สามารถเข้ารหัสเป็น bit string ได้ จึงคิดว่ามันเป็น input ก็ได้เช่นกัน นี่เป็นไอเดียที่ธรรมดามากสำหรับคนยุคนี้ว่าทุกอย่างที่จำลองในคอมพิวเตอร์ได้ก็แค่การคำนวณบน bit string แต่มันไม่ธรรมดาในสมัยนั้น

มีโมเดลในการคำนวณอื่นที่ถูกคิดค้นขึ้นมาในเวลาใกล้เคียงกันโดยเฉพาะ Lambda calculus ของ Alonzo Church Turing จึงถือโอกาสทำงานในระดับ graduate กับ Church ที่ Princeton แต่ปรากฎว่าโมเดลเหล่านี้มีพลังในการคำนวณเท่ากัน(ซึ่งเดี๋ยวก็จะได้เห็นว่าสำหรับจุดประสงค์ของโพสท์นี้แล้วจริงๆเราไม่จำเป็นจะต้องรู้กลไกการทำงานของเครื่องจักร Turing เลย แต่นั่นคือประเด็น ถึงแม้ว่าหลายๆอย่างท้ายที่สุดแล้วจะไม่ขึ้นกับทุกตัวอักษรของนิยามแต่ก็ต้องนิยามถึงจะทำการวิเคราะห์ทางคณิตศาสตร์ได้ โดยเฉพาะถ้าสนใจ computational complexity ต่อ) จึงได้ถือกำเนิดธีสิส (Thesis) ของ Church-Turing (ซึ่ง Stephen Kleene เป็นคนเรียก (1952)) ที่ว่าทุกๆอย่างที่คำนวณได้สามารถคำนวณได้ด้วยเครื่องจักร Turing [7] คำถามก็คือธีสิสนี้ตั้งใจจะมีความหมายแบบไหนกันแน่ มันนิยาม “การคำนวณ” ด้วยเครื่องจักร Turing? หรือมันบอกว่าโมเดลการคำนวณที่เป็นไปได้ตามกฏของธรรมชาติไม่สามารถเอาชนะเครื่องจักร Turing ได้? ถ้าเข้าใจตามแบบหลัง จากความรู้ทั้งหมดที่มีอยู่(รวมทั้งควอนตัมคอมพิวเตอร์)ดูเหมือนว่าธีสิสของ Church-Turing จะเป็นจริง

ในเปเปอร์ปี 1936 Turing พิสูจน์สองอย่าง หนึ่งว่ามีเครื่องจักรของเขาที่อเนกประสงค์ (universal) คือเราไม่จำเป็นต้องสร้างคอมพิวเตอร์แบบหนึ่งเพื่อทำงาน อีกแบบเพื่อฟังเพลง อีกแบบเพื่อเล่นเกม ไอเดียคือการประมวลผลข้อมูลขึ้นอยู่กับกระบวนการเท่านั้นและไม่ขึ้นกับลักษณะทางกายภาพ จะเป็นเครื่องจักรกล สิ่งมีชีวิต ปรากฎการณ์ทางธรรมชาติ กาแล็กซี ก็เป็นคอมพิวเตอร์ได้ถ้ามันมีศักยภาพพอที่จะให้เราเข้ารหัสทำการคำนวณได้ พิสูจน์อย่างที่สองคือมีปัญหาที่เครื่องจักร Turing แก้ไม่ได้ และสิ่งที่เราอยากจะเสนอ (ซึ่งเป็นที่รู้กันทั่วไปในวิทยาศาสตร์คอมพิวเตอร์) คือทฤษฎีบทความไม่สมบูรณ์ของ Gödel เป็นจริงก็เพราะมีปัญหาที่แก้ไม่ได้บนเครื่องจักร Turing นั่นคือเราสามารถพิสูจน์ทฤษฎีบทความไม่สมบูรณ์ของ Gödel ได้ด้วยทฤษฎีคอมพิวเตอร์

เราหยุดแล้ว แต่เรายังไม่หยุด

เครื่องจักร Turing ที่จะมีประโยชน์มากคือเครื่องจักร H ที่ตัดสินได้ว่าเมื่อเครื่องจักร Turing ได้รับ input หนึ่งๆเข้าไปจะรันไปโดยไม่มีวันหยุดหรือหยุดและให้คำตอบออกมา ถ้ามีเครื่องจักรนี้ก็จะช่วยในการแก้ปัญหาคณิตศาสตร์ได้อย่างมหาศาล เช่นถ้าจะพิสูจน์ข้อสันนิษฐานของ Goldbach“ทุกจำนวนคู่มากกว่า 2 เป็นผลบวกของสองจำนวนเฉพาะ” ก็แค่เอาเครื่องจักร Turing G ที่ตรวจสอบข้อสันนิษฐานนี้กับจำนวนคู่ทีละตัวๆ แล้วถาม H ว่า G จะหยุดไหม (เข้ารหัสโปรแกรม G เป็น bit string ป้อนให้ H เขียนแทนด้วย H(G)) ถ้าไม่หยุด ข้อสันนิษฐานของ Goldbach ก็เป็นจริง ปัญหาอื่นๆที่ต้องเช็คคุณสมบัติอะไรบางอย่างกับทุกๆสมาชิกก็จะแก้ได้โดยวิธีเดียวกัน

แต่ Turing เข้าใจได้ว่าไม่มีโปรแกรมที่จะแก้ปัญหานี้ได้ ทำไมน่ะเหรอ? อย่างที่บอกว่าเราสามารถป้อนเครื่องจักร Turing หนึ่ง เรียกว่า M ให้กับอีกเครื่องจักร Turing หนึ่งได้ โดยเฉพาะเราสามารถป้อน M ให้กับ M เองได้

M(M(M(…)))

คราวนี้นิยาม H’ ให้ H’(M) รันไปตลอดกาลถ้า M(M) หยุด และ H’(M) หยุดถ้า M(M) รันไปตลอดกาล แล้วก็ป้อน H’ ให้ตัวมันเอง ก็จะได้ว่า H’(H’) ทั้งหยุดทั้งรันไปตลอดกาลในเวลาเดียวกัน เป็นข้อขัดแย้งซึ่งบอกว่าเราไม่สามารถมี H (และ H’) ได้ตั้งแต่แรกแล้ว นี่คือ Halting problem ที่แก้ไม่ได้ซึ่งจะให้ทฤษฎีบทของ Gödel ตามมา

เราจะพิสูจน์โดยการหาข้อขัดแย้ง (proof by contradiction) เริ่มจากสมมติว่าทฤษฎีบทความไม่สมบูรณ์ส่วนแรกไม่เป็นจริง และจะพิสูจน์ว่าเราแก้ halting problem ได้ เราจึงต้องพูดถึงทุกอย่างใน axiomatic system A แต่สิ่งที่ทำให้ง่ายในคราวนี้คือเราไม่ต้องสร้างประโยค Gödel แล้ว (self-reference เกิดไปแล้วในบทพิสูจน์ว่า halting problem แก้ไม่ได้ด้านบน) ประพจน์เกี่ยวกับการหยุดของโปรแกรมก็เป็นแค่ประพจน์เกี่ยวกับ bit string ซึ่งสามารถ express ได้ใน A ที่เข้าใจระบบจำนวนเต็ม เนื่องจาก A สมบูรณ์ ถ้าไม่พิสูจน์ได้ว่าโปรแกรมหนึ่งๆรันตลอดกาลก็ต้องพิสูจน์ได้ว่ามันหยุด สิ่งที่เราต้องทำก็คือเสิร์ชหาบทพิสูจน์นั้น เมื่อหาเจอแล้ว เนื่องจาก A sound สิ่งที่ A พิสูจน์จะต้องเป็นจริง A จึงแก้ halting problem ได้ แต่เรารู้แล้วว่ามันเป็นปัญหาที่แก้ไม่ได้จึงไม่มี A ที่ทำได้ดังที่กล่าวมา

แน่นอนว่าจะใช้ปัญหาที่แก้ไม่ได้เกี่ยวกับเครื่องจักร Turing ปัญหาไหนในการพิสูจน์ก็ได้ และจริงๆแล้วทฤษฎี computability มีผลกระทบต่อคณิตศาสตร์สาขาอื่นๆเพราะมีหลายปัญหาที่คนอยากแต่พบว่าแก้ไม่ได้ในทำนองเดียวกันถึงแม้ว่าดูจะไม่มีอะไรที่ “ตลอดกาล” ในปัญหาเหมือน halting problem เช่นใน group theory, เราสามารถกำหนด group ได้ด้วย generators และความสัมพันธ์ระหว่าง generators (relations) สมาชิกของ group อาจจะเขียนในรูปของ generators ได้หลายแบบ (เรียกว่า “คำ” (word)) แต่มี finitely presented group (มี finite generators และ finite relations) ที่ปัญหาว่าคำสองคำแทนสมาชิกตัวเดียวกันหรือไม่ไม่สามารถแก้ได้ (ทฤษฎีบท Novikov-Boone) อีกตัวอย่างใน quantum information เร็วๆนี้คือปัญหาว่าระบบควอนตัมมี “spectral gap” — ช่องว่างระหว่างระดับพลังงานที่ต่ำที่สุดกับระดับถัดขึ้นมา — ใน thermodynamic limit หรือไม่ถูกแสดงว่าแก้ไม่ได้ในกรณีทั่วไป (จริงๆแล้วที่บอกไปไม่ใช่ปัญหาที่เขาพิสูจน์ว่าแก้ไม่ได้ซะทีเดียว ปัญหาของเขามีเงื่อนไขมากกว่านี้)

คราวนี้ลองจินตนาการบทพิสูจน์ด้านบนว่า halting problem แก้ไม่ได้ในเวอร์ชัน “โปรแกรมที่เชื่อบางอย่างเกี่ยวกับตัวมันเอง” สมมติ axiomatic system A ซึ่งเข้าใจประพจน์อีกครั้ง และนิยามให้ H’(M) รันไปตลอดกาลถ้าพิสูจน์ได้ว่า M(M) หยุด และ H’(M) หยุดถ้าพิสูจน์ได้ว่า M(M) รันไปตลอดกาล จะเกิดอะไรขึ้นกับ H’(H’)? ถ้า A พิสูจน์ได้ว่า H’(H’) หยุด H’(H’) จะรันตลอดกาล และถ้าพิสูจน์ได้ว่า H’(H’) รันตลอดกาล H’(H’) จะหยุด แต่ H’(H’) ไม่จำเป็นจะต้องทั้งหยุดทั้งรันตลอดกาลในเวลาเดียวกันเพราะ

โปรแกรมที่หลอกตัวเอง: ถ้า A มีความขัดแย้งในตัวมันเองก็จะ unsound ดังนั้นมันจึงไม่มีปัญหาที่จะพิสูจน์สิ่งที่เป็นเท็จได้ถึงแม้จะเห็นความจริงอยู่ต่อหน้าก็ตาม จึงไม่สามารถสรุปอะไรได้

โปรแกรมที่ไม่เข้าใจตัวเอง: ถ้า A ไม่มีความขัดแย้งในตัวมันเอง มันจะไม่สามารถพิสูจน์ว่า H’(H’) รันไปตลอดกาลได้ เพราะถ้าพิสูจน์ได้ H’(H’) ก็จะหยุดเป็นตัวพิสูจน์ว่า H’(H’) หยุด H’(H’) จึงต้องรันไปตลอดกาล แต่ A ต้องไม่รู้ว่ามันไม่มีความขัดแย้งในตัวมันเองเพราะหาก A พิสูจน์ได้เมื่อไรว่ามันไม่มีความขัดแย้งในตัวมันเองก็เท่ากับพิสูจน์ได้ว่า H'(H’) ต้องรันตลอดกาล ทำให้มันต้องหยุดและเจอกับความขัดแย้งในตัวมันเอง ซึ่งเป็นไปไม่ได้เพราะเราสมมติตั้งแต่ต้นว่ามันไม่มีความขัดแย้งในตัวมันเอง axiomatic system ที่ไม่ความขัดแย้งในตัวเองจึงไม่สามารถพิสูจน์ได้ว่ามันไม่ขัดแย้งในตัวเอง

ทฤษฎีบทความไม่สมบูรณ์ของ Gödel ทั้งสองส่วนจึงพิสูจน์ได้ด้วยไอเดียของ Turing

ทฤษฎีบทของ Rosser

แต่ทฤษฎีบทความไม่สมบูรณ์ของ Gödel ที่ผมมักได้ยินไม่มี unsoundness แต่เป็น “axiomatic system ที่สมบูรณ์ต้องมีความขัดแย้งในตัวมันเอง” แทน ซึ่ง strong กว่าทฤษฎีบทข้างต้นเพราะความขัดแย้งในตัวเอง implies unsoundness ปรากฎว่านี่ไม่ใช่ทฤษฎีบทที่ Gödel พิสูจน์แต่เป็น John Barkey Rosser (1907-1989) ในปี 1936 ปีเดียวกับที่ Turing พูดถึงเครื่องจักร Turing โดยเขียนประพจน์

R = “มีบทหักล้างของประพจน์นี้ที่สั้นกว่าทุกๆบทพิสูจน์ของประพจน์นี้ใน A”

ถ้าพิสูจน์ R ได้ก็จะหาบทหักล้าง (พิสูจน์ not R) ได้เพียงแค่เสิร์ช string ใน A ที่สั้นกว่าบทพิสูจน์ของ R ถ้าเจอก็มีความขัดแย้งใน A ถ้าไม่เจอก็จะเป็นบทพิสูจน์ของ not R เหมือนกัน(“สั้นกว่า”จึงเป็นจุดสำคัญ) ในทางกลับกันน่าสนใจว่าการพิสูจน์ not R ได้ให้ผลที่ mirror การพิสูจน์ R ได้เป๊ะๆ: “มีบทพิสูจน์ของประพจน์นี้ที่สั้นกว่าทุกๆบทหักล้างของประพจน์นี้ใน A” และนำไปสู่ความขัดแย้งด้วยเหตุผลเดียวกัน

ทฤษฎีบทของ Rosser ก็พิสูจน์โดยไม่ต้องสร้าง R ใน axiomatic system ได้! กำหนดปัญหาเรียกว่า Q: โปรแกรมจะ output 0 หรือ 1 หรือรันไปตลอดกาลเมื่อให้ input หนึ่งๆกับมัน? สมมติว่ามีโปรแกรม R ที่แก้ปัญหานี้ได้นิยาม R’ ให้ R’(M) output 0 ถ้า M(M) output 1, R’(M) output 1 ถ้า M(M) output 0, และสุดท้าย R’(M) หยุดและ output อะไรก็ได้ถ้า M(M) ไม่หยุด ไม่มีโปรแกรม R’ (และ R) ที่ทำอย่างนี้ได้

เนื่องจาก A สมบูรณ์ ถ้าพิสูจน์ไม่ได้ว่า M(M) output 0 ก็ต้องหักล้างได้ เราก็เสิร์ชหาบทพิสูจน์หรือบทหักล้าง ถึงแม้ A จะไม่มีความขัดแย้งในตัวมันเองแต่มันอาจจะ unsound ซึ่งอาจเห็นเป็นปัญหาแต่จริงๆแล้วไม่เป็นเพราะถ้า M(M) หยุด ความไม่ขัดแย้งในตัวเองของ A จะบังคับให้ A ตอบ output ที่ถูกต้องมิฉะนั้น output ของ M(M) จะเป็นบทพิสูจน์หรือหักล้างที่ขัดแย้งกับสิ่งที่ A เชื่อ และเกิด M(M) รันไปตลอดกาล A อยากจะทำอะไรก็เรื่องของมัน สรุปแล้ว: ตอบ 0 เมื่อพิสูจน์ได้และตอบ 1 เมื่อหักล้างได้ว่า M(M) output 0 ก็จะแก้ปัญหา Q ได้ แต่เรารู้แล้วว่ามันเป็นปัญหาที่แก้ไม่ได้จึงไม่มี A ที่ทำได้ดังที่กล่าวมา

ดังนั้นเราอาจจะพูดได้ว่า บทพิสูจน์คือโปรแกรม ตรรกะคือการคำนวณ โดยมีบทพิสูจน์ของทฤษฎีบทความไม่สมบูรณ์ของ Gödel-Rosser ด้วยเครื่องจักร Turing เป็นหลักฐานว่าเราสามารถให้โมเดลของการคำนวณโดยที่ไม่ขึ้นกับ axiomatic system ว่าเราจะยกอะไรให้เป็น “ความจริงพื้นฐาน”ได้ ดังที่ Gödel เองกล่าวไว้ (1946)

[Turing] has for the first time succeeded in giving an absolute definition of an interesting epistemological notion, i.e., one not depending on the formalism chosen.

จากการหาๆดูบนอินเตอร์เน็ต “บทพิสูจน์คือโปรแกรม ตรรกะคือการคำนวณ” มีทฤษฎีที่ลึกกว่านี้เยอะซึ่งสรุปได้ใน Curry-Howard-Lambek isomorphism ซึ่งแสดงความเหมือนของตรรกศาสตร์และการคำนวณที่เข้าถึงเนื้อหาทาง categorical ที่เหมือนกัน (การให้ objects, morphisms, functors ฯลฯ)

อรรถาธิบาย

[1] Scott Aaronson, Quantum Computing Since Democritus Lecture 3: Gödel, Turing, and Friends และ “Rosser’s Theorem via Turing Machines
[2] ตรงนี้ไม่ได้ห้ามให้มีจำนวน axioms เป็นอนันต์
[3] ทฤษฎีบทนี้เฉพาะในระบบที่ใช้ first-order logic แต่ทฤษฎีบทความไม่สมบูรณ์ยังใช้ได้กับ second-order logic และสูงขึ้นไป 
[4] บางคนนิยามความสมบูรณ์ให้ตรงข้ามกับ soundness แทน ความไม่สมบูรณ์ก็จะหมายความว่ามีความจริงที่พิสูจน์ไม่ได้
[5] Soundness implies ความไม่ขัดแย้งในตัวเอง ในทางกลับกัน ความขัดแย้งในตัวเอง implies unsoundness
[6] เครื่องจักร Turing ในทฤษฎีมีเทปที่ยาวไม่รู้จบ แต่ปัญหาที่เราคิดว่าแก้ได้ในทางปฏิบัติไม่จำเป็นต้องใช้เทปยาวไม่รู้จบ (เพราะ “PSPACE เป็นคลาสที่ใหญ่มาก”)
[7] โมเดลที่พลังน้อยกว่าก็มีอย่าง finite state automata กับ pushdown automata ที่ไม่สามารถแก้บางปัญหาที่เครื่องจักร Turing แก้ได้
[8] ชื่อโพสท์ที่คิดขึ้นมาตอนแรกคือ “ตรรกะคือการคำนวณ” ซึ่งทำให้ไปเจอ “บทพิสูจน์คือโปรแกรม” ของ Philip Wadler ในภายหลัง
[9] Stuart Armstrong, “Completeness, incompleteness, and what it all means: first versus second order logic
[10] คำตอบของ Ron Maimon บน Philosophy Stack Exchange

ทฤษฎีบทลวงโลกของ Bell?

มีคนพยายามล้มล้างทฤษฎีที่ยิ่งใหญ่และประสบความสำเร็จอยู่เรื่อยไป วิวัฒนาการเอย สัมพัทธภาพเอย Joy Christian เป็นผู้เชี่ยวชาญในการปฏิเสธทฤษฎีบทของ Bell ไม่ใช่ด้วยช่องโหว่ในการทดลองเพื่อพิสูจน์ทฤษฎีบทที่เป็นที่รู้จักกันดี แต่ตามที่เราเข้าใจ เขาสร้างโมเดลที่สอดคล้องกับสามัญสำนึก (local และใช้ความน่าจะเป็นธรรมดา) และทำนาย correlation ในโลกควอนตัม แต่แลกมาด้วยการใช้จำนวนที่ไม่มีสมบัติสลับที่การคูณ (เขาใช้ geometric algebra) แทนจำนวนจริง ซึ่งในความคิดของเขาล้มล้างทฤษฎีบทของ Bell

ถ้าเรายอมรับโมเดลที่ใช้จำนวนที่ไม่มีสมบัติสลับที่การคูณ (ซึ่งแทนด้วยแมทริกซ์ได้) เป็นสามัญสำนึกได้ ทำไมจะยอมรับทฤษฎีควอนตัม (ที่คำนวณด้วยแมทริกซ์) ไม่ได้ แต่นั่นไม่ใช่ประเด็นของทฤษฎีบทของ Bell ในมุมมองของเราแล้ว นี่ไม่ต่างกับการบอกว่าทฤษฎีบทที่ว่าการแยกตัวประกอบเป็นจำนวนเฉพาะทำได้วิธีเดียวเท่านั้นผิดถ้าเรานิยามให้ 1 เป็นจำนวนเฉพาะ ซึ่งเป็นความจริง แต่เป็นความจริงที่ไม่น่าสนใจและไม่มีประโยชน์ ถึงจะนิยามให้ 1 เป็นจำนวนเฉพาะ การเข้ารหัส RSA ของบัตรเครดิตที่ใช้การแยกตัวประกอบก็ไม่มีอะไรเปลี่ยนแปลง ในทำนองเดียวกัน ถึงจะนิยามโมเดลของความน่าจะเป็นที่ local ใหม่ที่ทำให้ทฤษฎีบทของ Bell ไม่เป็นจริง การใช้ทฤษฎีบทของ Bell ทดสอบความเป็นควอนตัมในแลบและเทคโนโลยีควอนตัมก็ไม่ได้เปลี่ยนแปลง

สาเหตุท่ีเราเขียนโพสท์นี้ก็เพราะเรายังคงเจอ Joy Christian (ที่มาพร้อมกับตรรกะวิบัติด้วยการโจมตีตัวบุคคล) กับผู้สนับสนุนของเขา (ทั้งจริงทั้งที่น่าจะเป็น sock puppet) ในเวบอยู่เรื่อยๆ ถึงแม้จะมีคนเสียเวลามาวิจารณ์ข้อบกพร่องในงานของเขาไปแล้วก็ตาม

อีกเหตุผลหนึ่งที่ทำให้นึกถึงเรื่องนี้คือ ถึงจะฟังดูขัดแย้งกับที่เขียนมาทั้งหมด เรากำลังคิดถึงโมเดลที่สอดคล้องกับสามัญสำนึกของ fermion อิสระอยู่ สำหรับ boson เราสามารถ dequantize ส่วนหนึ่งของทฤษฎีควอนตัมให้เป็นทฤษฎีความน่าจะเป็นธรรมดาบน phase space ได้ แต่ถ้าทำอย่างเดียวกันกับ fermion เราจะได้ phase space ที่ใช้จำนวน Grassmann ที่ไม่มีสมบัติสลับที่การคูณแทน [1] จุดนี้มักจะมากับสโลแกนที่ว่า “ไม่มี fermion ในโลกคลาสสิคัล” แต่หากเราเชื่อว่าทุกอย่างที่ใช้คลาสสิคัลคอมพิวเตอร์จำลองได้อย่างมีประสิทธิภาพนั้นเรียกได้ว่าคลาสสิคัล Fermion อิสระ + การวัดจำนวน fermion ก็อาศัยอยู่ในโลกคลาสสิคัล

[1] Lajos Diósi ก็ได้เปรียบเทียบการใช้จำนวน Grassmann และ approach ของ Joy Christian ในการอธิบาย correlation ในโลกควอนตัมใน Shortnote on local hidden Grassmann variables vs. quantum correlations 

ลิงค์จากครึ่งแรกปี 2015

85% ของเงินจาก NIH สูญเปล่าไปกับงานวิจัยที่ทำซ้ำไม่ได้หรือเปล่า? วัฒนธรรมการทำซ้ำในฟิสิกส์เปรียบเทียบกับชีววิทยา, ความน่าเชื่อถือของการค้นพบที่ต่างกันในชีววิทยาเองอย่างวิธี candidate gene vs GWAS, การค้นพบที่ถูกหักล้างในภายหลังแต่ยังคงถูกอ้างอิงถึง

อื่นๆในปัญหาการทำซ้ำ: p-hacking เข้าไปในวารสารโภชนาการวารสารจิตวิทยาแบน p-valueปัญหาการทำซ้ำจากแอนติบอดีที่ใช้ไม่มีมาตรฐาน

“to first approximation, Biology = linear combinations of nonlinear gadgets”

Time has passed, but there is still an enormous difference in the biology and physics paradigms for working in science. Advice? Stick to the physics paradigm, for it brings refreshing attitudes and a different choice of problems to the interface. And have a thick skin.

  • Touhou philharmonic orchestra – Medley of Koumakyou
  • เมดเลย์ Touhou 36 เพลง + outro

The Recollections of Eugene P. Wigner (จาก Steve Hsu)

Specialization of science also robbed us of much of our passion. We wanted to grasp science whole, but by then the whole was something far too vast and complex to master. Only rarely could we ask the deep questions that had first drawn us to science.

อะไรคือหลักฐาน?

xkcd “Significant”

 

เราเคยหยิบยกเรื่องความน่าเชื่อถือของความรู้ในบล็อกนี้มาก่อน หนึ่งในตัวอย่างในโพสท์นั้นก็คือโครงการ Many Labs ที่พยายามทำซ้ำการทดลองสำคัญในจิตวิทยาโดยความร่วมมือของนักจิตวิทยาทั่วโลกและพบว่า 3 ใน 13 การทดลองไม่สามารถทำซ้ำได้ เมื่อเร็วๆนี้ผลของความพยายามทำซ้ำที่ใหญ่ที่สุดในประวัติศาสตร์ของจิตวิทยาได้เริ่มออกมาให้เห็นแล้ว และจะเรียกได้ว่าจิตวิทยาสอบตกก็ได้ First results from psychology’s largest reproducibility test

An ambitious effort to replicate 100 research findings in psychology ended last week — and the data look worrying. Results posted online on 24 April, which have not yet been peer-reviewed, suggest that key findings from only 39 of the published studies could be reproduced.

[E]arlier studies have suggested that reproducibility rates in cancer biology and drug discovery could be even lower.

และตอกย้ำคำถาม(ที่สำคัญและทุกคนที่ทำการทดลองต้องถามตัวเอง)ที่ว่า “เมื่อไรที่จะเรียกการทำซ้ำว่าสำเร็จ?”

Of the 61 non-replicated studies, scientists classed 24 as producing findings at least “moderately similar” to those of the original experiments, even though they did not meet pre-established criteria, such as statistical significance, that would count as a successful replication.

ความสงสัยในความน่าเชื่อถือของงานวิจัยที่ได้รับการตีพิมพ์นั้นเริ่มเป็นเรื่องที่คนให้ความสนใจอย่างมากเมื่อนักระบาดวิทยาชาวกรีก John P. A. Ioannidis ในปี 2005 ตีพิมพ์เปเปอร์ Why Most Published Research Findings Are False

There is increasing concern that in modern research, false findings may be the majority or even the vast majority of published research claims. However, this should not be surprising. It can be proven that most claimed research findings are false.

ในปี 2012 วารสาร Perspectives on Psychological Science ได้อุทิศทั้งฉบับให้กับปัญหาการ(ขาดการ)ทำซ้ำในจิตวิทยา ซึ่งก็มีบทความของ Ioannidis และบทความนำเสนอโครงการของ Open Science Collaboration ที่ผลเพิ่งออกมาข้างต้นรวมอยู่ด้วย Ioannidis”พิสูจน์” ได้ว่างานวิจัยที่ตีพิมพ์ส่วนใหญ่ผิดอย่างไร? งานวิจัยส่วนใหญ่ใช้ค่า p (p-value) เป็นปัจจัยตัวเดียวในการตัดสินว่าผลที่พบมีนัยสำคัญหรือไม่: p < 0.05 (“สำคัญ”) หรือ p < 0.01 (“สำคัญมาก”) โดยที่ไม่รู้ว่าจริงๆแล้วมันแปลว่าอะไรด้วยซ้ำ ค่า p บอกความน่าจะเป็นที่ได้ผลการทดลอง D หากสมมติฐาน H0 เป็นจริง

p = P(D|H0)

ถ้าค่า p น้อยคนก็มักจะบอกว่าเพราะเห็นผลการทดลองที่ไม่น่าจะมีโอกาสเกิดน้อยขนาดนั้น สมมติฐานจึงไม่น่าเป็นจริง และทำการปฏิเสธ H0 “null hypothesis” นี่คือเป้าหมายที่ Fisher และ Neymann และ Pearson ต้องการจะไปถึง แต่จะเห็นว่าค่า p โดยตัวมันเองไม่สามารถบอกอะไรเกี่ยวกับความน่าจะเป็นที่สมมติฐานที่เราต้องการพิสูจน์ (H) เป็นจริงเมื่อได้ผล D เลย. P(H|D) ขึ้นอยู่กับความน่าจะเป็นที่ H เป็นจริง(ก่อนที่จะทำการวิจัยนั้น)และสิ่งที่ Ioannidis เรียกว่าพลังทางสถิติ (statistical power) ในเทอมของสถิติดั้งเดิม (ถ้าอยากอ่านหลุมพรางนักวิทยาศาสตร์ในการใช้สถิติดั้งเดิมและตัวอย่างและผลที่ตามมาในประวัติศาสตร์ก็ไปที่ Statistics Done Wrong ได้) ซึ่งเท่าที่เราอ่านๆดูเทียบได้กับ P(D|H)ในเทอมของสถิติ Bayesian ซึ่งจากทฤษฎีบทของ Bayes เราก็จะเห็นว่าความสัมพันธ์ของสองความน่าจะเป็นนี้ขึ้นอยู่กับอะไรบ้าง

P(H|D) = \frac{P(D|H)P(H)}{P(D)}

หรือในภาษาอังกฤษ

\text{Posterior} \propto \text{Likelihood} \times \text{Prior}

โดยถือว่า P(D) ในตัวส่วนสเกลให้ P(H|D) เป็นความน่าจะเป็นเฉยๆ ถ้าความเชื่อของสมมติฐาน H ก่อนจะทำการทดลองแทบเป็นไปไม่ได้ ไม่ว่าพลังทางสถิติจะสูงขนาดไหนก็ยากที่จะบอกได้ว่า H เป็นจริงจากผลการทดลอง ความหายนะที่เกิดขึ้นก็คือนักวิทยาศาสตร์ก็ชอบจะคอนเฟิร์มสมมติฐานอะไรที่ดูดึงดูดน่าสนใจ ไม่น่าเป็นจริงได้ เพื่อจะตีพิมพ์เป็นงานสำคัญได้ เพราะระบบการตีพิมพ์ในบางสาขาวิจัยให้รางวัลผลที่เป็นบวกมากกว่าผลที่เป็นลบ

ถ้าอย่างนั้นนักวิทยาศาสตร์จะทำอย่างไรดี? รายงานการแจกแจงของ Prior, Likelihood, Posterior ทั้งหมด? ใช้เครื่องมืออื่นๆสรุปผล? ไม่ว่าอย่างไหนก็เป็นงานยากสำหรับนักวิทยาศาสตร์ที่ได้รับการฝึกแต่ใช้สถิติแบบทำตามๆกัน แต่ถูกแล้วที่จะมันเป็นเรื่องยาก สำหรับเราหัวใจของวิทยาศาสตร์และความมีเหตุผลคือการหาวิธีที่จะหลอกตัวเองได้น้อยลง ถ้าทำไม่ได้ความรู้เฉพาะทางมากมายมหาศาลแค่ไหนก็กลายเป็นขยะ

สิ่งที่น่าสนใจก็คือถ้าอย่างนั้นแล้วความก้าวหน้าของความรู้ในสาขาที่โอกาสที่สมมติฐานที่ต้องการพิสูจน์จะเป็นจริงได้มีน้อยนิดก็ดูจะเป็นแค่ความหวังลมๆแล้งๆ แต่เราเชื่อว่าจะยังมีและจะมีคนที่ฉลาดพอที่จะแก้ปัญหาเหล่านี้ได้

Neural Networks and Deep Learning: Chapter 3

You have to realize that our theoretical tools are very weak. Sometimes, we have good mathematical intuitions for why a particular technique should work. Sometimes our intuition ends up being wrong […] The questions become: how well does my method work on this particular problem, and how large is the set of problems on which it works well.

Question and answer with neural networks researcher Yann LeCun

In many parts of science – especially those parts that deal with simple phenomena – it’s possible to obtain very solid, very reliable evidence for quite general hypotheses. But in neural networks there are large numbers of parameters and hyper-parameters, and extremely complex interactions between them. In such extraordinarily complex systems it’s exceedingly difficult to establish reliable general statements. Understanding neural networks in their full generality is a problem that, like quantum foundations, tests the limits of the human mind. Instead, we often make do with evidence for or against a few specific instances of a general statement. As a result those statements sometimes later need to be modified or abandoned, when new evidence comes to light.

One way of viewing this situation is that any heuristic story about neural networks carries with it an implied challenge… Each heuristic is not just a (potential) explanation, it’s also a challenge to investigate and understand in more detail.

Of course, there is not time for any single person to investigate all these heuristic explanations in depth. It’s going to take decades (or longer) for the community of neural networks researchers to develop a really powerful, evidence-based theory of how neural networks learn. Does this mean you should reject heuristic explanations as unrigorous, and not sufficiently evidence-based? No! In fact, we need such heuristics to inspire and guide our thinking. It’s like the great age of exploration: the early explorers sometimes explored (and made new discoveries) on the basis of beliefs which were wrong in important ways. Later, those mistakes were corrected as we filled in our knowledge of geography. When you understand something poorly – as the explorers understood geography, and as we understand neural nets today – it’s more important to explore boldly than it is to be rigorously correct in every step of your thinking. And so you should view these stories as a useful guide to how to think about neural nets, while retaining a healthy awareness of the limitations of such stories, and carefully keeping track of just how strong the evidence is for any given line of reasoning. Put another way, we need good stories to help motivate and inspire us, and rigorous in-depth investigation in order to uncover the real facts of the matter.