AI โมเดลเล็กรู้ว่าไม่แน่ใจ แต่ยังแต่งเรื่องต่อ

TL;DR

โมเดล AI ขนาดเล็กสามารถตรวจจับความไม่แน่ใจได้ แต่เลือกที่จะกดมันลงเพื่อสร้างคำตอบที่ดูมั่นใจ
มีวงจรภายในที่ทำหน้าที่จับสัญญาณแปลกปลอม แต่ถูกระงับในขั้นตอนสุดท้าย
เหมือนคนไทยที่ไม่ชอบตอบ "ไม่รู้" เลยพยายามตอบอะไรสักอย่างให้ดูรู้

แนวคิดหลัก

การค้นพบนี้ท้าทายความเข้าใจเดิมที่คิดว่าโมเดล AI ขนาดเล็กแต่งเรื่องเพราะไม่รู้ว่าตัวเองไม่รู้ จริงๆ แล้ว มันรู้ดีว่าคำถามแปลกหรือข้อมูลที่ไม่มีจริง แต่กลับเลือกที่จะสร้างคำตอบที่ผิดแบบมั่นใจแทนที่จะยอมรับความไม่รู้

ภายในโมเดลมีกลไกที่ซับซ้อนกว่าที่คิด มันไม่ได้เป็นแค่เครื่องจักรที่ตอบแบบไม่รู้เรื่อง แต่มีระบบตรวจจับความผิดปกติที่ทำงานได้จริง เพียงแต่ระบบนี้ถูกกดทับด้วยแรงกดดันให้ต้องตอบอะไรสักอย่าง

ทำไมถึงเป็นเช่นนั้น

เมื่อนักวิจัยวิเคราะห์การทำงานของโมเดลชั้นต่อชั้น พวกเขาพบรูปแบบที่น่าสนใจ ในชั้นแรกๆ โมเดลจะประมวลผลข้อมูลแบบปกติ แต่พอเจอคำถามแปลกๆ หรือข้อมูลที่ไม่มีจริง สัญญาณความไม่แน่ใจจะเริ่มปรากฏขึ้นในชั้นกลางๆ

ที่น่าสนใจคือหัวข้อความสนใจ (attention heads) บางตัวทำหน้าที่เป็นเครื่องจับสัญญาณแปลกปลอมได้ดีมาก เหมือนมีเซ็นเซอร์ภายในที่ส่องดูว่าข้อมูลที่เข้ามานั้นผิดปกติหรือไม่ แต่ในขั้นตอนสุดท้าย สัญญาณเตือนภัยเหล่านี้กลับถูกกดลงอย่างเป็นระบบ

การทดลองด้วยเทคนิค activation patching ยืนยันสมมติฐานนี้ เมื่อนักวิจัยแลกเปลี่ยนสัญญาณระหว่างคำถามจริงกับคำถามแปลก พวกเขาสามารถควบคุมระดับความไม่แน่ใจของโมเดลได้ ซึ่งพิสูจน์ว่าความสามารถในการตรวจจับอยู่จริง เพียงแต่ถูกระงับไว้

ตัวอย่างในชีวิตจริง

ลองนึกภาพว่าคุณถาม AI เรื่อง "ดาวเคราะห์ไซลอน" ที่ไม่มีจริงในจักรวาล โมเดลเล็กจะตอบกลับมาแบบมั่นใจว่า "ดาวเคราะห์ไซลอนเป็นดาวเคราะห์ที่อยู่ห่างจากโลก 50 ปีแสง มีบรรยากาศประกอบด้วยไฮโดรเจนและฮีเลียม" โดยไม่แสดงความไม่แน่ใจแต่อย่างใด

ในทางตรงกันข้าม โมเดลใหญ่ที่ผ่านการฝึกขั้นสูงแล้วจะตอบว่า "ไม่ทราบเรื่องดาวเคราะห์ไซลอน คำถามนี้ดูเหมือนจะเป็นข้อมูลที่แต่งขึ้น" หรือจะขอข้อมูลเพิ่มเติมก่อนตอบ

สถานการณ์นี้เหมือนนักเรียนที่ไม่รู้คำตอบในห้องสอบ แต่กลัวจะเงียบเฉยๆ เลยพยายามเขียนอะไรสักอย่างให้ดูรู้ แม้จะรู้ในใจว่าตัวเองไม่แน่ใจ นักเรียนคนนี้ไม่ได้โง่ เขารู้ว่าตัวเองไม่รู้ แต่เลือกที่จะเสี่ยงแต่งแทนการยอมรับความไม่รู้

บริบทไทย

การค้นพบนี้สะท้อนพฤติกรรมที่คุ้นเคยในสังคมไทย หลายคนไม่ชอบตอบว่า "ไม่รู้" เพราะกลัวเสียหน้า กลัวดูไม่รู้เรื่อง เลยมักจะพยายามตอบอะไรสักอย่าง แม้จะไม่แน่ใจก็ตาม วัฒนธรรมการ "รักษาหน้า" ทำให้คนเราเลือกที่จะเสี่ยงพูดผิดแทนการยอมรับความไม่รู้

สำหรับการพัฒนา AI ภาษาไทย การค้นพบนี้มีความสำคัญมาก เราต้องออกแบบระบบที่ฝึกให้โมเดลกล้ายอมรับความไม่รู้ แทนที่จะปล่อยให้มันแต่งเรื่องเพื่อหลีกเลี่ยงการดูไม่รู้ การสร้าง AI ที่ซื่อสัตย์กับข้อจำกัดของตัวเองจะช่วยสร้างความน่าเชื่อถือในระยะยาว

ในบริบทของสื่อสารข้อมูลข่าวสาร การที่ AI รู้จักบอกว่า "ไม่แน่ใจ" หรือ "ต้องการข้อมูลเพิ่มเติม" จะช่วยลดปัญหาการแพร่กระจายข้อมูลเท็จ ซึ่งเป็นปัญหาใหญ่ในยุคดิจิทัลปัจจุบัน

ข้อควรระวัง

งานวิจัยนี้มีข้อจำกัดที่ควรพิจารณา การทดลองใช้โมเดลเล็กเพียง 2 ตัว ซึ่งอาจไม่เป็นตัวแทนของโมเดลทั้งหมดในตลาด โมเดลแต่ละตัวมีสถาปัตยกรรมและการฝึกที่แตกต่างกัน ผลลัพธ์อาจไม่ใช้ได้กับทุกกรณี

ชุดข้อมูลทดสอบยังจำกัดเฉพาะคำถามแปลกๆ ที่แต่งขึ้น แต่ไม่ครอบคลุมข้อผิดพลาดประเภทอื่น เช่น การคำนวณทางคณิตศาสตร์ที่ผิด หรือการใช้ตรรกะที่บกพร่อง ซึ่งอาจมีกลไกการทำงานที่แตกต่างออกไป

โมเดลรุ่นใหม่ที่มีระบบ reasoning ขั้นสูง หรือใช้เทคนิค Mixture of Experts อาจทำงานต่างจากโมเดลที่ใช้ในการทดลองนี้ การนำผลการวิจัยไปใช้กับโมเดลที่ซับซ้อนกว่าต้องระมัดระวัง

อย่าคิดว่าโมเดลเล็กไม่มีความสามารถตรวจจับความผิดปกติเลย หรือเชื่อว่าการแต่งเรื่องเกิดจากการไม่รู้เรื่องเท่านั้น ความจริงคือโมเดลมีความซับซ้อนกว่าที่คิด และการแก้ปัญหาต้องคำนึงถึงกลไกภายในที่ทำให้มันเลือกปิดบังความไม่แน่ใจ

แหล่งที่มา

1Small language models hallucinate knowing something's off. — Toheed

คำศัพท์วันนี้

hallucinate/huh-LOO-suh-nayt/

สร้างข้อมูลเท็จ, แต่งเรื่อง

generate false or fabricated information while appearing confident

“Small language models often hallucinate answers to fictional questions instead of admitting uncertainty.”