ความท้าทายในการเข้าใจโครงข่ายประสาทเทียมขนาดเล็ก: เมื่อแม้แต่โมเดล 432 พารามิเตอร์ก็ยังอธิบายไม่ได้

TL;DR

1โมเดล 10 พารามิเตอร์สามารถเข้าใจได้อย่างสมบูรณ์ด้วยการวิเคราะห์แบบ brute force
2โมเดล 32 พารามิเตอร์เข้าใจได้โดยใช้ความสมมาตรโดยประมาณเพื่อลดความซับซ้อน
3โมเดล 432 พารามิเตอร์ยังไม่สามารถเข้าใจได้อย่างสมบูรณ์แม้จะมีการค้นหาฟีเจอร์ในพื้นที่การเปิดใช้งาน

เหตุผลที่มา

01.โมเดลเล็กๆ เหล่านี้ทำงานบนปัญหาที่ LLM ทำได้ง่าย ดังนั้นการเข้าใจโมเดลเหล่านี้จึงเป็นข้อกำหนดเบื้องต้นสำหรับการทำความเข้าใจ LLM
02.การวิเคราะห์แบบ brute force ทำงานได้กับโมเดลที่เล็กมาก แต่จำนวนภูมิภาคเชิงเส้นเพิ่มขึ้นแบบเอ็กซ์โพเนนเชียลตามความลึก
03.การค้นหาฟีเจอร์ช่วยให้เข้าใจส่วนหนึ่งของโมเดล แต่ยังไม่เพียงพอสำหรับการประเมินความแม่นยำแบบแข่งขันกับการสุ่มตัวอย่าง
04.การใช้ความสมมาตรโดยประมาณช่วยลดต้นทุนการคำนวณและความประหลาดใจในคำอธิบาย

ตัวอย่าง

โมเดล M₂,₂ หาตำแหน่งของเลขที่ใหญ่เป็นอันดับสองในลำดับ 2 ตัว ด้วยความแม่นยำเกือบ 100%
โมเดล M₄,₃ มีความแม่นยำ 98.5% และสามารถสร้างโมเดลที่ดีกว่าด้วยมือได้ (99.99% ความแม่นยำ)
โมเดล M₁₆,₁₀ พบว่ามีฟีเจอร์ leave-one-out-maximum ในเซลล์ประสาท แต่ยังไม่สามารถอธิบายได้อย่างสมบูรณ์
การวิเคราะห์ surprise accounting ของโมเดลเล็กที่สุดใช้ประมาณ 40 บิต ซึ่งตรงกับจำนวนบิตที่ใช้ในการเพิ่มประสิทธิภาพ

บริบทไทย

ในบริบทของการพัฒนา AI ในประเทศไทย การวิจัยนี้แสดงให้เห็นว่าแม้แต่การเข้าใจโมเดลขนาดเล็กก็ยังเป็นปัญหาที่ท้าทายมาก ซึ่งเป็นข้อมูลสำคัญสำหรับนักวิจัยไทยที่ต้องการพัฒนา AI ที่อธิบายได้และปลอดภัย การทำความเข้าใจพื้นฐานนี้จึงเป็นจุดเริ่มต้นที่สำคัญก่อนจะก้าวไปสู่การพัฒนาระบบ AI ขนาดใหญ่ที่ซับซ้อนมากขึ้น

แหล่งที่มา

1AlgZoo: uninterpreted models with fewer than 1,500 parameters — Jacob_Hilton