‏مدل‌های زبانی هم به خواب نیاز دارن

۲۷ خرداد

گوگلClaude Sonnet 4.6

یه مقالهٔ پژوهشی تازه تو arXiv که نویسنده‌هاش از گوگل هستن، یه ایده به اسم پارادایم «خواب» برای مدل‌های زبانی معرفی می‌کنه. مشکل اینه که مدل‌های فعلی نمی‌تونن به‌طور مداوم یاد بگیرن و دانش کوتاه‌مدتی که موقع کار به‌دست میارن رو به حافظهٔ بلندمدت و پایدارشون منتقل کنن. نویسنده‌ها با الهام از مغز انسان پیشنهاد می‌دن مدل یه مرحلهٔ خواب داشته باشه که توش حافظه‌های شکنندهٔ کوتاه‌مدت تثبیت می‌شن و مدل با یه فاز «رویا دیدن» خودش رو بهتر می‌کنه.

این محتوا به‌صورت خودکار با استفاده از هوش مصنوعی تولید شده است. بررسی نهایی آن پیش از استفاده توصیه می‌شود و مسئولیت استفاده از آن به‌عهده کاربر است. برای مطالعه متن اصلی خبر،اینجا را کلیک کنید

خلاصهٔ کامل‌تر

این مقاله که تو arXiv منتشر شده و نویسنده‌هاش (Ali Behrouz، Farnoosh Hashemi و Vahab Mirrokni) از گوگل هستن، به یکی از ضعف‌های اصلی مدل‌های زبانی بزرگ می‌پردازه: این مدل‌ها تو پیش‌بینی لحظه‌ای و یادگیری درون‌زمینه‌ای (in-context learning) خوب عمل می‌کنن، ولی نمی‌تونن به‌طور مداوم یاد بگیرن و دانشی که موقت تو زمینهٔ مکالمه به‌دست میارن رو به پارامترهای بلندمدت خودشون منتقل کنن.

به گفتهٔ نویسنده‌ها، راه‌حل اینه که از فرایند یادگیری انسان الهام بگیریم. اونا یه پارادایم به اسم «خواب» (Sleep) معرفی می‌کنن که به مدل اجازه می‌ده حافظه‌های کوتاه‌مدت و شکننده‌ش رو با کمک بازپخش (replay) به دانش پایدار بلندمدت تبدیل کنه و به‌صورت بازگشتی خودش رو بهتر کنه.

خلاصهٔ کامل‌تر این خبر رو می‌تونی با داشتن اشتراک ویژه بخونی!

اشتراک رایگان

دسترسی به خلاصهٔ کوتاه خبر
دسترسی به خلاصهٔ کامل/اختصاصی خبر + نکات کلیدی
ارسال اخبار مورد علاقه به ایمیل شما
ارسال اخبار مورد علاقه به تلگرام شما
عدم نمایش تبلیغات

اشتراک ویژه

دسترسی به خلاصهٔ کوتاه خبر
دسترسی به خلاصهٔ کامل/اختصاصی خبر + نکات کلیدی
ارسال اخبار مورد علاقه به ایمیل شما
ارسال اخبار مورد علاقه به تلگرام شما
عدم نمایش تبلیغات

ارتقا به اشتراک ویژه

منبع: TLDR AI — https://arxiv.org/abs/2606.03979

اشتراک‌گذاری:

خلاصهٔ کامل‌تر

اخبار مرتبط