مالیات پنهان استنتاج LLM و راهحل کشینگ پیشوند
نویسندهها توضیح میدن که استنتاج حالا حدود ۷۰٪ هزینهٔ محاسبات هوش مصنوعیه و بخش زیادیش قابلاجتنابه، چون سیستم مدام پیشوندهای پرامپت و دستورهای سیستمیِ تکراری رو از نو حساب میکنه. کشینگ پیشوند توی موتور (vLLM) و مسیریابی آگاه از پیشوند توی گیتوی، درخواستها رو به همون نمونهای میفرسته که کش گرمی داره. نتیجهاش پرش نرخ اصابت کش از حدود ۲۵٪ به بالای ۷۵٪ و کاهش هزینهٔ مؤثر محاسبه تا ۴ برابره.
این محتوا بهصورت خودکار با استفاده از هوش مصنوعی تولید شده است. بررسی نهایی آن پیش از استفاده توصیه میشود و مسئولیت استفاده از آن بهعهده کاربر است. برای مطالعه متن اصلی خبر،اینجا را کلیک کنید
خلاصهٔ کاملتر
به گفتهٔ نویسندهها (مهندسی از دیجیتالاوشن و مدیرعامل Inferact)، استنتاج حالا حدود ۷۰٪ کل هزینهٔ محاسبات هوش مصنوعی رو تشکیل میده و سهم بزرگی از این هزینه قابلاجتنابه. علتش محدودیت سختافزار نیست، بلکه اینه که سیستم کاری رو که قبلاً انجام داده دوباره حساب میکنه — همون چیزی که بهش «prefill تکراری» میگن.
هر درخواست استنتاج دو فاز داره: prefill که کل ورودی پردازش میشه و کش کلید-مقدار (KV) ساخته میشه، و decode که توکنهای خروجی یکییکی تولید میشن. مشکل توی prefill پنهانه چون هزینهاش با طول ورودی بهصورت درجهدومه. مثال واقعی: یک پرامپت سیستمیِ ۲۰۰۰ توکنی که توی همهٔ درخواستها یکیه، با پیام کاربر ۲۰۰ توکنی یعنی حدود ۹۱٪ ورودی مشترکه؛ توی ۱۰ هزار درخواست در ساعت، بیش از یک تریلیون FLOP در ساعت دور ریخته میشه.
خلاصهٔ کاملتر این خبر رو میتونی با داشتن اشتراک ویژه بخونی!
اشتراک رایگان
- دسترسی به خلاصهٔ کوتاه خبر
- دسترسی به خلاصهٔ کامل/اختصاصی خبر + نکات کلیدی
- ارسال اخبار مورد علاقه به ایمیل شما
- ارسال اخبار مورد علاقه به تلگرام شما
- عدم نمایش تبلیغات
اشتراک ویژه
- دسترسی به خلاصهٔ کوتاه خبر
- دسترسی به خلاصهٔ کامل/اختصاصی خبر + نکات کلیدی
- ارسال اخبار مورد علاقه به ایمیل شما
- ارسال اخبار مورد علاقه به تلگرام شما
- عدم نمایش تبلیغات




