‏مالیات پنهان استنتاج LLM و راه‌حل کشینگ پیشوند

۲۷ خرداد

نویسنده‌ها توضیح می‌دن که استنتاج حالا حدود ۷۰٪ هزینهٔ محاسبات هوش مصنوعیه و بخش زیادیش قابل‌اجتنابه، چون سیستم مدام پیشوندهای پرامپت و دستورهای سیستمیِ تکراری رو از نو حساب می‌کنه. کشینگ پیشوند توی موتور (vLLM) و مسیریابی آگاه از پیشوند توی گیت‌وی، درخواست‌ها رو به همون نمونه‌ای می‌فرسته که کش گرمی داره. نتیجه‌اش پرش نرخ اصابت کش از حدود ۲۵٪ به بالای ۷۵٪ و کاهش هزینهٔ مؤثر محاسبه تا ۴ برابره.

این محتوا به‌صورت خودکار با استفاده از هوش مصنوعی تولید شده است. بررسی نهایی آن پیش از استفاده توصیه می‌شود و مسئولیت استفاده از آن به‌عهده کاربر است. برای مطالعه متن اصلی خبر،اینجا را کلیک کنید

خلاصهٔ کامل‌تر

به گفتهٔ نویسنده‌ها (مهندسی از دیجیتال‌اوشن و مدیرعامل Inferact)، استنتاج حالا حدود ۷۰٪ کل هزینهٔ محاسبات هوش مصنوعی رو تشکیل می‌ده و سهم بزرگی از این هزینه قابل‌اجتنابه. علتش محدودیت سخت‌افزار نیست، بلکه اینه که سیستم کاری رو که قبلاً انجام داده دوباره حساب می‌کنه — همون چیزی که بهش «prefill تکراری» می‌گن.

هر درخواست استنتاج دو فاز داره: prefill که کل ورودی پردازش می‌شه و کش کلید-مقدار (KV) ساخته می‌شه، و decode که توکن‌های خروجی یکی‌یکی تولید می‌شن. مشکل توی prefill پنهانه چون هزینه‌اش با طول ورودی به‌صورت درجه‌دومه. مثال واقعی: یک پرامپت سیستمیِ ۲۰۰۰ توکنی که توی همهٔ درخواست‌ها یکیه، با پیام کاربر ۲۰۰ توکنی یعنی حدود ۹۱٪ ورودی مشترکه؛ توی ۱۰ هزار درخواست در ساعت، بیش از یک تریلیون FLOP در ساعت دور ریخته می‌شه.

خلاصهٔ کامل‌تر این خبر رو می‌تونی با داشتن اشتراک ویژه بخونی!

اشتراک رایگان

دسترسی به خلاصهٔ کوتاه خبر
دسترسی به خلاصهٔ کامل/اختصاصی خبر + نکات کلیدی
ارسال اخبار مورد علاقه به ایمیل شما
ارسال اخبار مورد علاقه به تلگرام شما
عدم نمایش تبلیغات

اشتراک ویژه

دسترسی به خلاصهٔ کوتاه خبر
دسترسی به خلاصهٔ کامل/اختصاصی خبر + نکات کلیدی
ارسال اخبار مورد علاقه به ایمیل شما
ارسال اخبار مورد علاقه به تلگرام شما
عدم نمایش تبلیغات

ارتقا به اشتراک ویژه

منبع: TLDR DevOps — https://www.digitalocean.com/blog/reduce-llm-inference-costs-prefix-caching

اشتراک‌گذاری:

خلاصهٔ کامل‌تر

اخبار مرتبط