شرکت Pruna AI که یه استارتاپ اروپاییه و روی الگوریتمهای فشردهسازی مدلهای هوش مصنوعی کار میکنه، قراره پنجشنبه چارچوب بهینهسازی خودش رو متنباز کنه.
Pruna AI یه چارچوب ساخته که روشهای مختلف بهینهسازی مثل کشینگ، هرس کردن، کوانتیزاسیون و تقطیر رو روی یه مدل هوش مصنوعی اعمال میکنه.
جان راچوان، یکی از بنیانگذاران و مدیر ارشد فناوری Pruna AI، به TechCrunch گفته: “ما همچنین ذخیره و بارگیری مدلهای فشردهشده رو استانداردسازی میکنیم، ترکیبی از این روشهای فشردهسازی رو اعمال میکنیم و همچنین مدل فشردهشده رو بعد از فشردهسازی ارزیابی میکنیم.”
مخصوصاً، چارچوب Pruna AI میتونه ارزیابی کنه که آیا بعد از فشردهسازی یه مدل، افت کیفیت قابل توجهی وجود داره یا نه و چه دستاوردهایی در عملکرد به دست میارید.
اون اضافه کرد: “اگه بخوام یه تشبیه استفاده کنم، ما شبیه به این هستیم که Hugging Face چطوری ترنسفورمرها و دیفیوزرها رو استانداردسازی کرد – چطوری صداشون کنیم، چطوری ذخیرهشون کنیم، بارگذاریشون کنیم و غیره. ما هم همین کار رو میکنیم، اما برای روشهای کارآمدسازی.”
آزمایشگاههای بزرگ هوش مصنوعی از قبل از روشهای مختلف فشردهسازی استفاده میکنن. مثلاً، OpenAI برای ساخت نسخههای سریعتر از مدلهای اصلی خودش به تقطیر متکی بوده.
احتمالاً OpenAI اینطوری GPT-4 Turbo رو توسعه داده، که یه نسخه سریعتر از GPT-4 هست. به طور مشابه، مدل تولید تصویر Flux.1-schnell یه نسخه تقطیرشده از مدل Flux.1 از Black Forest Labs هست.
تقطیر یه تکنیکه که برای استخراج دانش از یه مدل هوش مصنوعی بزرگ با یه مدل “معلم-شاگرد” استفاده میشه. توسعهدهندهها درخواستهایی رو به مدل معلم میفرستن و خروجیها رو ثبت میکنن. گاهی اوقات پاسخها با یه مجموعه داده مقایسه میشن تا ببینن چقدر دقیق هستن. این خروجیها بعداً برای آموزش مدل شاگرد استفاده میشن، که آموزش داده میشه تا رفتار معلم رو تقلید کنه.
راچوان گفته: “برای شرکتهای بزرگ، معمولاً این چیزا رو تو داخل شرکت خودشون میسازن. و چیزی که تو دنیای متنباز پیدا میکنید معمولاً مبتنی بر روشهای تکیه. مثلاً، بگیم یه روش کوانتیزاسیون برای LLMها، یا یه روش کشینگ برای مدلهای دیفیوژن. اما شما نمیتونید ابزاری رو پیدا کنید که همه اینا رو جمع کنه، استفاده از همهشون رو آسون کنه و بتونید با هم ترکیبشون کنید. و این ارزش بزرگیه که Pruna الان ارائه میده.”
در حالی که Pruna AI از هر نوع مدلی پشتیبانی میکنه، از مدلهای زبان بزرگ گرفته تا مدلهای دیفیوژن، مدلهای تبدیل گفتار به متن و مدلهای بینایی کامپیوتر، این شرکت در حال حاضر بیشتر روی مدلهای تولید تصویر و ویدیو تمرکز داره.
برخی از کاربران فعلی Pruna AI شامل Scenario و PhotoRoom هستن. Pruna AI علاوه بر نسخه متنباز، یه نسخه سازمانی با ویژگیهای بهینهسازی پیشرفته از جمله یه عامل بهینهسازی هم داره.
راچوان گفته: “هیجانانگیزترین ویژگیای که به زودی منتشر میکنیم، یه عامل فشردهسازیه. اساساً، شما مدلتون رو بهش میدید، میگید: “من سرعت بیشتری میخوام اما دقتم بیشتر از ۲٪ کم نشه.” و بعد، عامل فقط جادو میکنه. بهترین ترکیب رو برای شما پیدا میکنه و براتون برمیگردونه. شما به عنوان یه توسعهدهنده نیازی نیست کاری انجام بدید.”
Pruna AI برای نسخه حرفهای خودش ساعتی هزینه میگیره. راچوان گفته: “این شبیه به اینه که وقتی یه GPU رو تو AWS یا هر سرویس ابری دیگه اجاره میکنید، چطوری فکر میکنید.”
و اگه مدلتون یه بخش حیاتی از زیرساخت هوش مصنوعی شما باشه، با مدل بهینهشده در نهایت پول زیادی رو در استنتاج صرفهجویی میکنید. به عنوان مثال، Pruna AI یه مدل Llama رو با استفاده از چارچوب فشردهسازی خودش هشت برابر کوچکتر کرده بدون اینکه خیلی کیفیتش پایین بیاد. Pruna AI امیدوار است مشتریانش به چارچوب فشردهسازی اون به عنوان یه سرمایهگذاری فکر کنن که هزینهاش رو پرداخت میکنه.
Pruna AI چند ماه پیش یه دور سرمایهگذاری اولیه ۶.۵ میلیون دلاری رو جمعآوری کرد. سرمایهگذاران در این استارتاپ شامل EQT Ventures، Daphni، Motier Ventures و Kima Ventures هستن.
منبع: techcrunch