چالش بزرگ بعدی در توسعه هوش مصنوعی مولد داده ها و دسترسی به ورودی های انسانی کافی برای تکرار پاسخ های انسانی خواهد بود.
این می تواند به این معنی باشد که پلتفرم های اجتماعی برای رهبری هزینه ها در موقعیت بهتری قرار دارند، با چت ربات های هوش مصنوعی متا و xAI که به طور مستقیم به ورودی های داده های انسانی بیشتری نسبت به دیگران دسترسی دارند. گوگل نیز به جستارهای جستجو و ورودی های بازبینی دسترسی دارد. اما بازیکنان کوچکتر، بدون چنین دسترسی، میتوانند در سرما کنار گذاشته شوند، زیرا ناشران به دنبال قفل کردن محتوای خود هستند تا دسترسی را کنترل کنند و سود را به حداکثر برسانند.
آخرین فشار در این جبهه طوماری است که توسط هزاران هنرمند مشهور امضا شده است که خواستار ممنوعیت استفاده بدون مجوز از آثار خلاقانه برای آموزش هوش مصنوعی مولد است. ناشر Penguin Random House نیز علیه استفاده از آثار نویسندگان خود برای آموزش هوش مصنوعی موضع گرفته است، در حالی که چندین نشریه خبری نیز اکنون در حال سازماندهی معاملات مجوز رسمی با توسعه دهندگان هوش مصنوعی برای خروجی خود هستند.
اگر مقررات رسمی در نتیجه این تغییر اجرا شود، که به درستی تضمین می کند که دارندگان حق چاپ می توانند از آثار دارای مجوز خود سود ببرند، دسترسی به ورودی های داده عظیم مورد نیاز برای آموزش مدل های هوش مصنوعی را محدود می کند. که سپس توسعهدهندگان کوچکتر را با انتخابهای بد یا بدتر میگذارد: یا هر دادهای را که میتوانند از وب گستردهتر حذف کنند (و ناشران بیشتری پارامترهای robots.txt خود را تغییر میدهند تا استفاده بدون مجوز از دادههای خود را غیرقانونی کنند)، یا بدتر، از محتوای تولید شده با هوش مصنوعی استفاده کنند. برای آموزش بیشتر مدل های هوش مصنوعی خود.
دومی مسیری برای فرسایش خروجی های هوش مصنوعی است، با استفاده مداوم از محتوای هوش مصنوعی برای ساخت مدل های زبان بزرگ (LLM) که به طور موثر سیستم را مسموم می کند و خطاها را در مجموعه داده ها ترکیب می کند. این پایدار نیست، به این معنی که دادههای ورودی از انسانها تقاضای بالایی خواهند داشت، که احتمالا متا، ایکس و ردیت را در جایگاه راننده قرار میدهد.
استیو هافمن، مدیر عامل Reddit در مصاحبه ای که این هفته انجام داد، این موضوع را برجسته کرد و خاطرنشان کرد:
منبع هوش مصنوعی هوش واقعی است و این همان چیزی است که در Reddit پیدا می کنید.
Reddit قبلاً یک قرارداد اشتراک داده با Google امضا کرده است تا به آزمایشهای هوش مصنوعی Gemini غول جستجو کمک کند و این میتواند یک همکاری کلیدی برای آینده ابزارهای Google باشد.
حال سوال این است که کدام پلتفرم اجتماعی با ارزش ترین داده ها را برای ایجاد مدل هوش مصنوعی دارد؟
متا مجموعهای از محتوا از میلیاردها کاربر انسانی دارد، اگرچه تعداد ارسال پستها در سالهای اخیر کاهش یافته است و در عوض به نفع مصرف ویدیو در برنامههایش است. به همین دلیل است که Threads می تواند یک جزء ارزشمند باشد و چرا الگوریتم Threads ممکن است از پست هایی که سؤال می پرسند، به عنوان وسیله ای برای کمک به آموزش سیستم های هوش مصنوعی آن استفاده کند.
X نیز هر روز بیش از 200 میلیون پست اصلی و پاسخ آپلود شده در پلتفرم خود را می بیند، اما ماهیت این پست ها از نظر آموزش سیستمی در مورد نحوه درک تعاملات شبیه انسان و ارائه پاسخ های دقیق مرتبط است.
به همین دلیل است که Reddit، همانطور که هافمن اشاره می کند، می تواند بهترین پلت فرم برای آموزش هوش مصنوعی باشد.
جوامع Subreddit حول محور تعامل با سبک Q و A ساخته شدهاند، با کاربرانی که سوالاتی را مطرح میکنند و پاسخهای مرتبط را ارائه میدهند که در برنامه دارای رای مثبت و منفی هستند. ساختن یک ابزار هوش مصنوعی حول این درک، در کنار هر توسعهدهندهای که مدلهای هوش مصنوعی دارند، میتواند دقیقترین پاسخها را ارائه دهد، و جالب است که ببینیم چگونه به تلاشهای هوش مصنوعی گوگل دامن میزند و گوگل در نهایت برای امتیاز مداوم چه چیزی میپردازد.
در حالی که این بدان معناست که دیگران ممکن است در نهایت در مسابقه سقوط کنند.
به عنوان مثال، OpenAI به عنوان بخشی از مشارکت خود با مایکروسافت، فید مداومی از داده ها، به جز لینکدین، ندارد. آیا این امر در نهایت مانع توسعه ChatGPT می شود، زیرا ناشران بیشتری محتوای خود را قفل می کنند و آن را از آموزش هوش مصنوعی حذف می کنند؟
این یک ملاحظات معتبر برای توسعه آینده مدلهای هوش مصنوعی است، زیرا بدون منابع داده جدید، چنین ابزارهایی میتوانند به سرعت ارتباط خود را از دست بدهند. که باعث می شود کاربران به سمت مدل های دیگر سوق پیدا کنند.
پس چه کسی در این مورد برنده می شود؟ متا؟ xAI گوگل؟
در حال حاضر، به نظر می رسد که یکی از این سه مدل در نهایت مدل بهتری خواهد داشت و با موج بعدی ابزارهای هوش مصنوعی نسل بعدی راه را پیش خواهد برد.
یا، ما شروع به دیدن معاملات بزرگ در مورد ورودی های داده انحصاری، و مدل های جدید هوش مصنوعی خواهیم کرد که بر اساس مجموعه داده های مختلف ساخته شده اند.
این می تواند یک پیشرفت سودمندتر و منطقی تر باشد که چشم انداز توسعه هوش مصنوعی مولد را تغییر خواهد داد.
منبع: socialmediatoday