مهندسی پرامپت خودکار (APE)

حالا سوال اینه که چطور از APE استفاده کنیم؟ اینجا چند قدم ساده رو براتون توضیح می‌دم.

قدم اول: انتخاب چارچوب

اول باید چارچوب کلی APE رو بشناسید. این چارچوب در دو بخش کار می‌کنه: تولید پرامپت و انتخاب پرامپت. در بخش اول، باید از یک مدل زبانی بزرگ برای تولید نمونه‌های مختلف پرامپت استفاده کنید.

قدم دوم: تولید پرامپت

در این مرحله، از یک مدل زبانی که از قبل آموزش دیده (مثل GPT) استفاده می‌کنیم. شما باید نیازهای خاص کارتون رو به عنوان ورودی به مدل بدید و مدل بر اساس اون‌ها، چندین نمونه پرامپت تولید می‌کنه. این پرامپت‌ها در واقع راه‌حل‌های پیشنهادی برای وظیفه‌ای هستن که در نظر دارید.

قدم سوم: انتخاب پرامپت

حالا وقتشه که پرامپت‌ها رو با مدل هدف (یعنی همون مدلی که می‌خواید برای کارتون استفاده کنید) تست کنید. بعد خروجی‌های مختلف رو بر اساس معیارهای عملکردی ارزیابی می‌کنید تا بهترین پرامپت رو انتخاب کنید.

روش‌های معروف APE

دو تا روش محبوب برای مهندسی پرامپت خودکار وجود داره که می‌تونید ازشون استفاده کنید:

1. چارچوب APE

این چارچوب از دو مدل زبانی استفاده می‌کنه؛ یکی برای تولید پرامپت و یکی برای تولید محتوا. مثلاً از مدل‌هایی مثل GPT-3 و InstructGPT استفاده می‌شه تا پرامپت‌های بهینه تولید بشن. بعد پرامپت‌ها رو با مجموعه‌ای از مثال‌ها ترکیب می‌کنید تا بهترین نتیجه رو بگیرید.

2. OPRO

روش OPRO که توسط تیم Google DeepMind معرفی شده، یه ابزار قدرتمند برای انتخاب بهترین پرامپت هست. این برنامه به مدل‌های زبانی مختلف اجازه می‌ده تا پرامپت‌های متفاوتی رو امتحان کنن و بهترین رو پیدا کنن. این روش باعث می‌شه تا روند تکراری تولید پرامپت‌ها خودکار بشه و نیاز به کدنویسی رو کاهش بده.

کاربردهای عملی APE

مهندسی پرامپت خودکار می‌تونه در کارهای مختلف مرتبط با هوش مصنوعی مولد استفاده بشه. مثلاً می‌تونه برای پیدا کردن کلمات هم‌قافیه یا بهینه‌سازی پرامپت‌هایی که پاسخ‌های درست‌تری تولید می‌کنن، مفید باشه. حتی می‌تونید از APE برای پیدا کردن پرامپت‌های کارآمد در ترجمه زبان‌ها استفاده کنین.

این عبارت در پرامپت “بیایید این را مرحله به مرحله حل کنیم تا مطمئن شویم که پاسخ درستی داریم.”

“Let’s work this out in a step by step way to be sure we have the right answer.”

باعث ایجاد استدلال زنجیره‌ تفکر می‌شود و عملکرد را در بنچمارک‌های MultiArith و GSM8K بهبود می‌بخشد.