توضیحات
آموزش یادگیری تقویتی عمیق در پایتون
نام دوره : Cutting-Edge AI: Deep Reinforcement Learning in Python
پیش نیاز:
- اصول MDPs (فرآیندهای تصمیم گیری مارکوف) و یادگیری تقویتی را بدانید
- نحوه ایجاد یک شبکه عصبی کانولوشنال در تنسورفلو را بدانید
توضیحات:
تا به حال فکر کرده اید که فناوری های هوش مصنوعی مانند OpenAI ChatGPT و GPT-4 واقعا چگونه کار می کنند؟ در این دوره آموزشی با مبانی این کاربردهای پیشگامانه آشنا خواهید شد.
به هوش مصنوعی پیشرفته خوش آمدید!
یادگیری تقویتی عمیق در واقع ترکیبی از 2 موضوع است:
یادگیری تقویتی و یادگیری عمیق (شبکه های عصبی).
در حالی که هر دوی اینها مدت زیادی است که وجود داشته است، به تازگی است که Deep Learning و در کنار آن، Reinforcement Learning واقعاً شروع به کار کرده است.
بلوغ یادگیری عمیق باعث پیشرفت در یادگیری تقویتی شده است، که از دهه 1980 وجود داشته است، اگرچه برخی از جنبه های آن، مانند معادله بلمن، بسیار طولانی تر بوده است.
اخیراً، این پیشرفت ها به ما این امکان را داده است که نشان دهیم یادگیری تقویتی چقدر می تواند قدرتمند باشد.
ما دیدهایم که AlphaZero چگونه میتواند با استفاده از خودبازی بر بازی Go مسلط شود.
این تنها چند سال پس از آن است که AlphaGo اصلی یک قهرمان جهان را در Go شکست داد.
ما رباتهای دنیای واقعی را دیدهایم که یاد میگیرند چگونه راه بروند، و حتی پس از لگد خوردن، بهبود مییابند، علیرغم اینکه فقط با استفاده از شبیهسازی آموزش دیدهاند.
شبیه سازی خوب است زیرا به سخت افزار واقعی نیاز ندارد که گران است. اگر عامل شما سقوط کند، هیچ آسیب واقعی وارد نمی شود.
رباتهای دنیای واقعی را دیدهایم که مهارت دست را یاد میگیرند، که این کار کوچکی نیست.
راه رفتن یک چیز است، اما شامل حرکات خشن است. مهارت دست پیچیده است – شما درجات آزادی زیادی دارید و بسیاری از نیروهای درگیر بسیار ظریف هستند.
تصور کنید از پای خود برای انجام کاری که معمولاً با دست خود انجام می دهید استفاده می کنید و بلافاصله متوجه می شوید که چرا این کار دشوار است.
آخرین اما نه کم اهمیت – بازی های ویدیویی.
حتی با در نظر گرفتن چند ماه گذشته، ما شاهد پیشرفت های شگفت انگیزی بوده ایم. هوش مصنوعی اکنون بازیکنان حرفه ای را در CS:GO و Dota 2 شکست می دهد.
اکنون که می دانیم یادگیری عمیق با یادگیری تقویتی کار می کند، این سوال پیش می آید: چگونه این الگوریتم ها را بهبود بخشیم؟
این دوره چند راه مختلف را به شما نشان می دهد: از جمله الگوریتم قدرتمند A2C (Advantage Actor-Critic)، الگوریتم DDPG (Deep Deterministic Policy Gradient) و استراتژی های تکامل.
استراتژیهای تکامل، برداشتی جدید و تازه از یادگیری تقویتی است، که به نوعی تمام نظریههای قدیمی را به نفع رویکرد «جعبه سیاهتر»، با الهام از تکامل بیولوژیکی دور میاندازد.
چیزی که در مورد این دوره جدید عالی است، محیط های متنوعی است که باید به آنها نگاه کنیم.
ابتدا، ما به محیط های کلاسیک آتاری نگاه می کنیم. اینها مهم هستند زیرا نشان می دهند که عوامل یادگیری تقویتی می توانند تنها بر اساس تصاویر یاد بگیرند.
دوم، ما به MuJoCo که یک شبیهساز فیزیک است نگاه میکنیم.
این اولین قدم برای ساختن رباتی است که می تواند در دنیای واقعی حرکت کند و فیزیک را درک کند – ابتدا باید نشان دهیم که می تواند با فیزیک شبیه سازی شده کار کند.
در نهایت، ما قصد داریم به Flappy Bird، بازی موبایل مورد علاقه همه چند سال پیش نگاه کنیم.
پیش نیازهای پیشنهادی دوره آموزش یادگیری تقویتی عمیق در پایتون :
- حساب دیفرانسیل و انتگرال
- احتمال
- برنامه نویسی شی گرا
- کدنویسی پایتون: if/else، حلقهها، لیستها، دستورات، مجموعهها
- کدگذاری Numpy: عملیات ماتریسی و برداری
- رگرسیون خطی
- نزول گرادیان
- بدانید که چگونه یک شبکه عصبی کانولوشنال (CNN) در تنسورفلو بسازید
- فرآیندهای تصمیم گیری مارکوف (MDP)
دوره آموزش یادگیری تقویتی عمیق در پایتون برای چه کسانی است:
- دانشآموزان و متخصصانی که میخواهند آموزش تقویتی را در کار و پروژههای خود اعمال کنند
- هرکسی که می خواهد الگوریتم های پیشرفته هوش مصنوعی و یادگیری تقویتی را یاد بگیرد.
یودمی ایران –
دوره درخواستی خود را از راه های ارتباطی درخواست کنید