توضیحات
آموزش نوشتن خطوط آماده تولید ETL در پایتون از صفر
نام دوره : Writing production-ready ETL pipelines in Python / Pandas
پیشنیاز:
- داشتن دانش پایهای از پایتون و پانداس مطلوب است.
- داشتن دانش پایهای از ETL و AWS S3 مطلوب است.
توضیحات
این دوره هر مرحله برای نوشتن یک خط لوله ETL در پایتون از ابتدا تا تولید را با استفاده از ابزارهای لازم مانند پایتون 3.9، Jupyter Notebook، Git و Github، Visual Studio Code، Docker و Docker Hub و بستههای پایتون Pandas، boto3، pyyaml، awscli، jupyter، pylint، moto، coverage و memory-profiler را نشان خواهد داد.
دو رویکرد مختلف برای کد نویسی در زمینه مهندسی داده معرفی و اعمال خواهد شد – برنامهنویسی تابعی و شیءگرا.
بهترین روشها در توسعه کد پایتون معرفی و اعمال خواهند شد:
- اصول طراحی
- کدنویسی تمیز
- محیطهای مجازی
- تنظیم پروژه/پوشه
- پیکربندی
- لاگگیری
- مدیریت استثناها
- لینتینگ
- مدیریت وابستگیها
- بهینهسازی عملکرد با پروفایلینگ
- تست واحد
- تست یکپارچگی
- داکریزاسیون
هدف دوره آموزش نوشتن خطوط آماده تولید ETL در پایتون از صفر چیست؟
در دوره ما از مجموعه داده Xetra استفاده خواهیم کرد.
Xetra مخفف “تبادل تجارت الکترونیکی” و پلتفرم معاملاتی گروه Deutsche Börse است.
این مجموعه داده به صورت نزدیک به زمان واقعی بر اساس هر دقیقه از سیستم معاملاتی Deutsche Börse استخراج شده و در یک سطل AWS S3 ذخیره میشود که به صورت رایگان در دسترس عموم قرار دارد.
خط لوله ETL که ما ایجاد خواهیم کرد، مجموعه داده Xetra را از سطل منبع AWS S3 به صورت زمانبندی شده استخراج کرده، با استفاده از تحولات گزارش ایجاد کرده و دادههای تحولیافته را به یک سطل هدف AWS S3 دیگر بارگذاری خواهد کرد.
این خط لوله به گونهای نوشته خواهد شد که به راحتی قابل استقرار در تقریباً هر محیط تولیدی که میتواند برنامههای کانتینری شده را مدیریت کند، باشد.
محیط تولیدی که ما برای آن خط لوله ETL خواهیم نوشت شامل یک مخزن کد GitHub، یک مخزن تصویر DockerHub، یک پلتفرم اجرایی مانند Kubernetes و یک ابزار ارکستراسیون مانند موتور گردش کار کانتینری بومی Kubernetes به نام Argo Workflows یا Apache Airflow است.
در این دوره چه انتظاری میتوانید داشته باشید؟
شما به طور عمده درسهای عملی تعاملی خواهید داشت که باید خط لوله را کد نویسی و پیادهسازی کنید و درسهای نظری در مواقع نیاز.
علاوه بر این، شما کد پایتون برای هر درس در مواد دوره، کل پروژه در GitHub و تصویر داکر آماده استفاده با کد کاربردی در Docker Hub را دریافت خواهید کرد.
برای هر درس نظری پاورپوینتهایی برای دانلود و لینکهای مفید برای هر موضوع و مرحله وجود خواهد داشت که میتوانید اطلاعات بیشتری کسب کرده و عمیقتر شوید.
دوره آموزش نوشتن خطوط آماده تولید ETL در پایتون از صفر برای چه کسانی است؟
- مهندسان داده، دانشمندان و توسعهدهندگانی که میخواهند خطوط لوله داده حرفهای و آماده برای تولید در پایتون بنویسند.
- هر کسی که علاقهمند به نوشتن خطوط لوله داده در پایتون است که برای تولید آماده باشند.
یودمی ایران –
دوره درخواستی خود را از راه های ارتباطی درخواست کنید