فروش ویژه سرور اختصاصی
ماکرونت: کتابخانه Pandas در پایتون و نصب آن
- مهر 23, 1402
- 0
- ملیحه ایزی
پاندا چیست؟
پاندا یک کتابخانه پایتون است که برای کار با مجموعه داده ها استفاده می شود. دارای عملکردهایی برای تجزیه و تحلیل، تمیز کردن، کاوش و دستکاری داده ها است.
یک بسته منبع باز پایتون است که بیشترین استفاده را برای علم داده/تحلیل داده و وظایف یادگیری ماشین دارد. pandas در اصل روی پکیج NumPy ساخته شده است که از آرایه های چند بعدی پشتیبانی می کند. بهعنوان یکی از محبوبترین بستههای تحلیل داده، Pandas با بسیاری از ماژولهای علم داده دیگر در اکوسیستم پایتون به خوبی کار میکند و معمولاً در هر توزیع پایتون، از توزیعهای همراه با سیستم عامل شما گرفته تا توزیعهای فروشنده تجاری گنجانده میشود.
اگر به علم داده به عنوان یک شغل فکر می کنید، پس ضروری است که یکی از اولین کارهایی که انجام می دهید یادگیری پاندا باشد. در این پست، اطلاعات ضروری در مورد پاندا، از جمله نحوه نصب، کاربردهای آن، و نحوه عملکرد آن با سایر بسته های رایج تجزیه و تحلیل داده پایتون مانند matplotlib و scikit-learn را بررسی خواهیم کرد.
تاریخچه کتابخانه پاندا
پاندا در ابتدا توسط Wes McKinney در سال 2008 زمانی که او در مدیریت سرمایه AQR کار می کرد، توسعه یافت. او AQR را متقاعد کرد که به او اجازه دهد پاندا را منبع باز کند. یکی دیگر از کارمندان AQR، چانگ شی، به عنوان دومین مشارکت کننده اصلی در سال 2012 پیوست. با گذشت زمان نسخه های بسیاری از پاندا منتشر شده است. آخرین نسخه پاندا 1.5.3 است که در 18 ژانویه 2023 منتشر شد.
چرا از پاندا استفاده کنیم؟
سریع و کارآمد برای دستکاری و تجزیه و تحلیل داده ها.
داده ها از اشیاء فایل های مختلف را می توان به راحتی بارگیری کرد.
شکل دهی و چرخش انعطاف پذیر مجموعه داده ها
عملکرد سری زمانی را ارائه می دهد.
با استفاده از پاندا چه کاری می توانید انجام دهید؟
پاندا عموماً برای علم داده استفاده می شود. داده های تولید شده توسط پاندا اغلب به عنوان ورودی برای رسم توابع Matplotlib، تجزیه و تحلیل آماری در SciPy و الگوریتم های یادگیری ماشین در Scikit-learn استفاده می شود.
به عنوان مثال، فرض کنید می خواهید مجموعه داده ای را که در یک CSV در رایانه خود ذخیره شده است، کاوش کنید. پاندا دادهها را از آن CSV به یک DataFrame – اساساً یک جدول – استخراج میکند، سپس به شما اجازه میدهد کارهایی مانند زیر انجام دهید:
–آمار را محاسبه کنید و به سؤالات مربوط به داده ها پاسخ دهید، مانند میانگین، میانه، حداکثر یا حداقل هر ستون چقدر است؟
–آیا ستون A با ستون B همبستگی دارد؟
–توزیع داده ها در ستون C چگونه است؟
–با انجام کارهایی مانند حذف مقادیر از دست رفته و فیلتر کردن ردیف ها یا ستون ها بر اساس برخی معیارها، داده ها را پاک کنید.
-داده ها را با کمک Matplotlib تجسم کنید. میلهها، خطوط، هیستوگرام، حبابها و موارد دیگر را ترسیم کنید.
–داده های پاک شده و تبدیل شده را به یک CSV، فایل دیگر یا پایگاه داده ذخیره کنید قبل از اینکه وارد مدل سازی یا تجسم های پیچیده شوید، باید درک خوبی از ماهیت مجموعه داده های خود داشته باشید و پاندا بهترین راه برای انجام این کار هستند.
در اینجا لیستی از کارهایی است که می توانیم با استفاده از پاندا انجام دهیم:
پاک کردن داده
پر کردن داده ها
نرمال سازی داده ها
Merge و join داده ها
تجسم داده ها
تحلیل آماری
بررسی داده ها
بارگیری و ذخیره داده ها
و …
پاندا همچنین میتوانند ردیفهایی را که مرتبط نیستند یا حاوی مقادیر اشتباه هستند، مانند مقادیر خالی یا NULL حذف کنند. به این کار پاک کردن داده ها می گویند.
چه زمانی باید استفاده از پاندا را شروع کرد؟
اگر تجربه ای در کدنویسی در پایتون ندارید، باید ابتدا نسبت به یادگیری متوسط پایتون اقدام نمایید. لازم نیست در سطح برنامه نویس حرفه ای باشید، اما باید در اصول اولیه مانند لیست ها، تاپل ها، دیکشنری ها، توابع و تکرارها مهارت داشته باشید. همچنین، به دلیل شباهت های ذکر شده در بالا، توصیه می کنم با NumPy آشنا شوید.
نصب پاندا
اولین قدم کار در پاندا این است که اطمینان حاصل کنید که آیا در سیستم نصب شده است یا خیر. اگر نه، باید آن را با استفاده از دستور pip در سیستم خود نصب کنیم. دستور cmd را در کادر جستجو تایپ کنید و با استفاده از دستور cd پوشه ای را که فایل پایتون در آن نصب شده است پیدا کنید. پس از پیدا کردن آن، دستور زیر را تایپ کنید:
pip install pandas
– پس از نصب پاندا در سیستم، باید کتابخانه را وارد کنید. این ماژول به طور کلی به صورت زیر وارد می شود:
import pandas as pd
در اینجا، pd به عنوان نام مستعار پاندا شناخته می شود.
ساختارهای داده پاندا
پاندا به طور کلی دو ساختار داده ارائه می دهد که عبارتند از:
- Series
- DataFrame
Series
سری Pandas یک آرایه برچسبدار تک بعدی است که قادر به نگهداری دادهها از هر نوع (اعداد صحیح، رشته، شناور، اشیاء پایتون و غیره) است. برچسب های محور مجموعاً شاخص نامیده می شوند.
سری Pandas چیزی نیست جز یک ستون در برگه اکسل. برچسب ها نباید منحصر به فرد باشند، بلکه باید از نوع قابل درهم سازی باشند. شی از هر دو نمایه سازی اعداد صحیح و مبتنی بر برچسب پشتیبانی می کند و مجموعه ای از روش ها را برای انجام عملیات مربوط به شاخص ارائه می دهد.
Series در پانداس
در دنیای واقعی، یک سری Pandas با بارگیری مجموعه داده ها از فضای ذخیره سازی موجود ایجاد می شود، ذخیره سازی می تواند پایگاه داده SQL، فایل CSV یا یک فایل اکسل باشد. سری Pandas را می توان از لیست ها، فرهنگ لغت ها و از مقادیر اسکالر و غیره ایجاد کرد.
DataFrame
DataFrame یک ساختار دادهای دوبعدی با تغییر اندازه، بالقوه ناهمگن با محورهای برچسبدار (ردیفها و ستونها) است. قاب داده یک ساختار داده دو بعدی است، یعنی داده ها به صورت جدولی در ردیف ها و ستون ها تراز شده اند. DataFrame از سه جزء اصلی، داده ها، ردیف ها و ستون ها تشکیل شده است.
ایجاد DataFrame
در دنیای واقعی، یک Pandas DataFrame با بارگیری مجموعه دادهها از فضای ذخیرهسازی موجود ایجاد میشود، فضای ذخیرهسازی میتواند پایگاه داده SQL، فایل CSV یا یک فایل اکسل باشد. Pandas DataFrame را می توان از لیست ها، لغت نامه ها و از لیستی از فرهنگ لغت ها و غیره ایجاد کرد.
چگونه برنامه Pandas را در پایتون اجرا کنیم؟
برنامه Pandas را می توان در هر ویرایشگر متنی اجرا کرد، اما توصیه می شود برای این کار از Jupyter Notebook استفاده کنید زیرا Jupyter به جای اجرای کل فایل، توانایی اجرای کد در یک سلول خاص را می دهد. Jupyter همچنین راهی آسان برای تجسم قاب ها و نمودارهای داده پاندا ارائه می دهد.
پاندا را با استفاده از Anaconda نصب کنید
Anaconda نرم افزار منبع باز است که حاوی Jupyter، Spyder و غیره است که برای پردازش داده های بزرگ، تجزیه و تحلیل داده ها و محاسبات علمی سنگین استفاده می شود. برای دانلود نرم افزار اینجا کلیک کنید. پس از نصب آن مطابق مراحل زیر پاندا را از Anaconda Navigator نصب و اجرا کنید
مرحله 1: Anaconda Navigator را در منوی Start جستجو کرده و آن را باز کنید.
مرحله 2: روی تب Environment کلیک کنید و سپس روی دکمه Create کلیک کنید تا یک Pandas Environment جدید ایجاد کنید.
مرحله 3: نامی به محیط خود بدهید، به عنوان مثال. پاندا و سپس پایتون و نسخه آن را برای اجرا در محیط انتخاب کنید. حالا روی دکمه Create کلیک کنید تا Pandas Environment ایجاد شود.
مرحله 4: اکنون روی Pandas Environment ایجاد شده کلیک کنید تا فعال شود.
مرحله 5: در لیست نام بسته های بالا، همه را انتخاب کنید تا همه بسته ها فیلتر شوند.
مرحله 6: اکنون در نوار جستجو، “Pandas” را جستجو کنید. بسته Pandas را برای نصب انتخاب کنید.
مرحله 7: اکنون روی چک باکسی که قبل از نام بسته داده شده است کلیک راست کرده و سپس به “علامت گذاری برای نصب نسخه خاص” بروید. اکنون نسخه ای را که می خواهید نصب کنید انتخاب کنید.
مرحله 8: روی دکمه Apply کلیک کنید تا Pandas Package نصب شود.
مرحله 9: مراحل نصب را با کلیک بر روی دکمه Apply به پایان برسانید.
مرحله 10: اکنون برای باز کردن Pandas Environment، روی فلش سبز در سمت راست نام بسته کلیک کنید و کنسولی را که میخواهید با آن برنامهنویسی Pandas خود را شروع کنید، انتخاب کنید.
پیشنهادات خود را از طریق بخش نظرات با ما در میان بگذارید.
«ملیحه ایزی»، فارغالتحصیل مقطع کارشناسی ارشد مهندسی کامپیوتر، گرایش نرم افزار است.
تمامی حقوق برای ماکرونت محفوظ است.