Hadoop یک چارچوب متن باز مبتنی بر جاوا است که ذخیره سازی و پردازش حجم زیادی از داده ها را برای برنامه ها مدیریت می کند. Hadoop از فضای ذخیرهسازی توزیع شده و پردازش موازی برای مدیریت دادههای بزرگ و کارهای تحلیلی استفاده میکند، و حجمهای کاری را به حجمهای کاری کوچکتر تقسیم میکند که میتوانند همزمان اجرا شوند.
چهار ماژول اصلی Hadoop چیست؟
Hadoop از چهار ماژول اصلی تشکیل شده است:
Hadoop Distributed File System (HDFS) – یک سیستم فایل توزیع شده که بر روی سخت افزار استاندارد یا پایین رده اجرا می شود. HDFS علاوه بر تحمل خطا بالا و پشتیبانی بومی از مجموعه داده های بزرگ، خروجی داده بهتری را نسبت به سیستم های فایل سنتی ارائه می دهد.
Yet Another Resource Negotiator (YARN) – گره های خوشه ای و استفاده از منابع را مدیریت و نظارت می کند. کارها و وظایف را برنامه ریزی می کند.
MapReduce – چارچوبی که به برنامه ها کمک می کند تا محاسبات موازی روی داده ها را انجام دهند. وظیفه نقشه داده های ورودی را می گیرد و آن را به مجموعه داده ای تبدیل می کند که می تواند در جفت مقادیر کلیدی محاسبه شود. خروجی کار نقشه با کاهش وظایف مصرف می شود تا خروجی را جمع کرده و نتیجه مطلوب را ارائه دهد.
Hadoop Common – کتابخانه های رایج جاوا را ارائه می دهد که می تواند در همه ماژول ها استفاده شود.
