Skip to content

Latest commit

 

History

History
38 lines (30 loc) · 4.56 KB

big-data.md

File metadata and controls

38 lines (30 loc) · 4.56 KB

Data Lake

داده ها بصورت خام و بدون هیچ پردازشی قرار میگریند

Data Warehouse

یک پایگاه داده بزرگ برای ذخیره داده های پردازش شده

Data Cube

یک ساختار چندبعدی از دیتاورهوس برای اینکه بتوان دیتاها را از چند بعد بررسی کرد.به‌عنوان مثال، فروش یک محصول را می‌توان در ابعاد زمان، مکان و محصول تحلیل کرد.

Roll-Up vs Drill-Down

نمایش دیتا ها بصورت جزئی تر Drill-Down میگویند و بصورت کلی تر Roll-Up میگویند مثلا دیتاورهوس ما بصورت ماهاینه است میتونم زوم اوت کنیم و سالیانه ببنیم یا زوم این کنیم و روزانه ببنیم.

Slice vs Dice

فیلتر کردن داده ها در یک بعد را Slice میگویند و در چند بعد را Dice میگویند.

Pivot

پیوت تغییر زاویه دید داده‌های چندبعدی است که امکان مقایسه و بررسی داده‌ها از دیدگاه‌های مختلف را فراهم می‌کند. به عنوان مثال، می‌توانید داده‌های فروش را بر اساس دسته‌های محصول به جای زمان سازمان‌دهی کنید.

Dimension

بُعد (Dimension) نشان‌دهنده جنبه‌ها یا ویژگی‌های مختلف داده‌هاست که برای تحلیل مورد استفاده قرار می‌گیرد. برای مثال، زمان، مکان، و نوع محصول، ابعاد مختلفی برای تحلیل داده‌های فروش محسوب می‌شوند.

Measure

میجر (Measure) مقادیر عددی و کمی هستند که روی ابعاد مختلف تحلیل می‌شوند، مانند فروش، درآمد، تعداد بازدیدها و غیره. این مقادیر معمولاً برای محاسبه و مقایسه در تحلیل‌های OLAP استفاده می‌شوند.

Star Schema

  • ساختار آن شبیه به شکل یک ستاره است؛ جدول حقیقت در مرکز و جداول ابعادی به‌صورت شاخه‌هایی در اطراف آن قرار دارند.
  • به دلیل سادگی و شفافیت، اجرای کوئری‌ها در این ساختار سریع‌تر و ساده‌تر است.
  • معمولاً حجم کمتری از داده نیاز به نگهداری دارد و برای تحلیل‌های OLAP مناسب است.
  • جداول ابعادی مستقیماً به جدول حقیقت متصل هستند و پیچیدگی کمتری در روابط بین جداول وجود دارد.
  • به‌طور خلاصه، اسکیما ستاره‌ای برای مواردی که نیاز به سادگی و سرعت در اجرای کوئری‌ها داریم مناسب است.

Snowflake Schema

  • به دلیل تجزیه جداول ابعادی به جداول زیرابعاد، داده‌ها به صورت نرمالایز (Normalized) ذخیره می‌شوند، که باعث کاهش تکرار اطلاعات می‌شود.
  • ساختار آن پیچیده‌تر از اسکیما ستاره‌ای است و مانند یک دانه برف به نظر می‌رسد، چون جداول به صورت چندسطحی به هم مرتبط هستند.
  • نیاز به فضای ذخیره‌سازی کمتری دارد و برای مواردی که نرمالایز کردن داده‌ها مهم است کاربرد دارد.
  • به دلیل تعداد بیشتر جداول و روابط، اجرای کوئری‌ها نسبت به اسکیما ستاره‌ای پیچیده‌تر و ممکن است کندتر باشد.
  • به‌طور خلاصه، اسکیما برفی برای مواقعی که کاهش فضای ذخیره‌سازی و حذف داده‌های تکراری مهم است استفاده می‌شود.

OLAP (Online Analytical Processing)

تکنولوژی‌ای برای تحلیل سریع و چندبعدی داده‌های ساختارمند است که به کاربران اجازه می‌دهد داده‌ها را از زوایای مختلف بررسی و تحلیل کنند. با OLAP می‌توان به سرعت به تحلیل‌های پیچیده‌ای مانند Roll-Up، Drill-Down، Slice و Dice دست یافت. این تکنولوژی اغلب برای تصمیم‌گیری‌های تجاری و گزارش‌گیری در انبار داده‌ها استفاده می‌شود