R doParallel: چگونه محاسبات جدول داده‌های R را موازی کنیم

توزیع محاسبات را در جدول داده‌های R موازی کردن راهی مطمئن برای کاهش زمان محاسباتی خطوط داده خود است. البته، این پیچیدگی بیشتری به کد اضافه می‌کند، اما می‌تواند هزینه محاسباتی شما را به طور چشمگیری کاهش دهد، به خصوص اگر همه چیز را در ابر انجام می‌دهید.

بسته R doParallel یک افزایش سرعت قابل توجهی به محاسبات جدول داده شما اضافه می‌کند و در عین حال کمترین تغییرات کد را در مقابل محاسبات جدول داده شما اعمال می‌کند. این بسته تمام چیزهایی که شما نیاز دارید و حتی بیشتر برای وارد شدن به دنیای موازی‌سازی جدول داده دارد، و امروز شما همه چیز را درباره آن خواهید آموخت. بعد از خواندن، خواهید دانست چه تغییراتی باید انجام دهید تا کد خود را به صورت موازی اجرا کنید، و چگونه تعداد هسته‌های پردازنده شما زمان کل محاسبه و زمان هدررفت (آماده‌سازی اولیه) را تحت تأثیر قرار می‌دهد.

مباحث پیش‌نویس:

چگونگی شروع کار با R doParallel
مبنایی - چقدر R تک‌نخی کند است؟
عملکرد R doParallel در عمل - چگونگی موازی‌سازی انجام‌های جدول داده
موازی‌سازی جدول داده R - زمان محاسبه با افزایش تعداد هسته‌های پردازنده کاهش می‌یابد؟
جمع‌بندی R doParallel برای جداول داده

چگونگی شروع کار با R doParallel

مطالعه‌ی مبنایی ما درباره موازی‌سازی قبلاً تئوری‌های اساسی و دلایلی را که باید در مورد آن مراقبت کنید پوشش داد. اگر با این مفاهیم آشنا نیستید، این مقاله فرض می‌کند که شما درک اساسی از مفاهیم موازی‌سازی R را دارید.

ما اینجا خود را تکرار نمی‌کنیم، اما برای خلاصه:

بسته R doParallel با استفاده از بسته foreach امکان محاسبه‌ی موازی را فراهم می‌کند. این به شما امکان می‌دهد تا حلقه‌های foreach را به صورت موازی اجرا کنید، و محاسبات را بر روی چندین هسته‌ی پردازنده انجام دهید.
برای جداول داده R، این به معنای آن است که باید آن‌ها را به قطعات تقسیم کنید، جایی که تعداد قطعات مساوی با تعداد هسته‌های پردازنده‌ای است که خوشه doParallel شما بر روی آن اجرا می‌شود.

اگر این بسته‌ها را نصب نکرده‌اید، اطمینان حاصل کنید که دستورات زیر را از کنسول R خود اجرا کنید:
install.packages(c(“foreach”, “doParallel”))

و این همه! شما آماده به کار هستید!

اجازه دهید با تنظیم یک مبنا ادامه دهیم – دیدن عملکرد R در تجمیع داده‌ها در یک مجموعه داده به نوعی بزرگ.
مبنایی – چقدر R تک‌نخی کند است؟

حالا وارد مطالب جذاب می‌شویم! اولین کار این است که ببینیم چگونه R در تجمیع مجموعه داده عمل می‌کند، که این را با استفاده از pplyr به صورت تک‌نخی انجام خواهیم داد.

برای این کار، یک مجموعه د

اده با ۱۰ میلیون ردیف ایجاد می‌کنیم. اگر اینجا همراه ما هستید، این کد را اجرا کنید:
library(dplyr)
library(stringi)
library(cleaner)
library(lubridate)
n <- 10000000
data <- data.frame(
id = 1:n,
dt = rdate(n, min = “2000-01-01”, max = “2024-01-01”),
str = stri_rand_strings(n, 4),
num1 = rnorm(n),
num2 = rnorm(n, mean = 10, sd = 2),
num3 = rnorm(n, mean = 100, sd = 10)
)
head(data)

به این کمی زمان بدهید، اما این خروجی است که باید ببینید:
Image 1 – سرآغاز مجموعه داده ۱۰ میلیون ردیفی سفارشی ما

هسته مرکزی عملکرد امروز ما مقایسه‌ی زمان‌های محاسباتی است، بنابراین ما همچنین یک تابع کمکی به نام time_diff_seconds()
را تعریف می‌کنیم که تفاوت زمانی بین دو زمان را در ثانیه برمی‌گرداند:
time_diff_seconds <- function(t1, t2) {
return(as.numeric(difftime(t1, t2, units = “secs”)))
}

حالا همه چیزی که برای پیدا کردن این که R به صورت پیش‌فرض چقدر کند است لازم است داریم.
R dplyr – اجرای تک‌نخی

بسیاری از توسعه‌دهندگان R از dplyr
استفاده می‌کنند، یک بسته که پردازش داده را آسان می‌کند. این سریع‌ترین روش نیست، بنابراین ما یک راهکار دیگر را در بخش بعدی بررسی خواهیم کرد.

هدف اینجا گروه‌بندی مجموعه داده بر اساس ستون str
و محاسبه میانگین برای همه‌ی ستون‌های عددی است. امری آسان، البته، اما به دلیل مقدار ردیف‌ها (۱۰ میلیون) زمان زیادی می‌گیرد:
dplyr_bench <- function(dataset) {
start_time <- Sys.time()

res <- dataset %>%
group_by(str) %>%
summarize(
mean_num1 = mean(num1),
mean_num2 = mean(num2),
mean_num3 = mean(num3)
)

end_time <- Sys.time()
duration <- time_diff_seconds(end_time, start_time)

print(paste0(“Total time:”, duration))
return(res)
}
dplyr_bench_res <- dplyr_bench(data)

این خروجی‌ای است که بعد از اجرای کد فوق خواهید دید:
Image 2 – زمان کل بنچ‌مارک dplyr

خلاصه‌ی طولانی را کوتاه می‌کنیم. زمانی زیادی می‌گیرد. موازی‌سازی یک گزینه خوب به نظر می‌رسد، اما آیا تنها یک گزینه است؟ بیایید ببینیم اگر ما به سادگی backend
dplyr
را تعویض کنیم چه اتفاقی می‌افتد.
R dtplyr – اجرای dplyr با یک Backend مختلف

بست

ه R dtplyr از backend
data.table استفاده می‌کند که باعث می‌شود نتایج سریع‌تری را جمع‌آوری کند. زمان کلی محاسبه‌ی نهایی بسیار به نوع گروه‌بندی‌ای که انجام می‌دهید بستگی دارد، اما به طور میانگین تقریباً مطمئن هستید که زمان محاسبه کمتری خواهید داشت.

بهترین قسمت – این بسته از دستورالعمل‌های شبیه dplyr استفاده می‌کند، بنابراین تغییرات کدی که باید انجام دهید حداقل است. تنها چیز مهمی که باید به آن یادآور شوید تبدیل داده‌های data.frame به tibble
است، بقیه به نسبت خودکار هستند:
library(dtplyr)
library(data.table)
dtplyr_bench <- function(dataset) {
start_time <- Sys.time()

res <- dataset %>%
lazy_dt() %>%
group_by(str) %>%
summarize(
mean_num1 = mean(num1),
mean_num2 = mean(num2),
mean_num3 = mean(num3)
) %>%
as_tibble()

end_time <- Sys.time()
duration <- time_diff_seconds(end_time, start_time)

print(paste0(“Total time:”, duration))
return(res)
}
dtplyr_dataset <- as_tibble(data)
dtplyr_bench_res <- dtplyr_bench(dtplyr_dataset)

حالا آماده‌اید برای نتایج؟ دستیار خودتان را به دست بگیرید فقط بهتر است:
Image 3 – زمان کل بنچ‌مارک dtplyr

بله، شما درست می‌خوانید. dtplyr برای این محاسبه ساده ۲۰ برابر سریعتر از dplyr است. این تفاوت همیشه این قدر نخواهد بود، اما این موضوع را درک می‌کنید – راه‌هایی وجود دارد که R را بدون موازی‌سازی سریع‌تر کنید.

حالا ما نتایج پایه را داریم، پس بیایید ببینیم آیا R doParallel روی یک جدول داده می‌تواند زمان محاسبه را بیشتر کاهش دهد.
R doParallel در عمل – چگونگی موازی‌سازی انجام‌های جدول داده

حالا به دنیای پردازش موازی R خواهیم رفت، هم با پشتیبانی از backend
dplyr
و هم dtplyr
. اگر مقاله قبلی ما درباره R doParallel را خوانده‌اید، می‌دانید که R به یک خوشه برای انجام کارهایش نیاز دارد. یک شیوه‌ی پیشنهادی این است که هر چه بیشتر هسته‌هایی که می‌توانید به آن بدهید را به آن بدهید. ماشین ما ۱۲ هسته دارد، و ۱۱ هسته را به خوشه اختصاص می‌دهیم.

سپس، مجموعه داده باید به قطعاتی تقسیم شود. شما تعداد قطعاتی خواهید داشت که همان تعداد هسته‌هایی است که به خوشه اختصاص داده‌اید.

سپس، می‌توانید از تابع foreach()
استفاده کنید تا تابع تجمیع داده خود را به قطعات داده، همه روی هسته‌های مجزا اجرا کنید.

بیایید ببینیم این با dplyr و dtplyr چگونه کار می‌کند.
موازی‌سازی جدول داده R با dplyr

تابع dplyr_parallel_bench()
مسئولیت تنظیم خوشه و اجرای تابع agg_function()
را به صورت موازی دارد. همچنین ما زمان اجرا را نگه می‌داریم، تا بتوانیم بررسی کنیم چه مقدار زمان توسط محاسبات گرفته شده و چه مقدار توسط آماده‌سازی خوشه (ایجاد یک خوشه و تقسیم داده

) گرفته شده است:
library(doParallel)

dplyr_parallel_bench <- function(dataset, clusters) {
start_time <- Sys.time()

cl <- makeCluster(clusters)
registerDoParallel(cl)

res <- foreach(i = 1:clusters) %dopar% {
data_chunk <- dataset[((i-1)n/clusters + 1):(in/clusters), ]
agg_function(data_chunk)
}

stopCluster(cl)

res <- do.call(rbind, res)

end_time <- Sys.time()
duration <- time_diff_seconds(end_time, start_time)

print(paste0(“Total time:”, duration))
return(res)
}

حالا به یک نمونه‌ی agg_function()
به نام dplyr_agg_function() نیاز داریم که برای هر قطعه از داده‌ها فراخوانده می‌شود. این عملکرد تقریباً همان است که ما برای dplyr_bench()
استفاده کرده‌ایم، با این تفاوت که به جای بررسی کل داده، ما فقط به قطعه‌ای از داده‌ها می‌نگریم:
dplyr_agg_function <- function(dataset_chunk) { res <- dataset_chunk %>%
group_by(str) %>%
summarize(
mean_num1 = mean(num1),
mean_num2 = mean(num2),
mean_num3 = mean(num3)
)
return(res)
}

حالا ما آماده‌ایم برای اجرای موازی داده‌ها در dplyr:
clusters <- 11 # Number of cores – 1
dplyr_parallel_res <- dplyr_parallel_bench(data, clusters)

این نتیجه‌ای است که بعد از اجرای کد بالا خواهید دید:
Image 4 – زمان کل بنچ‌مارک dplyr موازی‌سازی‌شده

عملکرد موازی‌سازی نه تنها برای این حالت خاص کار کرده است، بلکه همچنین به صورت چشم‌گیری زمان محاسبه را کاهش داده است. اما حالا آن را با dtplyr امتحان کنید.
موازی‌سازی جدول داده R با dtplyr

برای این کار، تابع dtplyr_parallel_bench()
را برای استفاده از backend data.table
باید ایجاد کنید. این کاملاً مشابه قبلی است، با این تفاوت که ما از توابع dtplyr
استفاده می‌کنیم:
dtplyr_parallel_bench <- function(dataset, clusters) {
start_time <- Sys.time()

cl <- makeCluster(clusters)
registerDoParallel(cl)

res <- foreach(i = 1:clusters) %dopar% {
data_chunk <- dataset[((i-1)n/clusters + 1):(in/clusters), ]
dtplyr_agg_function(data_chunk)
}

stopCluster(cl)

res <- do.call(rbind, res)

end_time <- Sys.time()
duration <- time_diff_seconds(end_time, start_time)

print(paste0(“Total time:”, duration))
return(res)
}

به عنوان تابع agg_function
برای استفاده در موازی‌سازی dtplyr، ما یک نمونه از dtplyr_agg_function()
استفاده می‌کنیم که تقریباً همان است که قبلاً برای dplyr_agg_function
استفاده کردیم:
dtplyr_agg_function <- function(dataset_chunk) { res <- dataset_chunk %>%
lazy_dt() %>%
group_by(str) %>%
summarize(
mean_num1 = mean(num1),
mean_num2 = mean(num2),
mean_num3 = mean(num3)
) %>%
as_tibble()
return(res)
}

حالا ما آماده‌ایم برای اجرای موازی داده‌ها در dtplyr:
clusters <- 11 # Number of cores – 1
dtplyr_parallel_res <- dtplyr_parallel_bench(data, clusters)

این نتیجه‌ای است که بعد از اجرای کد بالا خواهید دید:
Image 5 – زمان کل بنچ‌مارک dtplyr موازی‌سازی‌شده

به نظر می‌رسد که موازی‌سازی در dtplyr هم عملکرد بسیار خوبی دارد. از اینجا، شما می‌توانید از هر دو رویکرد dplyr و dtplyr
برای موازی‌سازی جدول داده استفاده کنید، و از مزایایی که هر کدام ارائه می‌دهند بهره‌برداری کنید.

موازی‌سازی جدول داده R – زمان محاسبه با افزایش تعداد هسته‌های پردازنده کاهش می‌یابد؟

در حالت‌های مختلف، زمان محاسبه شده ممکن است با افزایش تعداد هسته‌های پردازنده کاهش یابد. اما در بعضی موارد، افزایش تعداد هسته‌ها ممکن است به یک نقطه اشباع برسد و زمان محاس

به دیگر کاهش پیدا نکند. این به زمینه‌ی مسئله و نوع عملیاتی که انجام می‌دهید بستگی دارد.

برخی از موارد کاربردی که می‌توانند با افزایش تعداد هسته‌ها بهبود پیدا کنند عبارتند از:

پردازش موازی مستقل: در این موارد، تکلیف‌ها یکدیگر را تحت تاثیر قرار نمی‌دهند و انجام یک تکلیف در هر هسته به معنای کاهش زمان است. مثال‌هایی از این دسته شامل پردازش‌های آماری مستقل مثل توابع aggregate یا summary هستند.
مواردی که امکان جداسازی داده‌ها و پردازش مستقل آن‌ها وجود دارد. در این موارد، هر قطعه از داده‌ها می‌تواند بصورت مستقل پردازش شود و در نهایت نتایج جمع‌آوری شوند.

در غیر این صورت، تعداد هسته‌ها ممکن است به زودی به مرز بیشینه‌ی سرعت موازی‌سازی برسد. به عنوان مثال، اگر یک عملیات به یک منبع مشترک دسترسی داشته باشد و درخواست‌ها به یکدیگر وابسته باشند، موازی‌سازی به همراه افزایش تعداد هسته‌ها ممکن است بهبودی در کارایی نداشته باشد.

بنابراین، پیش از اینکه به افزایش تعداد هسته‌ها فکر کنید، نیاز است موارد کاربردی خود را و شرایط محیطی را مورد بررسی دقیق قرار دهید تا اطمینان حاصل شود که افزایش تعداد هسته‌ها واقعاً زمان محاسبه را کاهش می‌دهد.

اجرای قطعه کد فوق ممکن است برای مدتی زمان برداشته، بستگی به پیکربندی سخت‌افزاری شما دارد. در ادامه، نتایجی که دریافت کردیم عرضه می‌شوند:
تصویر 6 – تفاوت زمان اجرا بر اساس تعداد هسته‌های پردازنده

به نظر می‌رسد که استفاده از 11 هسته در مورد ما بهترین نتیجه را داشته است، اما بیایید نتایج را به صورت تصویری بررسی کنیم تا ببینیم آیا الگوهایی مشخص می‌شود: تصویر 7 – تفاوت زمان اجرا بر اساس تعداد هسته‌های پردازنده (نمودار)

به طور خلاصه، استفاده از 11 هسته پردازنده نتایج را سریع‌تر به دست آورد، اما پیاده‌سازی با 4 هسته نیز به طور چشمگیری عقب نماند. مهم است که توجه داشته باشید که کاهش زمان محاسباتی با افزایش تعداد هسته‌ها به صورت خطی نیست و گاهی اوقات حتی معنی‌دار نیست.

آیا می‌خواهید بدانید چگونه این نمودار ستونی جذاب را ایجاد کردیم؟ اینجا یک راهنمایی برای تجسم داده با R و ggplot2 است.

در ادامه، یک خلاصه کوتاه ارائه می‌دهیم.
خلاصه کردن R doParallel برای فریم‌های داده

در R، معمولاً همواره پردازش موازی پاسخی برای اجرای سریع‌تر کد‌های شماست. با این حال، گاهی اوقات این پاسخ صحیح نیست زیرا کد پیچیده‌تری برای نوشتن دارد. حتی اگر شما به این مورد اهمیت ندهید، ممکن است راه‌حل‌های ساده‌تری وجود داشته باشد که نیازی به موازی‌سازی ندارند.

این نکته امروز به شکل کامل مشخص شد. پیاده‌سازی ساده dtplyr در R سریع‌تر از هر چیزی بود که موازی‌سازی ارائه کرد. اما این ممکن است برای شما صدق نکند. همیشه مهم است که تمام حالات را بر روی کد خود تست کنید، زیرا عملیات داده‌ای شما ممکن است در پیچیدگی متفاوت باشد.