From a62ed3b44f31a19f03c769cdf8ac72993cc16b47 Mon Sep 17 00:00:00 2001 From: Arity-T Date: Tue, 1 Apr 2025 16:56:22 +0300 Subject: [PATCH] =?UTF-8?q?=D0=9A=D0=B0=D1=80=D1=82=D0=B8=D0=BD=D0=BA?= =?UTF-8?q?=D0=B0=D0=BD=D0=B5=20=D0=B2=20=D0=BA=D0=BE=D0=BD=D1=86=D0=B5=20?= =?UTF-8?q?=D1=80=D0=B0=D0=B7=D0=B4=D0=B5=D0=BB=D0=B0?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- report/report.tex | 8 ++++---- 1 file changed, 4 insertions(+), 4 deletions(-) diff --git a/report/report.tex b/report/report.tex index 314980d..fa34a83 100644 --- a/report/report.tex +++ b/report/report.tex @@ -744,10 +744,6 @@ $$ \end{itemize} \end{itemize} -Использование разделяемой памяти в большинстве случаев позволяет значительно ускорить выполнение алгоритма по сравнению с использованием только глобальной памяти (в среднем на 60\%). Особенно заметно это на больших размерах матриц, где доступ к глобальной памяти становится узким местом. - -Алгоритму с разделяемой памятью важно, чтобы в каждом блоке было как можно больше потоков. Это связано с тем, что чем больше потоков в блоке, тем больше ячеек матрицы можно обработать одновременно, используя быструю разделяемую память вместо глобальной. При небольшом количестве потоков в блоке преимуществ разделяемой памяти становится меньше, так как потоки вынуждены чаще обращаться к глобальной памяти, что снижает общую производительность. - На Рис.~\ref{fig:plot} отображена зависимость времения от разного числа потоков в определенной выборке блоков. \begin{figure}[h!] @@ -757,6 +753,10 @@ $$ \label{fig:plot} \end{figure} +Использование разделяемой памяти в большинстве случаев позволяет значительно ускорить выполнение алгоритма по сравнению с использованием только глобальной памяти (в среднем на 60\%). Особенно заметно это на больших размерах матриц, где доступ к глобальной памяти становится узким местом. + +Алгоритму с разделяемой памятью важно, чтобы в каждом блоке было как можно больше потоков. Это связано с тем, что чем больше потоков в блоке, тем больше ячеек матрицы можно обработать одновременно, используя быструю разделяемую память вместо глобальной. При небольшом количестве потоков в блоке преимуществ разделяемой памяти становится меньше, так как потоки вынуждены чаще обращаться к глобальной памяти, что снижает общую производительность. + \newpage \phantom{text}