]> AND Private Git Repository - kahina_paper2.git/blobdiff - paper.tex
Logo AND Algorithmique Numérique Distribuée

Private GIT Repository
Figures
[kahina_paper2.git] / paper.tex
index f70400bec467ce9679ca80c63d312930f8942281..a2e5a923e054712ba059013b5faf4f85aff60841 100644 (file)
--- a/paper.tex
+++ b/paper.tex
@@ -571,7 +571,7 @@ Algorithm~\ref{alg2-cuda} shows a sketch of the Ehrlich-Aberth method using CUDA
  
 \section{The EA algorithm on Multi-GPU}
 
  
 \section{The EA algorithm on Multi-GPU}
 
-\subsection{MGPU (OpenMP-CUDA)approach}
+\subsection{MGPU (OpenMP-CUDA) approach}
 Our OpenMP-CUDA implementation of EA algorithm is based on the hybrid OpenMP and CUDA programming model. It works
 as follows.
 Based on the metadata, a shared memory is used to make data evenly shared among OpenMP threads. The shared data are the solution vector $Z$, the polynomial to solve $P$. vector of error of stop condition $\Delta z$. Let(T\_omp) number of OpenMP threads is equal to the number of GPUs, each threads OpenMP checks one GPU,  and control a part of the shared memory, that is a part of the vector Z  like: $(n/num\_gpu)$ roots, n: the polynomial's degrees, $num\_gpu$ the number of GPUs. Each OpenMP thread copies its data from host memory to GPU’s device memory.Than every GPU will have a grid of computation organized with its performances and the size of data of which it checks and compute kernels. %In principle a grid is set by two parameter DimGrid, the number of block per grid, DimBloc: the number of threads per block. The following schema  shows the architecture of (CUDA,OpenMP).
 Our OpenMP-CUDA implementation of EA algorithm is based on the hybrid OpenMP and CUDA programming model. It works
 as follows.
 Based on the metadata, a shared memory is used to make data evenly shared among OpenMP threads. The shared data are the solution vector $Z$, the polynomial to solve $P$. vector of error of stop condition $\Delta z$. Let(T\_omp) number of OpenMP threads is equal to the number of GPUs, each threads OpenMP checks one GPU,  and control a part of the shared memory, that is a part of the vector Z  like: $(n/num\_gpu)$ roots, n: the polynomial's degrees, $num\_gpu$ the number of GPUs. Each OpenMP thread copies its data from host memory to GPU’s device memory.Than every GPU will have a grid of computation organized with its performances and the size of data of which it checks and compute kernels. %In principle a grid is set by two parameter DimGrid, the number of block per grid, DimBloc: the number of threads per block. The following schema  shows the architecture of (CUDA,OpenMP).
@@ -584,7 +584,7 @@ Based on the metadata, a shared memory is used to make data evenly shared among
 %\end{figure}
 %Each thread OpenMP compute the kernels on GPUs,than after each iteration they copy out the data from GPU memory to CPU shared memory. The kernels are re-runs is up to the roots converge sufficiently. Here are below the corresponding algorithm:
 
 %\end{figure}
 %Each thread OpenMP compute the kernels on GPUs,than after each iteration they copy out the data from GPU memory to CPU shared memory. The kernels are re-runs is up to the roots converge sufficiently. Here are below the corresponding algorithm:
 
-$num_gpus$ thread OpenMP are created using \verb=omp_set_num_threads();=function (line,Algorithm \ref{alg2-cuda-openmp}), the shared memory is created using \verb=#pragma omp parallel shared()= OpenMP function (line 5,Algorithm\ref{alg2-cuda-openmp}), than each OpenMP threads allocate and copy initial data from CPU memory to the GPU global memories, execute the kernels on GPU, Than each threads OpenMP compute only his portion of roots indicated with variable \textit{index} initialized in (line 5, Algorithm \ref{alg2-cuda-openmp}), used as input data in the $kernel\_update$ (line 10, Algorithm \ref{alg2-cuda-openmp}). After each iteration, OpenMP threads synchronize using \verb=#pragma omp barrier;= to recuperate all values of vector $\Delta z$, than compute the maximum stop condition in vector $\Delta z$(line 12, Algorithm \ref{alg2-cuda-openmp}), copy the result from GPU memories to CPU memory. The OpenMP threads execute kernels until the roots converge sufficiently.  
+$num\_gpus$ thread OpenMP are created using \verb=omp_set_num_threads();=function (line,Algorithm \ref{alg2-cuda-openmp}), the shared memory is created using \verb=#pragma omp parallel shared()= OpenMP function (line 5,Algorithm\ref{alg2-cuda-openmp}), than each OpenMP threads allocate and copy initial data from CPU memory to the GPU global memories, execute the kernels on GPU, and compute only his portion of roots indicated with variable \textit{index} initialized in (line 5, Algorithm \ref{alg2-cuda-openmp}), used as input data in the $kernel\_update$ (line 10, Algorithm \ref{alg2-cuda-openmp}). After each iteration, OpenMP threads synchronize using \verb=#pragma omp barrier;= to recuperate all values of vector $\Delta z$, to compute the maximum stop condition in vector $\Delta z$(line 12, Algorithm \ref{alg2-cuda-openmp}).Finally,they copy the results from GPU memories to CPU memory. The OpenMP threads execute kernels until the roots converge sufficiently.  
 \begin{enumerate}
 \begin{algorithm}[htpb]
 \label{alg2-cuda-openmp}
 \begin{enumerate}
 \begin{algorithm}[htpb]
 \label{alg2-cuda-openmp}
@@ -624,7 +624,7 @@ $num_gpus$ thread OpenMP are created using \verb=omp_set_num_threads();=function
 
 
 
 
 
 
-\subsection{Multi-GPU (MPI-CUDA)approach}
+\subsection{Multi-GPU (MPI-CUDA) approach}
 %\begin{figure}[htbp]
 %\centering
  % \includegraphics[angle=-90,width=0.2\textwidth]{MPI-CUDA}
 %\begin{figure}[htbp]
 %\centering
  % \includegraphics[angle=-90,width=0.2\textwidth]{MPI-CUDA}
@@ -697,7 +697,7 @@ The initialization values of the vector solution
 of the methods are given in %Section~\ref{sec:vec_initialization}.
 \begin{figure}[htbp]
 \centering
 of the methods are given in %Section~\ref{sec:vec_initialization}.
 \begin{figure}[htbp]
 \centering
-  \includegraphics[angle=-90,width=0.5\textwidth]{Sparse_openmp}
+  \includegraphics[angle=-90,width=0.5\textwidth]{Sparse_omp}
 \caption{Execution times in seconds of the Ehrlich-Aberth method for solving sparse polynomials on GPUs using shared memory paradigm with OpenMP}
 \label{fig:01}
 \end{figure}
 \caption{Execution times in seconds of the Ehrlich-Aberth method for solving sparse polynomials on GPUs using shared memory paradigm with OpenMP}
 \label{fig:01}
 \end{figure}
@@ -711,7 +711,7 @@ of the methods are given in %Section~\ref{sec:vec_initialization}.
 
 \begin{figure}[htbp]
 \centering
 
 \begin{figure}[htbp]
 \centering
-  \includegraphics[angle=-90,width=0.5\textwidth]{Full_openmp}
+  \includegraphics[angle=-90,width=0.5\textwidth]{Full_omp}
 \caption{Execution times in seconds of the Ehrlich-Aberth method for solving full polynomials on GPUs using shared memory paradigm with OpenMP}
 \label{fig:03}
 \end{figure}
 \caption{Execution times in seconds of the Ehrlich-Aberth method for solving full polynomials on GPUs using shared memory paradigm with OpenMP}
 \label{fig:03}
 \end{figure}
@@ -725,28 +725,28 @@ of the methods are given in %Section~\ref{sec:vec_initialization}.
 
 \begin{figure}[htbp]
 \centering
 
 \begin{figure}[htbp]
 \centering
-  \includegraphics[angle=-90,width=0.5\textwidth]{Sparse_mpivsomp}
+  \includegraphics[angle=-90,width=0.5\textwidth]{Sparse}
 \caption{Comparaison between MPI and OpenMP versions of the Ehrlich-Aberth method for solving sparse plynomials on GPUs}
 \label{fig:05}
 \end{figure}
 
 \begin{figure}[htbp]
 \centering
 \caption{Comparaison between MPI and OpenMP versions of the Ehrlich-Aberth method for solving sparse plynomials on GPUs}
 \label{fig:05}
 \end{figure}
 
 \begin{figure}[htbp]
 \centering
-  \includegraphics[angle=-90,width=0.5\textwidth]{Full_mpivsomp}
+  \includegraphics[angle=-90,width=0.5\textwidth]{Full}
 \caption{Comparaison between MPI and OpenMP versions of the Ehrlich-Aberth method for solving full polynomials on GPUs}
 \label{fig:06}
 \end{figure}
 
 \begin{figure}[htbp]
 \centering
 \caption{Comparaison between MPI and OpenMP versions of the Ehrlich-Aberth method for solving full polynomials on GPUs}
 \label{fig:06}
 \end{figure}
 
 \begin{figure}[htbp]
 \centering
-  \includegraphics[angle=-90,width=0.5\textwidth]{MPI_mpivsomp}
+  \includegraphics[angle=-90,width=0.5\textwidth]{MPI}
 \caption{Comparaison of execution times of the Ehrlich-Aberth method for solving sparse and full polynomials on GPUs with distributed memory paradigm using MPI}
 \label{fig:07}
 \end{figure}
 
 \begin{figure}[htbp]
 \centering
 \caption{Comparaison of execution times of the Ehrlich-Aberth method for solving sparse and full polynomials on GPUs with distributed memory paradigm using MPI}
 \label{fig:07}
 \end{figure}
 
 \begin{figure}[htbp]
 \centering
-  \includegraphics[angle=-90,width=0.5\textwidth]{OMP_mpivsomp}
+  \includegraphics[angle=-90,width=0.5\textwidth]{OMP}
 \caption{Comparaison of execution times of the Ehrlich-Aberth method for solving sparse and full polynomials on GPUs with shared memory paradigm using OpenMP}
 \label{fig:08}
 \end{figure}
 \caption{Comparaison of execution times of the Ehrlich-Aberth method for solving sparse and full polynomials on GPUs with shared memory paradigm using OpenMP}
 \label{fig:08}
 \end{figure}