]> AND Private Git Repository - book_gpu.git/blobdiff - BookGPU/Chapters/chapter3/ch3.tex
Logo AND Algorithmique Numérique Distribuée

Private GIT Repository
new
[book_gpu.git] / BookGPU / Chapters / chapter3 / ch3.tex
index 1cf40c71ef7eee1c3faa31009dc2beac20f441b1..e9199dc007bd882a9688f240b41291a1827d91c6 100755 (executable)
@@ -4,7 +4,7 @@
 \newcommand{\kr}{\includegraphics[scale=0.6]{Chapters/chapter3/img/kernRight.png}}
 
 
 \newcommand{\kr}{\includegraphics[scale=0.6]{Chapters/chapter3/img/kernRight.png}}
 
 
-\chapter{Setting up the environnement.}
+\chapter{Setting up the environment}
 Image processing using a GPU often means using it as a general purpose computing processor, which soon brings up the issue of data transfers, especially when kernel runtime is fast and/or when large data sets are processed.
 The truth is that, in certain cases, data transfers between GPU and CPU are slower than the actual computation on GPU. 
 It remains that global runtime can still be faster than similar processes run on CPU.
 Image processing using a GPU often means using it as a general purpose computing processor, which soon brings up the issue of data transfers, especially when kernel runtime is fast and/or when large data sets are processed.
 The truth is that, in certain cases, data transfers between GPU and CPU are slower than the actual computation on GPU. 
 It remains that global runtime can still be faster than similar processes run on CPU.
@@ -15,7 +15,7 @@ Obviously, our code originally accepts various image dimensions and can process
 However, so as to propose concise and more readable code, we will assume the following limitations:
 16~bit-coded gray-level input images whose dimensions $H\times W$ are multiples of 512 pixels. 
 
 However, so as to propose concise and more readable code, we will assume the following limitations:
 16~bit-coded gray-level input images whose dimensions $H\times W$ are multiples of 512 pixels. 
 
-\section{Data transfers, memory management.}
+\section{Data transfers, memory management}
 This section deals with the following issues: 
 \begin{enumerate}
 \item Data transfer from CPU memory to GPU global memory: several GPU memory areas are available as destination memory but the 2D caching mechanism of texture memory, \index{memory hierarchy!texture memory} specifically designed for fetching neighboring pixels, is currently the fastest way to fetch gray-level pixel values inside a kernel computation. This has led us to choose \textbf{texture memory} as primary GPU memory area for input images.
 This section deals with the following issues: 
 \begin{enumerate}
 \item Data transfer from CPU memory to GPU global memory: several GPU memory areas are available as destination memory but the 2D caching mechanism of texture memory, \index{memory hierarchy!texture memory} specifically designed for fetching neighboring pixels, is currently the fastest way to fetch gray-level pixel values inside a kernel computation. This has led us to choose \textbf{texture memory} as primary GPU memory area for input images.
@@ -93,7 +93,7 @@ Median filtering is a well-known method used in a wide range of application fram
 First introduced by Tukey in \cite{tukey77}, it has been widely studied since then, and many researchers have proposed efficient implementations of it, adapted to various hypotheses, architectures and processors. 
 Originally, its main drawbacks were its compute complexity, its nonlinearity and its data-dependent runtime. Several researchers have addressed these issues and designed, for example, efficient histogram-based median filters with predictible runtimes \cite{Huang:1981:TDS:539567, Weiss:2006:FMB:1179352.1141918}.  
 
 First introduced by Tukey in \cite{tukey77}, it has been widely studied since then, and many researchers have proposed efficient implementations of it, adapted to various hypotheses, architectures and processors. 
 Originally, its main drawbacks were its compute complexity, its nonlinearity and its data-dependent runtime. Several researchers have addressed these issues and designed, for example, efficient histogram-based median filters with predictible runtimes \cite{Huang:1981:TDS:539567, Weiss:2006:FMB:1179352.1141918}.  
 
-More recently, the advent of GPUs opened new perspectives in terms of image processing performance, and some researchers managed to take advantage of the new graphics capabilities: in that respect, we can cite the Branchless Vectorized Median (BVM) filter \cite{5402362, chen09} which allows very interesting runtimes on CUDA-enabled devices but, as far as we know, the fastest implementation to date is the histogram-based PCMF median filter \cite{Sanchez-2-2012}.
+More recently, the advent of GPUs opened new perspectives in terms of image processing performance, and some researchers managed to take advantage of the new graphics capabilities: in that respect, we can cite the Branchless Vectorized Median (BVM) filter \cite{5402362, chen09} which allows very interesting runtimes on CUDA-enabled devices but, as far as we know, the fastest implementation to date is the histogram-based Parallel Ccdf-based Median Filter (PCMF) \cite{Sanchez-2-2012} where Ccdf means Complementary Cumulative Distribution Function.
 
 Some of the following implementations feature very fast runtimes. They are targeted on NVIDIA Tesla GPU (Fermi architecture, compute capability 2.x) but may easily be adapted to other models, e.g., those of compute capability 1.3.
 
 
 Some of the following implementations feature very fast runtimes. They are targeted on NVIDIA Tesla GPU (Fermi architecture, compute capability 2.x) but may easily be adapted to other models, e.g., those of compute capability 1.3.
 
@@ -105,7 +105,7 @@ Designing a 2D median filter basically consists of defining a square window $H(i
 \begin{figure}[b]
    \centering
    \includegraphics[width=8cm]{Chapters/chapter3/img/median_1.png}
 \begin{figure}[b]
    \centering
    \includegraphics[width=8cm]{Chapters/chapter3/img/median_1.png}
-   \caption{Example of 5x5 median filtering}
+   \caption{Example of 5x5 median filtering.}
    \label{fig:median_1}
 \end{figure}
 Figure \ref{fig:sap_examples} shows an example of a $512\times 512$ pixel image, corrupted by a  \textit{salt and pepper} noise and the denoised versions, output respectively by a $3\times 3$, a $5\times 5$, and 2 iterations of a $3\times 3$ median filter.
    \label{fig:median_1}
 \end{figure}
 Figure \ref{fig:sap_examples} shows an example of a $512\times 512$ pixel image, corrupted by a  \textit{salt and pepper} noise and the denoised versions, output respectively by a $3\times 3$, a $5\times 5$, and 2 iterations of a $3\times 3$ median filter.
@@ -139,7 +139,7 @@ On the GPU's side, we note high dependence on window size due to the redundancy
 \begin{figure}[h]
    \centering
    \includegraphics[width=5cm]{Chapters/chapter3/img/median_overlap.png}
 \begin{figure}[h]
    \centering
    \includegraphics[width=5cm]{Chapters/chapter3/img/median_overlap.png}
-   \caption{Illustration of window overlapping in 5x5 median filtering}
+   \caption{Illustration of window overlapping in 5x5 median filtering.}
    \label{fig:median_overlap}
 \end{figure}
 
    \label{fig:median_overlap}
 \end{figure}
 
@@ -256,7 +256,7 @@ Listing \ref{lst:medianForget1pix3} details this process where forgetful selecti
 \begin{figure}[b]
    \centering
    \includegraphics[width=6cm]{Chapters/chapter3/img/forgetful_selection.png}
 \begin{figure}[b]
    \centering
    \includegraphics[width=6cm]{Chapters/chapter3/img/forgetful_selection.png}
-   \caption{Forgetful selection with the minimal element register count. Illustration for $3\times 3$ pixel window represented in a row and supposed sorted.}
+   \caption{Forgetful selection with the minimal element register count. Illustration for $3\times 3$ pixel window represented in a row and supposedly sorted.}
    \label{fig:forgetful_selection}
 \end{figure}
 \begin{figure}
    \label{fig:forgetful_selection}
 \end{figure}
 \begin{figure}