Logo AND Algorithmique Numérique Distribuée

Public GIT Repository
correction ortho nabil
[gpc2011.git] / xwch.tex
1 %------------------------------------
2 % The XtremWeb-CH environment
3 %------------------------------------
4
5 High performance computing environments like MPI (Message Passing
6 Interface) \cite{Gro94} are widely used and have proved their efficiency. This
7 class of systems are very tightly coupled and powerful but not very error
8 tolerant. Cluster computing environments like Condor
9 \cite{condor-practice} and volunteer computing systems like BOINC \cite{boinc} are loosely coupled and
10 have a scheduler that distributes tasks to computing nodes. Cluster
11 computing environments assume the fact that nodes are in general
12 directly accessible, one to another, but this does not apply to
13 volunteer computing systems.
14
15 XtremWeb-CH (XWCH) is a volunteer computing inspired large-scale
16 computing platform for distributed applications. In fact, it tends to
17 be a good compromise between cluster computing and volunteer
18 computing.  It is originaly based on another platform called XtremWeb
19  \cite{xtremweb}. It is easy to install, maintain, and it is supported by a Grid
20 middleware (ARC \cite{arc}) and a workflow engine (JOpera \cite{JOpera}). It consists in
21 three components: one coordinator, a set of workers, and at least one
22 warehouse. Client programs use these components.
23
24 The coordinator is the main component of the XWCH platform. It
25 controls user access and schedules jobs to workers. It provides a web
26 interface for managing jobs and users, and a set of web
27 services. These are user services and worker/warehouse services
28 implemented using WSDL (Web Service Description Language)
29 \cite{WebServ2002}, that simplifies client development for languages
30 that support it (and most popular programming languages do).
31
32 A worker is a Java daemon that runs on the user machine. Assumed to be
33 volatile, the workers periodically report themselves to the
34 coordinator, accept jobs, retrieve input, compute jobs, and store the
35 results of the computation on warehouses. If the coordinator does not
36 receive a signal from a worker, it will simply remove it from the
37 scheduling list, and if a job had been assigned to that worker, it
38 will be re-assigned to another one. A schema of the architecture is
39 shown in Figure \ref{xwch}.
40
41 \begin{figure}[htp]
42 \label{xwch}
43  \begin{centering}
44     \includegraphics [scale=0.2]{figures/xwcharchitecture.pdf}
45     \caption{The XtremWeb-CH architecture}
46  \end{centering}
47 \end{figure}
48
49 A warehouse is a file server that acts as a data storage system for
50 workers and client programs. Workers may not necessarily be able to
51 communicate directly with each others, due to firewalls and NAT
52 sub-networks. For these reasons, warehouses are used as intermediaries
53 to exchange, store and retrieve data.
54
55 Job submission is done by a client program which is written using a
56 flexible API, available for Java and C/C++ programs. The client
57 program runs on a “client node” and calls the user services to submit
58 jobs (Figure \ref{xwch}, (1)). The main flexibility provided by the use of this
59 architecture is to control and dynamically  generate  jobs especially
60 when their number cannot be known in advance. Communications between
61 the coordinator and the workers are always initiated by the workers
62 following a pull model (Figure \ref{xwch}, (2)):
63 \begin{itemize}
64 \item Workers receive jobs (Figure \ref{xwch}, (3)) only if they send a “work
65   request” signal;
66 \item When a worker finishes its job, it stores its output file on
67   a warehouse and sends a “work result” signal to the coordinator;
68 \item During its execution, a worker (respectively warehouse)
69   periodically sends “work alive” to the worker service (respectively
70   warehouse service) to report itself to the coordinator.
71 \end{itemize}
72
73 As a whole, XWCH is easy to install, maintain and use. Its components
74 are programmed mainly using Java, and their process memory sizes in a
75 typical 32-bit GNU/Linux computer are:
76 \begin{itemize}
77  \item Coordinator 190 MB including the Glassfish Java container;
78  \item Worker 40 MB;
79  \item Warehouse 80 MB.
80 \end{itemize}
81  
82 Experiments presented in \cite{ccgridpaper} show that the
83 performance of XWCH is comparable with Condor \cite{Condor1988},
84 another non-intrusive computing system that has similar functionalities
85 but is somewhat more difficult to install.
86
87 The main characteristics of the new version of XWCH, compared to
88 previous ones, are: dynamic job generation, flexible data sharing
89 (data replication) and persistent jobs. These features are presented
90 in \cite{VEZGrid} and will not be detailed in this paper.