Logo AND Algorithmique Numérique Distribuée

Public GIT Repository
Add a first draft for automatic privatization of global variables for smpi.
authorAugustin Degomme <degomme@idpann.imag.fr>
Fri, 21 Mar 2014 15:38:45 +0000 (16:38 +0100)
committerAugustin Degomme <degomme@idpann.imag.fr>
Fri, 21 Mar 2014 15:40:50 +0000 (16:40 +0100)
Activated with --cfg="smpi/privatize_global_variables":yes
This will read executable (using objdump for now), find addresses of .data and .bss segments and for each process (even 0 for now) copy all this data inside an mmaped zone
Each time the simulated process executes some code, or each time we copy data from these zones, the data segment is mmaped from the one of the corresponding process.

src/simgrid/sg_config.c
src/smpi/private.h
src/smpi/smpi_base.c
src/smpi/smpi_bench.c
src/smpi/smpi_global.c
src/smpi/smpi_mpi_dt.c

index 7d4da0ba030f0d4d5817889a73b56403a468e1b5..ad4794faa9b768c449530946beda33d63ebc7a9c 100644 (file)
@@ -771,6 +771,11 @@ void sg_config_init(int *argc, char **argv)
                      xbt_cfgelm_int, 1, 1, NULL, NULL);
     xbt_cfg_setdefault_int(_sg_cfg_set, "smpi/send_is_detached_thres", 65536);
 
+    xbt_cfg_register(&_sg_cfg_set, "smpi/privatize_global_variables",
+                     "Boolean indicating whether we should privatize global variable at runtime.",
+                     xbt_cfgelm_boolean, 1, 1, NULL, NULL);
+    xbt_cfg_setdefault_boolean(_sg_cfg_set, "smpi/privatize_global_variables", "no");
+
     //For smpi/bw_factor and smpi/lat_factor
     //Default value have to be "threshold0:value0;threshold1:value1;...;thresholdN:valueN"
     //test is if( size >= thresholdN ) return valueN;
index a0af7500a27767a4500b78cf8fcbd816de240d68..e692c3898efb1deeac1cfe7f372c68dd82e568ff 100644 (file)
@@ -301,10 +301,20 @@ int smpi_coll_basic_alltoallv(void *sendbuf, int *sendcounts,
 // utilities
 extern double smpi_cpu_threshold;
 extern double smpi_running_power;
+extern int smpi_privatize_global_variables;
+extern char* start_data_exe; //start of the data+bss segment of the executable
+extern int size_data_exe; //size of the data+bss segment of the executable
+
+
+void switch_data_segment(int);
+void smpi_get_executable_global_size(void);
+void smpi_initialize_global_memory_segments(void);
+void smpi_destroy_global_memory_segments(void);
 void smpi_bench_destroy(void);
 void smpi_bench_begin(void);
 void smpi_bench_end(void);
 
+
 // f77 wrappers
 void mpi_init_(int*);
 void mpi_finalize_(int*);
index 5362b82ff6a23f869e66a52eccafc747a6e52c48..6295038a3c4c519b380e536c3a4522d32644d40b 100644 (file)
@@ -376,6 +376,15 @@ void smpi_mpi_start(MPI_Request request)
       if(request->old_type->has_subtype == 0){
         oldbuf = request->buf;
         if (!_xbt_replay_is_active() && oldbuf && request->size!=0){
+          if((smpi_privatize_global_variables)
+           && ((char*)request->buf >= start_data_exe)
+           && ((char*)request->buf < start_data_exe + size_data_exe )
+       ){
+                 XBT_WARN("Privatization : We are sending from a zone inside global memory. Switch data segment ");
+                 switch_data_segment(smpi_process_index());
+       }
+
+
           buf = xbt_malloc(request->size);
           memcpy(buf,oldbuf,request->size);
         }
@@ -587,6 +596,15 @@ static void finish_wait(MPI_Request * request, MPI_Status * status)
     MPI_Datatype datatype = req->old_type;
 
     if(datatype->has_subtype == 1){
+      if (!_xbt_replay_is_active()){
+        if( smpi_privatize_global_variables
+            && ((char*)req->old_buf >= start_data_exe)
+            && ((char*)req->old_buf < start_data_exe + size_data_exe )
+        ){
+            XBT_VERB("Privatization : We are unserializing to a zone in global memory - Switch data segment ");
+            switch_data_segment(smpi_process_index());
+        }
+      }
       // This part handles the problem of non-contignous memory
       // the unserialization at the reception
       s_smpi_subtype_t *subtype = datatype->substruct;
index 9387099b8c6b32205b641649e2accfa9f2736e00..b62666558f9401a754675a3b622982a7265259e0 100644 (file)
@@ -69,6 +69,13 @@ __thread int smpi_current_rank = 0;      /* Updated after each MPI call */
 double smpi_cpu_threshold;
 double smpi_running_power;
 
+int* fds;
+void** mappings;
+int loaded_page = -1;
+char* start_data_exe = NULL;
+int size_data_exe = 0;
+int smpi_privatize_global_variables;
+
 typedef struct {
   int fd;
   int count;
@@ -174,8 +181,11 @@ void smpi_execute(double duration)
   }
 }
 
+void switch_data_segment(int dest);
+
 void smpi_bench_begin(void)
 {
+  switch_data_segment(smpi_process_index());
   xbt_os_threadtimer_start(smpi_process_timer());
   smpi_current_rank = smpi_process_index();
 }
@@ -184,6 +194,7 @@ void smpi_bench_end(void)
 {
   xbt_os_timer_t timer = smpi_process_timer();
   xbt_os_threadtimer_stop(timer);
+//  switch_data_segment(smpi_process_count());
   if (smpi_process_get_sampling()) {
     XBT_CRITICAL("Cannot do recursive benchmarks.");
     XBT_CRITICAL("Are you trying to make a call to MPI within a SMPI_SAMPLE_ block?");
@@ -554,3 +565,180 @@ void* smpi_shared_set_call(const char* func, const char* input, void* data) {
    free(loc);
    return data;
 }
+
+
+
+
+#ifndef WIN32
+#define TOPAGE(addr) (void *)(((unsigned long)(addr) / xbt_pagesize) * xbt_pagesize)
+
+
+/*
+ * - read the executable data+bss section addresses and sizes
+ * - for each process create a copy of these sections with mmap
+ * - store them in a dynar
+ *
+ */
+
+
+
+void switch_data_segment(int dest){
+
+  if(size_data_exe == 0)//no need to switch
+    return;
+
+  if (loaded_page==dest)//no need to switch either
+    return;
+
+  int current= fds[dest];
+  XBT_VERB("Switching data frame to the one of process %d", dest);
+  void* tmp = mmap (TOPAGE(start_data_exe), size_data_exe, PROT_READ | PROT_WRITE, MAP_FIXED | MAP_SHARED, current, 0);
+  msync(TOPAGE(start_data_exe), size_data_exe, MS_SYNC | MS_INVALIDATE );
+  if (tmp != TOPAGE(start_data_exe))
+    xbt_die("Couldn't map the new region");
+  loaded_page=dest;
+}
+
+void smpi_get_executable_global_size(){
+  int size_bss_binary=0;
+  int size_data_binary=0;
+  FILE *fp;
+  char *line = NULL;            /* Temporal storage for each line that is readed */
+  ssize_t read;                 /* Number of bytes readed */
+  size_t n = 0;                 /* Amount of bytes to read by xbt_getline */
+
+  char *lfields[7];
+  int i, found = 0;
+
+  char *command = bprintf("objdump --section-headers %s", xbt_binary_name);
+
+  fp = popen(command, "r");
+
+  if(fp == NULL){
+    perror("popen failed");
+    xbt_abort();
+  }
+
+  while ((read = xbt_getline(&line, &n, fp)) != -1 && found != 2) {
+
+    if(n == 0)
+      continue;
+
+    /* Wipeout the new line character */
+    line[read - 1] = '\0';
+
+    lfields[0] = strtok(line, " ");
+
+    if(lfields[0] == NULL)
+      continue;
+
+    if(strcmp(lfields[0], "Sections:") == 0
+        || strcmp(lfields[0], "Idx") == 0
+        || strncmp(lfields[0], xbt_binary_name, strlen(xbt_binary_name)) == 0)
+      continue;
+
+    for (i = 1; i < 7 && lfields[i - 1] != NULL; i++) {
+      lfields[i] = strtok(NULL, " ");
+    }
+
+    /*
+     * we are looking for these fields
+    23 .data         02625a20  00000000006013e0  00000000006013e0  000013e0  2**5
+                     CONTENTS, ALLOC, LOAD, DATA
+    24 .bss          02625a40  0000000002c26e00  0000000002c26e00  02626e00  2**5
+                     ALLOC
+    */
+
+    if(i>=6){
+      if(strcmp(lfields[1], ".data") == 0){
+        size_data_binary = strtoul(lfields[2], NULL, 16);
+        start_data_exe = (char*) strtoul(lfields[4], NULL, 16);
+        found++;
+      }else if(strcmp(lfields[1], ".bss") == 0){
+        //the beginning of bss is not exactly the end of data if not aligned, grow bss reported size accordingly
+        //TODO : check if this is OK, as some segments may be inserted between them.. 
+        size_bss_binary = ((char*) strtoul(lfields[4], NULL, 16) - (start_data_exe + size_data_binary))
+                          + strtoul(lfields[2], NULL, 16);
+        found++;
+       }
+
+    }
+
+  }
+
+  size_data_exe =(unsigned long)start_data_exe - (unsigned long)TOPAGE(start_data_exe)+ size_data_binary+size_bss_binary;
+  xbt_free(command);
+  xbt_free(line);
+  pclose(fp);
+
+}
+
+void smpi_initialize_global_memory_segments(){
+
+  unsigned int i = 0;
+  smpi_get_executable_global_size();
+
+  XBT_VERB ("We have a size of bss+data of %d starting at %p",size_data_exe, start_data_exe );
+
+
+  if(size_data_exe == 0)//no need to switch
+    return;
+
+  fds= (int*)xbt_malloc((smpi_process_count())*sizeof(int));
+  mappings= (void**)xbt_malloc((smpi_process_count())*sizeof(void*));
+
+
+  for (i=0; i< SIMIX_process_count(); i++){
+      //create SIMIX_process_count() mappings of this size with the same data inside
+      void *address = NULL, *tmp = NULL;
+      char path[] = "/dev/shm/my-buffer-XXXXXX";
+      int status;
+      int file_descriptor= mkstemp (path);
+      if (file_descriptor < 0)
+        xbt_die("Impossible to create temporary file for memory mapping");
+      status = unlink (path);
+      if (status)
+        xbt_die("Impossible to unlink temporary file for memory mapping");
+
+      status = ftruncate(file_descriptor, size_data_exe);
+      if(status)
+        xbt_die("Impossible to set the size of the temporary file for memory mapping");
+
+      /* Ask for a free region */
+      address = mmap (NULL, size_data_exe, PROT_NONE, MAP_ANONYMOUS | MAP_PRIVATE, -1, 0);
+
+      if (address == MAP_FAILED)
+        xbt_die("Couldn't find a free region for memory mapping");
+
+      tmp = mmap (address, size_data_exe, PROT_READ | PROT_WRITE, MAP_FIXED | MAP_SHARED, file_descriptor, 0);
+
+      if (tmp != address)
+        xbt_die("Couldn't obtain the right address");
+      //initialize the values
+      memcpy(address,TOPAGE(start_data_exe),size_data_exe);
+
+      //store the address of the mapping for further switches
+      fds[i]=file_descriptor;
+      mappings[i]= address;
+  }
+
+}
+
+void smpi_destroy_global_memory_segments(){
+  int i;
+  if(size_data_exe == 0)//no need to switch
+    return;
+
+  for (i=0; i< smpi_process_count(); i++){
+    if(munmap(mappings[i],size_data_exe) < 0) {
+      XBT_WARN("Unmapping of fd %d failed: %s", fds[i], strerror(errno));
+    }
+    close(fds[i]);
+  }
+  xbt_free(mappings);
+  xbt_free(fds);
+
+}
+
+
+#endif
index 37f8dd0cccaf7afd3f7cf00c98183ab66cf750cc..60e550f84da8d40f2d7cd6242d29e1bf16dd862e 100644 (file)
@@ -328,7 +328,29 @@ static void smpi_comm_copy_buffer_callback(smx_action_t comm,
 {
   XBT_DEBUG("Copy the data over");
   if(_xbt_replay_is_active()) return;
-  memcpy(comm->comm.dst_buff, buff, buff_size);
+  void* tmpbuff=buff;
+
+  if((smpi_privatize_global_variables)
+      && ((char*)buff >= start_data_exe)
+      && ((char*)buff < start_data_exe + size_data_exe )
+    ){
+       XBT_WARN("Privatization : We are copying from a zone inside global memory... Saving data to temp buffer !");
+       switch_data_segment(((smpi_process_data_t)SIMIX_process_get_data(comm->comm.src_proc))->index);
+       tmpbuff = (void*)xbt_malloc(buff_size);
+       memcpy(tmpbuff, buff, buff_size);
+  }
+
+
+  if((smpi_privatize_global_variables)
+      && ((char*)comm->comm.dst_buff >= start_data_exe)
+      && ((char*)comm->comm.dst_buff < start_data_exe + size_data_exe )
+    ){
+       XBT_WARN("Privatization : We are copying to a zone inside global memory - Switch data segment");
+       switch_data_segment(((smpi_process_data_t)SIMIX_process_get_data(comm->comm.dst_proc))->index);
+  }
+
+
+  memcpy(comm->comm.dst_buff, tmpbuff, buff_size);
   if (comm->comm.detached) {
     // if this is a detached send, the source buffer was duplicated by SMPI
     // sender to make the original buffer available to the application ASAP
@@ -339,6 +361,9 @@ static void smpi_comm_copy_buffer_callback(smx_action_t comm,
     //inside the user data and should be free 
     comm->comm.src_buff = NULL;
   }
+
+  if(tmpbuff!=buff)xbt_free(tmpbuff);
+
 }
 
 void smpi_global_init(void)
@@ -383,6 +408,8 @@ void smpi_global_init(void)
              "Use the option \"--cfg=smpi/running_power:<flops>\" to set its value."
              "Check http://simgrid.org/simgrid/latest/doc/options.html#options_smpi_bench for more information. ");
   }
+  if(smpi_privatize_global_variables)
+    smpi_initialize_global_memory_segments();
 }
 
 void smpi_global_destroy(void)
@@ -406,7 +433,8 @@ void smpi_global_destroy(void)
   }
   xbt_free(process_data);
   process_data = NULL;
-
+  if(smpi_privatize_global_variables)
+    smpi_destroy_global_memory_segments();
   smpi_free_static();
 }
 
@@ -565,6 +593,7 @@ int smpi_main(int (*realmain) (int argc, char *argv[]), int argc, char *argv[])
 
   smpi_cpu_threshold = sg_cfg_get_double("smpi/cpu_threshold");
   smpi_running_power = sg_cfg_get_double("smpi/running_power");
+  smpi_privatize_global_variables = sg_cfg_get_boolean("smpi/privatize_global_variables");
   if (smpi_cpu_threshold < 0)
     smpi_cpu_threshold = DBL_MAX;
 
index 8be813429140e844d3f232b545d25ba5591cf531..ee348b8eb934db346b6d56318b38f98ba03c9381 100644 (file)
@@ -1489,6 +1489,11 @@ void smpi_op_destroy(MPI_Op op)
 void smpi_op_apply(MPI_Op op, void *invec, void *inoutvec, int *len,
                    MPI_Datatype * datatype)
 {
+  if(smpi_privatize_global_variables){ //we need to switch here, as the called function may silently touch global variables
+    XBT_VERB("Applying operation, switch to the right data frame ");
+    switch_data_segment(smpi_process_index());
+  }
+
   if(!_xbt_replay_is_active())
   op->func(invec, inoutvec, len, datatype);
 }