Logo AND Algorithmique Numérique Distribuée

Public GIT Repository
Try harder not to fail with stale sockets after several runs.
authorArnaud Giersch <arnaud.giersch@univ-fcomte.fr>
Fri, 12 May 2023 09:19:55 +0000 (11:19 +0200)
committerArnaud Giersch <arnaud.giersch@univ-fcomte.fr>
Mon, 15 May 2023 12:56:08 +0000 (14:56 +0200)
* on linux, prefer abstract unix sockets that are automatically removed
* otherwise, remove possible stale socket before bind

src/mc/api/RemoteApp.cpp
src/mc/remote/AppSide.cpp

index 2f7f8cf..f28a1fa 100644 (file)
@@ -31,12 +31,6 @@ XBT_LOG_EXTERNAL_CATEGORY(mc_global);
 namespace simgrid::mc {
 
 static std::string master_socket_name;
-static void cleanup_master_socket()
-{
-  if (not master_socket_name.empty())
-    unlink(master_socket_name.c_str());
-  master_socket_name.clear();
-}
 
 RemoteApp::RemoteApp(const std::vector<char*>& args, bool need_memory_introspection) : app_args_(args)
 {
@@ -62,10 +56,21 @@ RemoteApp::RemoteApp(const std::vector<char*>& args, bool need_memory_introspect
     snprintf(serv_addr.sun_path, 64, "/tmp/simgrid-mc-%d", getpid());
     master_socket_name = serv_addr.sun_path;
     auto addr_size = offsetof(struct sockaddr_un, sun_path) + strlen(serv_addr.sun_path);
+#ifdef __linux__
+    serv_addr.sun_path[0] = '\0'; // abstract socket, automatically removed after close
+#else
+    unlink(master_socket_name.c_str()); // remove possible stale socket before bind
+    atexit([]() {
+      if (not master_socket_name.empty())
+        unlink(master_socket_name.c_str());
+      master_socket_name.clear();
+    });
+  }
+#endif
 
     xbt_assert(bind(master_socket_, (struct sockaddr*)&serv_addr, addr_size) >= 0,
-               "Cannot bind the master socket to %s: %s.", serv_addr.sun_path, strerror(errno));
-    atexit(cleanup_master_socket);
+               "Cannot bind the master socket to %c%s: %s.", (serv_addr.sun_path[0] ? serv_addr.sun_path[0] : '@'),
+               serv_addr.sun_path + 1, strerror(errno));
 
     xbt_assert(listen(master_socket_, SOMAXCONN) >= 0, "Cannot listen to the master socket: %s.", strerror(errno));
 
index 4ee2c19..ac26914 100644 (file)
@@ -176,9 +176,12 @@ void AppSide::handle_fork(const s_mc_message_int_t* msg)
     addr.sun_family         = AF_UNIX;
     snprintf(addr.sun_path, 64, "/tmp/simgrid-mc-%" PRIu64, msg->value);
     auto addr_size = offsetof(struct sockaddr_un, sun_path) + strlen(addr.sun_path);
+#ifdef __linux__
+    addr.sun_path[0] = '\0'; // abstract socket
+#endif
 
-    xbt_assert(connect(sock, (struct sockaddr*)&addr, addr_size) >= 0,
-               "Cannot connect to Checker on %s: %s.", addr.sun_path, strerror(errno));
+    xbt_assert(connect(sock, (struct sockaddr*)&addr, addr_size) >= 0, "Cannot connect to Checker on %c%s: %s.",
+               (addr.sun_path[0] ? addr.sun_path[0] : '@'), addr.sun_path + 1, strerror(errno));
 
     channel_.reset_socket(sock);