a rough implementation of GGML_NUMA_MIRROR

wkgcass · wkgcass · commit 93142867f67c · 2025-03-14T14:05:52.000+08:00
Add `-DGGML_NUMA_MIRROR=ON` when configuring, e.g.

```
cmake -B build -DGGML_NATIVE=ON -DGGML_CUDA=ON -DGGML_NUMA_MIRROR=ON
```

How it works:

1. Use mmap to allocate model memory on numa node 0
   with specific virtual address
   (e.g. 0x200000000000ULL)
2. Mmap another memory space on numa node 1
   and copy the model to that memory location
   (e.g. 0x400000000000ULL)
3. Change `tensor-&gt;data` to `tensor-&gt;__data[N_NUMA_NODES]`
4. Add two helper functions:
   1) `tensor_data` to retrieve data on current numa
   2) `tensor_set_data` to store data inside the tensor
   and modify hundreds lines of code to the above two helpers
5. When storing into the tensor data, check whether the data
   is located in the range of specified virtual address in step 1 and 2.
   If so, put them accordingly to `__data[0]` or `__data[1]`.
   For example, if the address to store is `0x200000114514`,
   we can know it's between `0x200000000000` and `0x400000000000`,
   so we can store `0x200000114514` to `__data[0]`, and
   store `0x200000114514 + 0x200000000000` to `__data[1]`
6. Add a thread local variable to store node id of current thread
7. Use `tensor-&gt;__data[node_id]` when retrieving data

This patch also persists the model in hugepages memory, so we can
skip the process of loading models from disk to memory.
diff --git a/ggml/CMakeLists.txt b/ggml/CMakeLists.txt
@@ -320,14 +320,39 @@ set(variable_set_statements
 set(GGML_SHARED_LIB ${BUILD_SHARED_LIBS})
 
 if (GGML_NUMA_MIRROR)
+    find_library(NUMA_LIBRARY NAMES numa)
+    if (!NUMA_LIBRARY)
+        message(FATAL_ERROR "libnuma is not found")
+    endif()
+    message(STATUS "libnuma: ${NUMA_LIBRARY}")
+
+    if (NOT DEFINED GGML_MMAP_VIRTUAL_MEMORY_BASE_OFFSET)
+        set(GGML_MMAP_VIRTUAL_MEMORY_BASE_OFFSET "0x200000000000ULL")
+    endif()
+    if (NOT DEFINED GGML_MMAP_VIRTUAL_MEMORY_NUMA_INCREMENT)
+        set(GGML_MMAP_VIRTUAL_MEMORY_NUMA_INCREMENT "0x200000000000ULL")
+    endif()
+    if (NOT DEFINED GGML_MMAP_HUGEPAGESZ)
+        set(GGML_MMAP_HUGEPAGESZ "1073741824ULL")
+    endif()
+
     message(STATUS
             "-----------------\n"
-            "Enabling GGML_NUMA_MIRROR"
+            "Enabling GGML_NUMA_MIRROR\n"
+            "Hugepages must be reserved properly,\n"
+            "and your program should have write access to /dev/hugepages\n"
+            "GGML_MMAP_VIRTUAL_MEMORY_BASE_OFFSET    = ${GGML_MMAP_VIRTUAL_MEMORY_BASE_OFFSET}\n"
+            "GGML_MMAP_VIRTUAL_MEMORY_NUMA_INCREMENT = ${GGML_MMAP_VIRTUAL_MEMORY_NUMA_INCREMENT}\n"
+            "GGML_MMAP_HUGEPAGESZ                    = ${GGML_MMAP_HUGEPAGESZ}")
     message(STATUS
             "-----------------")
 
     foreach(lib "ggml" "ggml-base")
         target_compile_definitions(${lib} PUBLIC GGML_NUMA_MIRROR)
+        target_compile_definitions(${lib} PUBLIC GGML_MMAP_VIRTUAL_MEMORY_BASE_OFFSET=${GGML_MMAP_VIRTUAL_MEMORY_BASE_OFFSET})
+        target_compile_definitions(${lib} PUBLIC GGML_MMAP_VIRTUAL_MEMORY_NUMA_INCREMENT=${GGML_MMAP_VIRTUAL_MEMORY_NUMA_INCREMENT})
+        target_compile_definitions(${lib} PUBLIC GGML_MMAP_HUGEPAGESZ=${GGML_MMAP_HUGEPAGESZ})
+        target_link_libraries(${lib} PUBLIC ${NUMA_LIBRARY})
     endforeach()
 endif()
 
diff --git a/ggml/include/ggml.h b/ggml/include/ggml.h
@@ -310,6 +310,9 @@
     GGML_TENSOR_LOCALS(int64_t, ne1, src1, ne) \
     GGML_TENSOR_LOCALS(size_t,  nb1, src1, nb)
 
+#define GGML_LIKELY  (x) __builtin_expect(!!(x), 1)
+#define GGML_UNLIKELY(x) __builtin_expect(!!(x), 0)
+
 #ifdef  __cplusplus
 extern "C" {
 #endif
@@ -625,6 +628,8 @@ extern "C" {
     static inline void * tensor_data(const struct ggml_tensor * tensor) {
 #ifdef GGML_NUMA_MIRROR
         int n = ggml_current_numa_node;
+        if (n == -1)
+            n = 0;
         return tensor->__data[n];
 #else
         return tensor->data;
@@ -633,8 +638,24 @@ extern "C" {
 
     static inline void tensor_set_data(struct ggml_tensor * tensor, void * data) {
 #ifdef GGML_NUMA_MIRROR
+        if ((uint64_t)data >= \
+                GGML_MMAP_VIRTUAL_MEMORY_BASE_OFFSET + \
+                GGML_MMAP_VIRTUAL_MEMORY_NUMA_INCREMENT && \
+            (uint64_t)data < GGML_MMAP_VIRTUAL_MEMORY_BASE_OFFSET + \
+                2 * GGML_MMAP_VIRTUAL_MEMORY_NUMA_INCREMENT) {
+            data = (void*) ((uint64_t)data - GGML_MMAP_VIRTUAL_MEMORY_NUMA_INCREMENT);
+        }
         tensor->__data[0] = data;
-        tensor->__data[1] = data;
+        if ((uint64_t)data >= \
+                GGML_MMAP_VIRTUAL_MEMORY_BASE_OFFSET && \
+            (uint64_t)data < \
+                GGML_MMAP_VIRTUAL_MEMORY_BASE_OFFSET + \
+                GGML_MMAP_VIRTUAL_MEMORY_NUMA_INCREMENT) {
+            tensor->__data[1] = (void*) ((uint64_t)data + \
+                    GGML_MMAP_VIRTUAL_MEMORY_NUMA_INCREMENT);
+        } else {
+            tensor->__data[1] = data;
+        }
 #else
         tensor->data = data;
 #endif
diff --git a/ggml/src/ggml-cpu/ggml-cpu.c b/ggml/src/ggml-cpu/ggml-cpu.c
@@ -11,6 +11,11 @@
 #include "ggml-threading.h"
 #include "ggml.h"
 
+#ifdef GGML_NUMA_MIRROR
+#include <numa.h>
+#include <numaif.h>
+#endif
+
 #if defined(_MSC_VER) || defined(__MINGW32__)
 #include <malloc.h> // using malloc.h with MSC/MINGW
 #elif !defined(__FreeBSD__) && !defined(__NetBSD__) && !defined(__OpenBSD__)
@@ -15180,6 +15185,11 @@ struct ggml_cplan ggml_graph_plan(
     return cplan;
 }
 
+#ifdef GGML_NUMA_MIRROR
+static bool g_cpuset_isset = false;
+static cpu_set_t g_cpuset;
+#endif
+
 static thread_ret_t ggml_graph_compute_thread(void * data) {
     struct ggml_compute_state * state = (struct ggml_compute_state *) data;
     struct ggml_threadpool    * tp    = state->threadpool;
@@ -15197,6 +15207,51 @@ static thread_ret_t ggml_graph_compute_thread(void * data) {
         /*.threadpool=*/ tp,
     };
 
+#ifdef GGML_NUMA_MIRROR
+    if (GGML_UNLIKELY(ggml_current_numa_node == -1)) {
+        int thread_id = state->ith;
+        int total_threads = tp->n_threads_max;
+
+        ggml_current_numa_node = !!!(thread_id < (total_threads / 2));
+
+        struct bitmask* mask = numa_bitmask_alloc(numa_num_configured_nodes());
+        numa_bitmask_setbit(mask, ggml_current_numa_node);
+        numa_bind(mask);
+
+        bool cpumask[GGML_MAX_N_THREADS];
+        memset(cpumask, 0, sizeof(bool) * GGML_MAX_N_THREADS);
+        for (int i = 0; i < GGML_MAX_N_THREADS; ++i) {
+            if (CPU_ISSET(i, &g_cpuset)) {
+                cpumask[i] = true;
+            }
+        }
+
+        int cpuid = -1;
+        bool local_mask[GGML_MAX_N_THREADS];
+        int iter = 0;
+        for (int j = 0; j < thread_id; ++j) {
+            ggml_thread_cpumask_next(cpumask, local_mask, true, &iter);
+        }
+        memset(local_mask, 0, sizeof(bool) * GGML_MAX_N_THREADS);
+        ggml_thread_cpumask_next(cpumask, local_mask, true, &iter);
+        for (int i = 0; i < GGML_MAX_N_THREADS; ++i) {
+            if (local_mask[i]) {
+                cpuid = i;
+                break;
+            }
+        }
+
+        if (cpuid != -1) {
+            cpu_set_t cpuset;
+            CPU_ZERO(&cpuset);
+            CPU_SET(cpuid, &cpuset);
+            sched_setaffinity(gettid(), sizeof(cpuset), &cpuset);
+        }
+
+        GGML_LOG_INFO("thread_id = %02d, node = %d, cpuid = %02d\n", thread_id, ggml_current_numa_node, cpuid);
+    }
+#endif // GGML_NUMA_MIRROR
+
     for (int node_n = 0; node_n < cgraph->n_nodes && atomic_load_explicit(&tp->abort, memory_order_relaxed) != node_n; node_n++) {
         struct ggml_tensor * node = cgraph->nodes[node_n];
 
@@ -15464,6 +15519,14 @@ enum ggml_status ggml_graph_compute(struct ggml_cgraph * cgraph, struct ggml_cpl
         threadpool->ec               = GGML_STATUS_SUCCESS;
     }
 
+#ifdef GGML_NUMA_MIRROR
+    if (!g_cpuset_isset) {
+        CPU_ZERO(&g_cpuset);
+        sched_getaffinity(getpid(), sizeof(g_cpuset), &g_cpuset);
+        g_cpuset_isset = true;
+    }
+#endif
+
 #ifdef GGML_USE_OPENMP
     if (n_threads > 1) {
         #pragma omp parallel num_threads(n_threads)
diff --git a/ggml/src/ggml.c b/ggml/src/ggml.c
@@ -61,7 +61,7 @@
 #endif
 
 #ifdef GGML_NUMA_MIRROR
-__thread int ggml_current_numa_node = 0;
+__thread int ggml_current_numa_node = -1;
 #endif
 
 // precomputed f32 table for f16 (256 KB) (ggml-impl.h)
diff --git a/src/llama-mmap.cpp b/src/llama-mmap.cpp
@@ -10,6 +10,11 @@
 #include <cerrno>
 #include <algorithm>
 
+#ifdef GGML_NUMA_MIRROR
+#include <numa.h>
+#include <numaif.h>
+#endif
+
 #ifdef __has_include
     #if __has_include(<unistd.h>)
         #include <unistd.h>
@@ -269,13 +274,24 @@ void llama_file::write_u32(uint32_t val) const { pimpl->write_u32(val); }
 
 // llama_mmap
 
+#ifdef GGML_NUMA_MIRROR
+static uintptr_t base_address_offset = 0;
+static int file_name_offset = 0;
+#endif
+
 struct llama_mmap::impl {
 #ifdef _POSIX_MAPPED_FILES
     std::vector<std::pair<size_t, size_t>> mapped_fragments;
 
     impl(struct llama_file * file, size_t prefetch, bool numa) {
+#ifdef GGML_NUMA_MIRROR
+        GGML_UNUSED(prefetch);
+        GGML_UNUSED(numa);
+#endif
+
         size = file->size();
         int fd = file->file_id();
+#ifndef GGML_NUMA_MIRROR
         int flags = MAP_SHARED;
         if (numa) { prefetch = 0; }
 #ifdef __linux__
@@ -285,6 +301,92 @@ struct llama_mmap::impl {
         }
         if (prefetch) { flags |= MAP_POPULATE; }
 #endif
+#endif // ifndef GGML_NUMA_MIRROR
+
+#ifdef GGML_NUMA_MIRROR
+        int oldpolicy;
+        struct bitmask* oldmask = numa_allocate_nodemask();
+        if (get_mempolicy(&oldpolicy, oldmask->maskp,
+                          oldmask->size + 1, 0, 0) < 0) {
+            LLAMA_LOG_WARN("get_mempolicy failed, errno=%d %s\n", errno, strerror(errno));
+            oldpolicy = MPOL_DEFAULT;
+        }
+
+        size_t total_size = file->size();
+        char path[128];
+        bool is_new_mem[] = { false, false };
+        int i;
+        for (int node = 0; node < 2; ++node) {
+            numa_set_preferred(node);
+            LLAMA_LOG_INFO("numa_set_preferred(%d)\n", node);
+
+            for (i = 0; i * GGML_MMAP_HUGEPAGESZ < total_size; ++i) {
+                sprintf(path, "/dev/hugepages/llama-node%d-%d", node, file_name_offset + i);
+                if (!is_new_mem[node]) {
+                    is_new_mem[node] = access(path, F_OK) != 0;
+                }
+                int hugefd = open(path, O_CREAT | O_RDWR, 0600);
+                if (hugefd < 0) {
+                    LLAMA_LOG_WARN("failed to open hugepage fd %s: %d %s\n",
+                            path, errno, strerror(errno));
+                    throw std::runtime_error(format("failed to open hugepage fd: %s", strerror(errno)));
+                }
+                uintptr_t address = GGML_MMAP_VIRTUAL_MEMORY_BASE_OFFSET \
+                                    + node * GGML_MMAP_VIRTUAL_MEMORY_NUMA_INCREMENT + \
+                                    base_address_offset + i * GGML_MMAP_HUGEPAGESZ;
+                void* mm = mmap((void*)address, GGML_MMAP_HUGEPAGESZ, PROT_READ | PROT_WRITE,
+                        MAP_SHARED | MAP_HUGETLB | MAP_POPULATE,
+                        hugefd, 0);
+                close(hugefd);
+                LLAMA_LOG_INFO("mmap(%s) desire=%p size=%llu result=%p is_new_mem[%d]=%s\n",
+                        path, (void*)address, GGML_MMAP_HUGEPAGESZ, mm, node, is_new_mem[node] ? "yes" : "no");
+                if (((uintptr_t)mm) != address) {
+                    LLAMA_LOG_WARN("unable to mmap memory: %d %s\n", errno, strerror(errno));
+                    throw std::runtime_error(format("mmap failed: %s", strerror(errno)));
+                }
+                if (is_new_mem[node]) {
+                    memset(mm, 0, GGML_MMAP_HUGEPAGESZ);
+                }
+            }
+            if (node == 0) {
+                addr = (void*)(GGML_MMAP_VIRTUAL_MEMORY_BASE_OFFSET + \
+                        node * GGML_MMAP_VIRTUAL_MEMORY_NUMA_INCREMENT + \
+                        base_address_offset);
+            }
+        }
+        base_address_offset += i * GGML_MMAP_HUGEPAGESZ;
+        file_name_offset += i;
+        if (is_new_mem[0]) {
+            LLAMA_LOG_INFO("begin to copy from disk to mem ...\n");
+            size_t n = 0;
+            while (n < total_size) {
+                int nn = read(fd, (void*)((uintptr_t)addr + n), 1024 * 1024);
+                if (nn < 0) {
+                    LLAMA_LOG_WARN("unable to read from file: %d %s\n", errno, strerror(errno));
+                    throw std::runtime_error(format("read failed: %s", strerror(errno)));
+                }
+                n += nn;
+            }
+        }
+        for (int node = 1; node < 2; ++node) {
+            if (is_new_mem[node]) {
+                LLAMA_LOG_INFO("begin to copy from numa0 to numa%d ...\n", node);
+                memcpy((void*)((uintptr_t)addr + \
+                            node * GGML_MMAP_VIRTUAL_MEMORY_NUMA_INCREMENT), \
+                        addr, total_size);
+            }
+        }
+
+        if (oldpolicy == MPOL_DEFAULT) {
+            numa_set_localalloc();
+        } else {
+            set_mempolicy(oldpolicy, oldmask->maskp,
+                          oldmask->size + 1);
+        }
+        numa_free_cpumask(oldmask);
+#endif // GGML_NUMA_MIRROR
+
+#ifndef GGML_NUMA_MIRROR
         addr = mmap(NULL, file->size(), PROT_READ, flags, fd, 0);
         if (addr == MAP_FAILED) {
             throw std::runtime_error(format("mmap failed: %s", strerror(errno)));
@@ -302,6 +404,7 @@ struct llama_mmap::impl {
                         strerror(errno));
             }
         }
+#endif // ifndef GGML_NUMA_MIRROR
 
         mapped_fragments.emplace_back(0, file->size());
     }
@@ -355,11 +458,13 @@ struct llama_mmap::impl {
     }
 
     ~impl() {
+#ifndef GGML_NUMA_MIRROR
         for (const auto & frag : mapped_fragments) {
             if (munmap((char *) addr + frag.first, frag.second - frag.first)) {
                 LLAMA_LOG_WARN("warning: munmap failed: %s\n", strerror(errno));
             }
         }
+#endif
     }
 #elif defined(_WIN32)
     impl(struct llama_file * file, size_t prefetch, bool numa) {