try to add ios-xcode-build

Djip007 · Djip007 · commit 3faf67080ad0 · 2024-10-27T02:47:30.000+02:00
diff --git a/Package.swift b/Package.swift
@@ -14,6 +14,7 @@ var sources = [
     "ggml/src/ggml-backend.cpp",
     "ggml/src/ggml-quants.c",
     "ggml/src/ggml-aarch64.c",
+    "ggml/src/ggml-fp8.cpp",
 ]
 
 var resources: [Resource] = []
@@ -75,5 +76,5 @@ let package = Package(
             linkerSettings: linkerSettings
         )
     ],
-    cxxLanguageStandard: .cxx11
+    cxxLanguageStandard: .cxx17
 )
diff --git a/ggml/CMakeLists.txt b/ggml/CMakeLists.txt
@@ -183,11 +183,11 @@ option(GGML_BUILD_EXAMPLES "ggml: build examples" ${GGML_STANDALONE})
 set(CMAKE_C_STANDARD 11)
 set(CMAKE_C_STANDARD_REQUIRED true)
 
-#if (GGML_SYCL)
+if (GGML_SYCL)
     set(CMAKE_CXX_STANDARD 17)
-#else()
-#    set(CMAKE_CXX_STANDARD 11)
-#endif()
+else()
+    set(CMAKE_CXX_STANDARD 11)
+endif()
 set(CMAKE_CXX_STANDARD_REQUIRED true)
 
 set(THREADS_PREFER_PTHREAD_FLAG ON)
diff --git a/ggml/src/CMakeLists.txt b/ggml/src/CMakeLists.txt
@@ -178,9 +178,10 @@ if (GGML_OPENMP_SIMD)
         # OpenMP_RUNTIME_MSVC=experimental / if (MSVC)
         message(STATUS "Using openmp_simd.")
         add_compile_definitions(GGML_USE_OPENMP_SIMD)
-        set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} -fopenmp-simd")
+        #set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} -fopenmp-simd")
+        set(OPENMP_SIMD_FLAGS -fopenmp-simd)
     else()
-        message(FATAL_ERROR, "C++ compiler lacks OPENMP_SIMD support.")
+        message(WARNING "C++ compiler lacks OPENMP_SIMD support.")
     endif()
 endif()
 
@@ -1377,6 +1378,13 @@ endif()
 file(GLOB   GGML_HEADERS_FP8 "ggml-fp8.h")
 file(GLOB   GGML_SOURCES_FP8 "ggml-fp8.cpp")
 
+#set_source_files_properties( ${GGML_SOURCES_FP8} PROPERTIES CXX_STANDARD 17)
+#set_source_files_properties( ${GGML_SOURCES_FP8} PROPERTIES COMPILE_FLAGS "-std=c++17")
+if (OPENMP_SIMD_FLAGS)
+    set_source_files_properties( ${GGML_SOURCES_FP8} PROPERTIES COMPILE_FLAGS ${OPENMP_SIMD_FLAGS})
+    #set_source_files_properties( ${GGML_SOURCES_FP8} PROPERTIES CMAKE_CXX_FLAGS ${OPENMP_SIMD_FLAGS})
+endif()
+
 # ggml
 
 add_library(ggml
@@ -1413,6 +1421,8 @@ target_include_directories(ggml PUBLIC  ../include)
 target_include_directories(ggml PRIVATE . ${GGML_EXTRA_INCLUDES})
 target_link_directories   (ggml PRIVATE   ${GGML_EXTRA_LIBDIRS})
 target_compile_features   (ggml PRIVATE c_std_11) # don't bump
+target_compile_features   (ggml PRIVATE cxx_std_17)
+#target_compile_features   (ggml PRIVATE cxx_constexpr)
 
 list(APPEND GGML_EXTRA_LIBS_PRIVATE Threads::Threads)
 
diff --git a/ggml/src/ggml-common.h b/ggml/src/ggml-common.h
@@ -6,7 +6,8 @@
 typedef uint16_t ggml_half;
 typedef uint32_t ggml_half2;
 
-#define GGML_COMMON_AGGR
+#define GGML_COMMON_AGGR_U
+#define GGML_COMMON_AGGR_S
 
 #define GGML_COMMON_DECL
 #elif defined(GGML_COMMON_DECL_CPP)
@@ -15,7 +16,8 @@ typedef uint32_t ggml_half2;
 typedef uint16_t ggml_half;
 typedef uint32_t ggml_half2;
 
-#define GGML_COMMON_AGGR data
+#define GGML_COMMON_AGGR_U data
+#define GGML_COMMON_AGGR_S data
 
 #define GGML_COMMON_DECL
 #elif defined(GGML_COMMON_DECL_METAL)
@@ -24,7 +26,8 @@ typedef uint32_t ggml_half2;
 typedef half  ggml_half;
 typedef half2 ggml_half2;
 
-#define GGML_COMMON_AGGR
+#define GGML_COMMON_AGGR_U
+#define GGML_COMMON_AGGR_S
 
 #define GGML_COMMON_DECL
 #elif defined(GGML_COMMON_DECL_CUDA)
@@ -38,7 +41,8 @@ typedef half2 ggml_half2;
 typedef half  ggml_half;
 typedef half2 ggml_half2;
 
-#define GGML_COMMON_AGGR data
+#define GGML_COMMON_AGGR_U
+#define GGML_COMMON_AGGR_S data
 
 #define GGML_COMMON_DECL
 #elif defined(GGML_COMMON_DECL_HIP)
@@ -48,7 +52,8 @@ typedef half2 ggml_half2;
 typedef half  ggml_half;
 typedef half2 ggml_half2;
 
-#define GGML_COMMON_AGGR data
+#define GGML_COMMON_AGGR_U
+#define GGML_COMMON_AGGR_S data
 
 #define GGML_COMMON_DECL
 #elif defined(GGML_COMMON_DECL_SYCL)
@@ -58,7 +63,8 @@ typedef half2 ggml_half2;
 typedef sycl::half  ggml_half;
 typedef sycl::half2 ggml_half2;
 
-#define GGML_COMMON_AGGR data
+#define GGML_COMMON_AGGR_U
+#define GGML_COMMON_AGGR_S data
 
 #define GGML_COMMON_DECL
 #endif
@@ -163,9 +169,9 @@ typedef struct {
         struct {
             ggml_half d; // delta
             ggml_half m; // min
-        } GGML_COMMON_AGGR;
+        } GGML_COMMON_AGGR_S;
         ggml_half2 dm;
-    };
+    } GGML_COMMON_AGGR_U;
     uint8_t qs[QK4_1 / 2]; // nibbles / quants
 } block_q4_1;
 static_assert(sizeof(block_q4_1) == 2 * sizeof(ggml_half) + QK4_1 / 2, "wrong q4_1 block size/padding");
@@ -184,9 +190,9 @@ typedef struct {
         struct {
             ggml_half d; // delta
             ggml_half m; // min
-        } GGML_COMMON_AGGR;
+        } GGML_COMMON_AGGR_S;
         ggml_half2 dm;
-    };
+    } GGML_COMMON_AGGR_U;
     uint8_t qh[4];         // 5-th bit of quants
     uint8_t qs[QK5_1 / 2]; // nibbles / quants
 } block_q5_1;
@@ -205,9 +211,9 @@ typedef struct {
         struct {
             ggml_half d; // delta
             ggml_half s; // d * sum(qs[i])
-        } GGML_COMMON_AGGR;
+        } GGML_COMMON_AGGR_S;
         ggml_half2 ds;
-    };
+    } GGML_COMMON_AGGR_U;
     int8_t qs[QK8_1]; // quants
 } block_q8_1;
 static_assert(sizeof(block_q8_1) == 2*sizeof(ggml_half) + QK8_1, "wrong q8_1 block size/padding");
@@ -270,9 +276,9 @@ typedef struct {
         struct {
             ggml_half d;    // super-block scale for quantized scales
             ggml_half dmin; // super-block scale for quantized mins
-        } GGML_COMMON_AGGR;
+        } GGML_COMMON_AGGR_S;
         ggml_half2 dm;
-    };
+    } GGML_COMMON_AGGR_U;
 } block_q2_K;
 static_assert(sizeof(block_q2_K) == 2*sizeof(ggml_half) + QK_K/16 + QK_K/4, "wrong q2_K block size/padding");
 
@@ -297,9 +303,9 @@ typedef struct {
         struct {
             ggml_half d;    // super-block scale for quantized scales
             ggml_half dmin; // super-block scale for quantized mins
-        } GGML_COMMON_AGGR;
+        } GGML_COMMON_AGGR_S;
         ggml_half2 dm;
-    };
+    } GGML_COMMON_AGGR_U;
     uint8_t scales[K_SCALE_SIZE]; // scales and mins, quantized with 6 bits
     uint8_t qs[QK_K/2];           // 4--bit quants
 } block_q4_K;
@@ -314,9 +320,9 @@ typedef struct {
         struct {
             ggml_half d;    // super-block scale for quantized scales
             ggml_half dmin; // super-block scale for quantized mins
-        } GGML_COMMON_AGGR;
+        } GGML_COMMON_AGGR_S;
         ggml_half2 dm;
-    };
+    } GGML_COMMON_AGGR_U;
     uint8_t scales[K_SCALE_SIZE]; // scales and mins, quantized with 6 bits
     uint8_t qh[QK_K/8];           // quants, high bit
     uint8_t qs[QK_K/2];           // quants, low 4 bits
diff --git a/ggml/src/ggml-fp8.cpp b/ggml/src/ggml-fp8.cpp
@@ -17,7 +17,7 @@ make -j8
 
 rm -rf build
 cmake -B build
-cmake --build build --config Release
+cmake --build build --config Release -j $(nproc)
 ./build/bin/llama-quantize ~/LLM/Mistral-Nemo-Instruct-2407.BF16.gguf ~/LLM/Mistral-Nemo-Instruct-2407.E3M4_Q.gguf E3M4_Q
 ./build/bin/llama-cli -c 1024 -m ~/LLM/Mistral-Nemo-Instruct-2407.E3M4_Q.gguf -p "[INST]bonjour a tu un nom. je ne sais pas comment t'appeler. Si tu n'en as pas je peux t'appeler TINTIN[/INST]" -s 42
 ./build/bin/llama-perplexity --kl-divergence-base ~/LLM/Mistral-Nemo-Instruct-2407.BF16.kld --kl-divergence -s 31337 -m ~/LLM/Mistral-Nemo-Instruct-2407.E3M4_Q.gguf
@@ -27,6 +27,10 @@ rm -rf tmp
 mkdir tmp
 bash ./ci/run.sh ./tmp/results ./tmp/mnt
 
+# HIP legacy target?
+cmake -B build2 -S . -DCMAKE_C_COMPILER=hipcc -DCMAKE_CXX_COMPILER=hipcc -DGGML_HIPBLAS=ON
+cmake --build build2 --config Release -j $(nproc) -v
+
 */
 
 template<int N> constexpr float EXP2() {
@@ -151,9 +155,9 @@ static inline void conv(const float* x, bloc_fp8<E, QK>* y, int64_t size) {
     const auto qk_size = size / QK;
     for (int64_t q=0; q<qk_size; ++q) {
         float m = 0;
-        // @ voir si c'est lui qui pose probleme et si c'est sur toutes les target
 #ifdef GGML_USE_OPENMP_SIMD
-        #pragma omp simd reduction(max:m)
+        // not work on macos and warn.
+        // #pragma omp simd reduction(max:m)
 #endif
         for (int64_t i=0; i<QK; i++) {
             m = std::max(std::abs(x[q*QK+i]),m);

Original file line number	Diff line number	Diff line change
`@@ -14,6 +14,7 @@ var sources = [`
`14`	`14`	`"ggml/src/ggml-backend.cpp",`
`15`	`15`	`"ggml/src/ggml-quants.c",`
`16`	`16`	`"ggml/src/ggml-aarch64.c",`
	`17`	`+ "ggml/src/ggml-fp8.cpp",`
`17`	`18`	`]`
`18`	`19`
`19`	`20`	`var resources: [Resource] = []`
`@@ -75,5 +76,5 @@ let package = Package(`
`75`	`76`	`linkerSettings: linkerSettings`
`76`	`77`	`)`
`77`	`78`	`],`
`78`		`- cxxLanguageStandard: .cxx11`
	`79`	`+ cxxLanguageStandard: .cxx17`
`79`	`80`	`)`