remove need of c++17

Djip007 · Djip007 · commit 4e81ab0f8c95 · 2024-10-29T01:54:34.000+01:00
and some cleanup.
diff --git a/Makefile b/Makefile
@@ -1086,12 +1086,11 @@ ggml/src/ggml-aarch64.o: \
 	ggml/src/ggml-common.h
 	$(CC) $(CFLAGS)    -c $< -o $@
 
-#$(CXX) $(CXXFLAGS) -std=c++17 -fopt-info-vec-missed -c $< -o $@
 ggml/src/ggml-fp8.o: \
 	ggml/src/ggml-fp8.cpp \
 	ggml/src/ggml-fp8.h \
 	ggml/src/ggml-common.h
-	$(CXX) $(CXXFLAGS) -std=c++17 -c $< -o $@
+	$(CXX) $(CXXFLAGS) -c $< -o $@
 
 ggml/src/ggml-blas.o: \
 	ggml/src/ggml-blas.cpp \
diff --git a/Package.swift b/Package.swift
@@ -76,5 +76,5 @@ let package = Package(
             linkerSettings: linkerSettings
         )
     ],
-    cxxLanguageStandard: .cxx17
+    cxxLanguageStandard: .cxx11
 )
diff --git a/examples/quantize/quantize.cpp b/examples/quantize/quantize.cpp
@@ -51,10 +51,8 @@ static const std::vector<struct quant_option> QUANT_OPTIONS = {
     { "Q4_0_4_4", LLAMA_FTYPE_MOSTLY_Q4_0_4_4, " 4.34G, +0.4685 ppl @ Llama-3-8B",  },
     { "Q4_0_4_8", LLAMA_FTYPE_MOSTLY_Q4_0_4_8, " 4.34G, +0.4685 ppl @ Llama-3-8B",  },
     { "Q4_0_8_8", LLAMA_FTYPE_MOSTLY_Q4_0_8_8, " 4.34G, +0.4685 ppl @ Llama-3-8B",  },
-
-    { "E4M3_Q",   LLAMA_FTYPE_MOSTLY_E4M3_Q,   "12,21G, 0.0050 kld @ Mistral-Nemo", },
-    { "E3M4_Q",   LLAMA_FTYPE_MOSTLY_E3M4_Q,   "12,21G, 0.0016 kld @ Mistral-Nemo", },
-
+    { "E4M3_Q",   LLAMA_FTYPE_MOSTLY_E4M3_Q,   "12.21G, 0.0050 kld @ Mistral-Nemo", },
+    { "E3M4_Q",   LLAMA_FTYPE_MOSTLY_E3M4_Q,   "12.21G, 0.0016 kld @ Mistral-Nemo", },
     { "F16",      LLAMA_FTYPE_MOSTLY_F16,      "14.00G, +0.0020 ppl @ Mistral-7B",  },
     { "BF16",     LLAMA_FTYPE_MOSTLY_BF16,     "14.00G, -0.0050 ppl @ Mistral-7B",  },
     { "F32",      LLAMA_FTYPE_ALL_F32,         "26.00G              @ 7B",          },
diff --git a/ggml/src/CMakeLists.txt b/ggml/src/CMakeLists.txt
@@ -178,7 +178,6 @@ if (GGML_OPENMP_SIMD)
         # OpenMP_RUNTIME_MSVC=experimental / if (MSVC)
         message(STATUS "Using openmp_simd.")
         add_compile_definitions(GGML_USE_OPENMP_SIMD)
-        #set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} -fopenmp-simd")
         set(OPENMP_SIMD_FLAGS -fopenmp-simd)
     else()
         message(WARNING "C++ compiler lacks OPENMP_SIMD support.")
@@ -1378,11 +1377,8 @@ endif()
 file(GLOB   GGML_HEADERS_FP8 "ggml-fp8.h")
 file(GLOB   GGML_SOURCES_FP8 "ggml-fp8.cpp")
 
-#set_source_files_properties( ${GGML_SOURCES_FP8} PROPERTIES CXX_STANDARD 17)
-#set_source_files_properties( ${GGML_SOURCES_FP8} PROPERTIES COMPILE_FLAGS "-std=c++17")
 if (OPENMP_SIMD_FLAGS)
     set_source_files_properties( ${GGML_SOURCES_FP8} PROPERTIES COMPILE_FLAGS ${OPENMP_SIMD_FLAGS})
-    #set_source_files_properties( ${GGML_SOURCES_FP8} PROPERTIES CMAKE_CXX_FLAGS ${OPENMP_SIMD_FLAGS})
 endif()
 
 # ggml
@@ -1421,8 +1417,6 @@ target_include_directories(ggml PUBLIC  ../include)
 target_include_directories(ggml PRIVATE . ${GGML_EXTRA_INCLUDES})
 target_link_directories   (ggml PRIVATE   ${GGML_EXTRA_LIBDIRS})
 target_compile_features   (ggml PRIVATE c_std_11) # don't bump
-target_compile_features   (ggml PRIVATE cxx_std_17)
-#target_compile_features   (ggml PRIVATE cxx_constexpr)
 
 list(APPEND GGML_EXTRA_LIBS_PRIVATE Threads::Threads)
 
diff --git a/ggml/src/ggml-common.h b/ggml/src/ggml-common.h
@@ -16,7 +16,9 @@ typedef uint32_t ggml_half2;
 typedef uint16_t ggml_half;
 typedef uint32_t ggml_half2;
 
+// std-c++ allow anonymous unions but some compiler warn on it
 #define GGML_COMMON_AGGR_U data
+// std-c++ do not allow it.
 #define GGML_COMMON_AGGR_S data
 
 #define GGML_COMMON_DECL
@@ -437,7 +439,6 @@ static_assert(sizeof(block_iq4_xs) == sizeof(ggml_half) + sizeof(uint16_t) + QK_
 // - fp8 simple type
 typedef struct { uint8_t bits; } ggml_e5m2_t;
 typedef struct { uint8_t bits; } ggml_e4m3_t;
-typedef struct { uint8_t bits; } ggml_e3m4_t;
 
 // - fp8 with bloc delta => 8.125 bpw
 typedef struct {
diff --git a/ggml/src/ggml-fp8.cpp b/ggml/src/ggml-fp8.cpp
@@ -7,53 +7,30 @@
 
 #include "ggml-fp8.h"
 
-/*
-make clean
-make -j8
-# ./llama-quantize --output-tensor-type fp8_e3m4_q ~/LLM/Mistral-Nemo-Instruct-2407.BF16.gguf ~/LLM/Mistral-Nemo-Instruct-2407.E3M4_Q.gguf E3M4_Q
-./llama-quantize ~/LLM/Mistral-Nemo-Instruct-2407.BF16.gguf ~/LLM/Mistral-Nemo-Instruct-2407.E3M4_Q.gguf E3M4_Q
-./llama-cli -c 1024 -m ~/LLM/Mistral-Nemo-Instruct-2407.E3M4_Q.gguf -p "[INST]bonjour a tu un nom. je ne sais pas comment t'appeler. Si tu n'en as pas je peux t'appeler TINTIN[/INST]" -s 42
-./llama-perplexity --kl-divergence-base ~/LLM/Mistral-Nemo-Instruct-2407.BF16.kld --kl-divergence -s 31337 -m ~/LLM/Mistral-Nemo-Instruct-2407.E3M4_Q.gguf
-
-rm -rf build
-cmake -B build
-cmake --build build --config Release -j $(nproc)
-./build/bin/llama-quantize ~/LLM/Mistral-Nemo-Instruct-2407.BF16.gguf ~/LLM/Mistral-Nemo-Instruct-2407.E3M4_Q.gguf E3M4_Q
-./build/bin/llama-cli -c 1024 -m ~/LLM/Mistral-Nemo-Instruct-2407.E3M4_Q.gguf -p "[INST]bonjour a tu un nom. je ne sais pas comment t'appeler. Si tu n'en as pas je peux t'appeler TINTIN[/INST]" -s 42
-./build/bin/llama-perplexity --kl-divergence-base ~/LLM/Mistral-Nemo-Instruct-2407.BF16.kld --kl-divergence -s 31337 -m ~/LLM/Mistral-Nemo-Instruct-2407.E3M4_Q.gguf
-
-# la CI local:
-rm -rf tmp
-mkdir tmp
-bash ./ci/run.sh ./tmp/results ./tmp/mnt
-
-# HIP legacy target?
-cmake -B build2 -S . -DCMAKE_C_COMPILER=hipcc -DCMAKE_CXX_COMPILER=hipcc -DGGML_HIPBLAS=ON
-cmake --build build2 --config Release -j $(nproc) -v
-
-*/
-
-template<int N> constexpr float EXP2() {
-    if constexpr (N==0) return 1;
-    if constexpr (N>0) return EXP2<N-1>()*2;
-    if constexpr (N<0) return EXP2<N+1>()/2;
+template<int N>
+constexpr float exp_p2() {
+    return exp_p2<N-1>()*2;
 }
-
-// 2^N avec N>0 en entier
-template<int N> constexpr int EXP_I2() {
-    if constexpr (N==0) return 1;
-    if constexpr (N>0) return EXP_I2<N-1>()*2;
+template<int N>
+constexpr float exp_m2() {
+    return exp_m2<N+1>()/2;
+}
+template<int N>
+constexpr int exp_i2() {
+    return 1 << N;
 }
+template<> constexpr float exp_p2<0>() { return 1;}
+template<> constexpr float exp_m2<0>() { return 1;}
 
-template<int _E> //, int M=7-E>  1.7 bits!
+template<int E> //, int M=7-E>  1.7 bits!
 struct FP8 {
     uint8_t bits;
-    using type = FP8<_E>;
-    static constexpr int E=_E;
-    static constexpr int M=7-_E;
-    static constexpr int E_BIAS=EXP2<_E-1>()-1;
-    static constexpr float MAX() { return (2-EXP2<-M+1>())*EXP2<EXP_I2<_E-1>()>(); }
-    static constexpr float MIN() { return EXP2<-M>()*EXP2<2-EXP_I2<_E-1>()>(); }
+    using type = FP8<E>;
+    // static constexpr int E=_E;
+    static constexpr int M()      { return 7-E; }
+    static constexpr int E_BIAS() { return exp_i2<E-1>()-1; }
+    static constexpr float MAX()  { return (2-exp_m2<-M()+1>())*exp_p2<exp_i2<E-1>()>(); }
+    static constexpr float MIN()  { return exp_m2<-M()>()*exp_m2<2-exp_i2<E-1>()>(); }
     //=============================================
 
 #ifdef GGML_USE_OPENMP_SIMD
@@ -64,19 +41,19 @@ struct FP8 {
             float f;
             uint32_t bits;
         } in = {value};
-        // le signe:
+        // the signe:
         bits = (in.bits >> 24) & 0x80;
-        // la valeur sans la signe!
+        // value without signe!
         in.bits &= 0x7fffffff;
         //GGML_ASSERT(in.bits < 0x7f800000); // +/- infini ou NAN
         if (in.f >= MAX()) {
             bits |= 0x7E;
         } else if (in.f<MIN()) { // => 0.
             // OK: S.0000000
         } else {
-            in.f *= EXP2<E_BIAS-127>();
-            in.bits += 1<<(22-M); // for rounding
-            bits |= (in.bits >> (23-M)) & 0x7F;
+            in.f *= exp_m2<E_BIAS()-127>();
+            in.bits += 1<<(22-M()); // for rounding
+            bits |= (in.bits >> (23-M())) & 0x7F;
         }
     }
 
@@ -88,13 +65,12 @@ struct FP8 {
             float f;
             uint32_t bits;
         } out = {0};
-        // le signe:
         out.bits = bits & 0x80;
         out.bits <<= 24;
         uint32_t _bits = bits & 0x7F;
-        _bits <<= (23-M);
+        _bits <<= (23-M());
         out.bits |= _bits;
-        out.f *= EXP2<127-E_BIAS>();
+        out.f *= exp_p2<127-E_BIAS()>();
         return out.f;
     }
 };
@@ -156,7 +132,7 @@ static inline void conv(const float* x, bloc_fp8<E, QK>* y, int64_t size) {
     for (int64_t q=0; q<qk_size; ++q) {
         float m = 0;
 #ifdef GGML_USE_OPENMP_SIMD
-        // not work on macos and warn.
+        // did not work on macOS and warn.
         // #pragma omp simd reduction(max:m)
 #endif
         for (int64_t i=0; i<QK; i++) {
diff --git a/ggml/src/ggml.c b/ggml/src/ggml.c
@@ -13329,33 +13329,6 @@ static void ggml_compute_forward_set(
             {
                 ggml_compute_forward_set_f32(params, dst);
             } break;
-        case GGML_TYPE_F16:
-        case GGML_TYPE_BF16:
-        case GGML_TYPE_Q4_0:
-        case GGML_TYPE_Q4_1:
-        case GGML_TYPE_Q5_0:
-        case GGML_TYPE_Q5_1:
-        case GGML_TYPE_Q8_0:
-        case GGML_TYPE_Q8_1:
-        case GGML_TYPE_Q2_K:
-        case GGML_TYPE_Q3_K:
-        case GGML_TYPE_Q4_K:
-        case GGML_TYPE_Q5_K:
-        case GGML_TYPE_Q6_K:
-        case GGML_TYPE_TQ1_0:
-        case GGML_TYPE_TQ2_0:
-        case GGML_TYPE_IQ2_XXS:
-        case GGML_TYPE_IQ2_XS:
-        case GGML_TYPE_IQ3_XXS:
-        case GGML_TYPE_IQ1_S:
-        case GGML_TYPE_IQ1_M:
-        case GGML_TYPE_IQ4_NL:
-        case GGML_TYPE_IQ4_XS:
-        case GGML_TYPE_IQ3_S:
-        case GGML_TYPE_IQ2_S:
-        case GGML_TYPE_Q4_0_4_4:
-        case GGML_TYPE_Q4_0_4_8:
-        case GGML_TYPE_Q4_0_8_8:
         default:
             {
                 GGML_ABORT("fatal error");
diff --git a/src/llama.cpp b/src/llama.cpp
@@ -5299,10 +5299,10 @@ static std::string llama_model_ftype_name(llama_ftype ftype) {
         case LLAMA_FTYPE_MOSTLY_Q4_0_4_8: return "Q4_0_4_8";
         case LLAMA_FTYPE_MOSTLY_Q4_0_8_8: return "Q4_0_8_8";
 
-        case LLAMA_FTYPE_MOSTLY_E5M2:   return "E5M2";
-        case LLAMA_FTYPE_MOSTLY_E4M3:   return "E4M3";
-        case LLAMA_FTYPE_MOSTLY_E4M3_Q: return "E4M3_Q";
-        case LLAMA_FTYPE_MOSTLY_E3M4_Q: return "E3M4_Q";
+        case LLAMA_FTYPE_MOSTLY_E5M2:     return "E5M2";
+        case LLAMA_FTYPE_MOSTLY_E4M3:     return "E4M3";
+        case LLAMA_FTYPE_MOSTLY_E4M3_Q:   return "E4M3_Q";
+        case LLAMA_FTYPE_MOSTLY_E3M4_Q:   return "E3M4_Q";
 
         default: return "unknown, may not work";
     }

Original file line number	Diff line number	Diff line change
`@@ -76,5 +76,5 @@ let package = Package(`
`76`	`76`	`linkerSettings: linkerSettings`
`77`	`77`	`)`
`78`	`78`	`],`
`79`		`- cxxLanguageStandard: .cxx17`
	`79`	`+ cxxLanguageStandard: .cxx11`
`80`	`80`	`)`