feat: use softmax_F32 for sampler. (#163)

b4rtaz · web-flow · commit 1e73dcb590e8 · 2025-02-15T16:27:02.000+01:00
diff --git a/Makefile b/Makefile
@@ -55,7 +55,7 @@ llm.o: src/llm.cpp
 	$(CXX) $(CXXFLAGS) -c $^ -o $@
 app.o: src/app.cpp
 	$(CXX) $(CXXFLAGS) -c $^ -o $@
-tokenizer-test: src/tokenizer-test.cpp tokenizer.o
+tokenizer-test: src/tokenizer-test.cpp nn-quants.o nn-core.o llamafile-sgemm.o nn-cpu-ops.o tokenizer.o
 	$(CXX) $(CXXFLAGS) $^ -o $@ $(LIBS)
 dllama: src/dllama.cpp nn-quants.o nn-core.o nn-executor.o nn-network.o llamafile-sgemm.o nn-cpu-ops.o nn-cpu.o tokenizer.o llm.o app.o
 	$(CXX) $(CXXFLAGS) $^ -o $@ $(LIBS)
diff --git a/src/app.cpp b/src/app.cpp
@@ -119,15 +119,6 @@ AppCliArgs::~AppCliArgs() {
         delete[] workerPorts;
 }
 
-Timer::Timer() {
-    startTime = std::chrono::high_resolution_clock::now();
-}
-
-NnSize Timer::elapsed() {
-    auto endTime = std::chrono::high_resolution_clock::now();
-    return (NnSize)std::chrono::duration_cast<std::chrono::milliseconds>(endTime - startTime).count();
-}
-
 RootLlmInference::RootLlmInference(LlmNet *net, NnDevice *device, NnNetExecution *execution, NnExecutor *executor, NnNetwork *network) {
     this->header = net->header;
     this->tokenPipe = (float *)execution->pipes[net->tokenPipeIndex];
diff --git a/src/app.hpp b/src/app.hpp
@@ -37,16 +37,6 @@ class AppCliArgs {
     ~AppCliArgs();
 };
 
-
-class Timer {
-private:
-    std::chrono::time_point<std::chrono::high_resolution_clock> startTime;
-public:
-    Timer();
-    NnSize elapsed();
-};
-
-
 typedef struct {
     NnSize position;
     NnSize batchSize; // 0 = stop signal
diff --git a/src/dllama-api.cpp b/src/dllama-api.cpp
@@ -187,7 +187,7 @@ class HttpRequest {
     }
 
     void writeNotFound() {
-        const char* data = "HTTP/1.1 404 Not Found\r\n";
+        const char *data = "HTTP/1.1 404 Not Found\r\n";
         writeSocket(serverSocket, data, strlen(data));
     }
 
@@ -218,7 +218,7 @@ class HttpRequest {
     }
 
     void writeStreamEndChunk() {
-        const char* endChunk = "0000\r\n\r\n";
+        const char *endChunk = "0000\r\n\r\n";
         writeSocket(serverSocket, endChunk, strlen(endChunk));
     }
 };
@@ -310,24 +310,24 @@ class NaiveCache {
 
 class ApiServer {
 private:
-    RootLlmInference* inference;
-    Tokenizer* tokenizer;
-    Sampler* sampler;
-    AppCliArgs* args;
-    LlmHeader* header;
-    EosDetector* eosDetector;
-    ChatTemplate* chatTemplate;
+    RootLlmInference *inference;
+    Tokenizer *tokenizer;
+    Sampler *sampler;
+    AppCliArgs *args;
+    LlmHeader *header;
+    EosDetector *eosDetector;
+    ChatTemplateGenerator *templateGenerator;
     NaiveCache naiveCache;
 
 public:
-    ApiServer( RootLlmInference* inference, Tokenizer* tokenizer, Sampler* sampler, AppCliArgs* args, LlmHeader* header, EosDetector* eosDetector, ChatTemplate* chatTemplate) {
+    ApiServer(RootLlmInference *inference, Tokenizer *tokenizer, Sampler *sampler, AppCliArgs *args, LlmHeader *header, EosDetector *eosDetector, ChatTemplateGenerator *templateGenerator) {
         this->inference = inference;
         this->tokenizer = tokenizer;
         this->sampler = sampler;
         this->args = args;
         this->header = header;
         this->eosDetector = eosDetector;
-        this->chatTemplate = chatTemplate;
+        this->templateGenerator = templateGenerator;
     }
 
     void complete(HttpRequest& request) {
@@ -345,7 +345,7 @@ class ApiServer {
             inputItems[i].message = deltaPrompt[i].content;
         }
 
-        GeneratedChat inputPrompt = chatTemplate->generate(nInputItems, inputItems, true);
+        GeneratedChat inputPrompt = templateGenerator->generate(nInputItems, inputItems, true);
         printf("🔹%s🔸", inputPrompt.content);
 
         int nPromptTokens;
@@ -484,7 +484,7 @@ class ApiServer {
     }
 };
 
-void handleCompletionsRequest(HttpRequest& request, ApiServer* api) {
+void handleCompletionsRequest(HttpRequest& request, ApiServer *api) {
     api->complete(request);
 }
 
@@ -500,9 +500,9 @@ static void server(AppInferenceContext *context) {
     int serverSocket = createServerSocket(context->args->port);
 
     TokenizerChatStops stops(context->tokenizer);
-    ChatTemplate chatTemplate(context->args->chatTemplateType, context->tokenizer->chatTemplate, stops.stops[0]);
+    ChatTemplateGenerator templateGenerator(context->args->chatTemplateType, context->tokenizer->chatTemplate, stops.stops[0]);
     EosDetector eosDetector(stops.nStops, context->tokenizer->eosTokenIds.data(), stops.stops, stops.maxStopLength, stops.maxStopLength);
-    ApiServer api(context->inference, context->tokenizer, context->sampler, context->args, context->header, &eosDetector, &chatTemplate);
+    ApiServer api(context->inference, context->tokenizer, context->sampler, context->args, context->header, &eosDetector, &templateGenerator);
 
     printf("Server URL: http://127.0.0.1:%d/v1/\n", context->args->port);
 
diff --git a/src/dllama.cpp b/src/dllama.cpp
@@ -52,12 +52,12 @@ static void inference(AppInferenceContext *context) {
         if (context->network != nullptr)
             context->network->getStats(&sentBytes, &recvBytes);
         printf("🔷️ E%5u ms S%6zu kB R%6zu kB (%d tokens)\n",
-            batchTimer.elapsed(),
+            batchTimer.elapsedMiliseconds(),
             sentBytes / 1024,
             recvBytes / 1024,
             batchSize);
     }
-    NnSize evalTime = evalTimer.elapsed();
+    NnSize evalTime = evalTimer.elapsedMiliseconds();
 
     fflush(stdout);
 
@@ -80,13 +80,13 @@ static void inference(AppInferenceContext *context) {
             context->network->getStats(&sentBytes, &recvBytes);
 
         printf("🔶 P%5u ms S%6zu kB R%6zu kB %s\n",
-            tokenTimer.elapsed(),
+            tokenTimer.elapsedMiliseconds(),
             sentBytes / 1024,
             recvBytes / 1024,
             piece == nullptr ? "~" : piece);
         fflush(stdout);
     }
-    NnSize predTime = predTimer.elapsed();
+    NnSize predTime = predTimer.elapsedMiliseconds();
 
     NnSize nEvalTokens = nInputTokens - 1;
     NnSize nPredTokens = pos - nEvalTokens;
@@ -123,7 +123,7 @@ static void chat(AppInferenceContext *context) {
     char prompt[2048];
 
     TokenizerChatStops stops(context->tokenizer);
-    ChatTemplate chatTemplate(context->args->chatTemplateType, context->tokenizer->chatTemplate, stops.stops[0]);
+    ChatTemplateGenerator templateGenerator(context->args->chatTemplateType, context->tokenizer->chatTemplate, stops.stops[0]);
     EosDetector eosDetector(stops.nStops, context->tokenizer->eosTokenIds.data(), stops.stops, stops.maxStopLength, stops.maxStopLength);
 
     const size_t sysPromptLength = readStdin("💻 System prompt (optional): ", prompt, sizeof(prompt));
@@ -142,7 +142,7 @@ static void chat(AppInferenceContext *context) {
 
         deltaItems.push_back(ChatItem{"user", prompt});
 
-        GeneratedChat inputPrompt = chatTemplate.generate(deltaItems.size(), deltaItems.data(), true);
+        GeneratedChat inputPrompt = templateGenerator.generate(deltaItems.size(), deltaItems.data(), true);
         std::unique_ptr<int[]> inputTokensPtr(new int[inputPrompt.length + 2]);
         int *inputTokens = inputTokensPtr.get();
 
diff --git a/src/nn/nn-core.cpp b/src/nn/nn-core.cpp
@@ -165,6 +165,20 @@ void printNodeRequiredMemory(NnNetConfig *netConfig, NnNodeConfig *nodeConfig) {
     printf("📀 RequiredMemory: %lu kB\n", total / 1024);
 }
 
+Timer::Timer() {
+    startTime = std::chrono::high_resolution_clock::now();
+}
+
+NnSize Timer::elapsedMiliseconds() {
+    auto endTime = std::chrono::high_resolution_clock::now();
+    return (NnSize)std::chrono::duration_cast<std::chrono::milliseconds>(endTime - startTime).count();
+}
+
+NnSize Timer::elapsedMicroseconds() {
+    auto endTime = std::chrono::high_resolution_clock::now();
+    return (NnSize)std::chrono::duration_cast<std::chrono::microseconds>(endTime - startTime).count();
+}
+
 // slicers
 
 NnKvCacheSlice sliceKvCache(NnSize kvDim, NnSize seqLen, NnSize nNodes) {
diff --git a/src/nn/nn-core.hpp b/src/nn/nn-core.hpp
@@ -1,6 +1,7 @@
 #ifndef NN_CORE_H
 #define NN_CORE_H
 
+#include <chrono>
 #include <list>
 #include <memory>
 #include <cstdint>
@@ -262,6 +263,15 @@ void releaseNodeConfig(NnNodeConfig *nodeConfig);
 
 void printNodeRequiredMemory(NnNetConfig *netConfig, NnNodeConfig *nodeConfig);
 
+class Timer {
+private:
+    std::chrono::time_point<std::chrono::high_resolution_clock> startTime;
+public:
+    Timer();
+    NnSize elapsedMiliseconds();
+    NnSize elapsedMicroseconds();
+};
+
 // slicers
 
 NnKvCacheSlice sliceKvCache(NnSize kvDim, NnSize seqLen, NnSize nNodes);
diff --git a/src/nn/nn-cpu-ops.cpp b/src/nn/nn-cpu-ops.cpp
@@ -586,7 +586,7 @@ static void add_Q80_F32(float *y, const NnBlockQ80 *x, const NnSize n, const NnS
 #endif
 }
 
-static void softmax_F32(float *x, const NnSize size) {
+void softmax_F32(float *x, const NnSize size) {
     if (size == 0)
         return;
 
diff --git a/src/nn/nn-cpu-ops.hpp b/src/nn/nn-cpu-ops.hpp
@@ -38,4 +38,6 @@ void printCpuInstructionSet();
 NnCpuOpForwardInit getCpuOpForwardInit(NnOpCode code, NnOpQuantType quantType);
 NnCpuOpForward getCpuOpForward(NnOpCode code, NnOpQuantType quantType);
 
+void softmax_F32(float *x, const NnSize size);
+
 #endif
diff --git a/src/nn/nn-executor.cpp b/src/nn/nn-executor.cpp
@@ -1,10 +1,9 @@
 #include <cassert>
-#include <chrono>
 #include <cstring>
 #include <stdexcept>
 #include "nn-executor.hpp"
 
-#define DEBUG_BENCHMARK false
+#define DEBUG_EXECUTOR_BENCHMARK false
 
 void NnFakeNodeSynchronizer::sync(NnSize segmentIndex, NnSize nThreads, NnSize threadIndex) {
     // Nothing
@@ -98,10 +97,10 @@ void NnExecutor::loadWeight(const char *name, NnSize index, NnSize nBytes, NnByt
 }
 
 inline void executeStep(NnExecutorStep *step, NnSize nThreads, NnExecutorThread *thread, NnExecutorContext *context) {
-    #if DEBUG_BENCHMARK
+#if DEBUG_EXECUTOR_BENCHMARK
     assert(nThreads == 1);
-    auto startTime = std::chrono::high_resolution_clock::now();
-    #endif
+    Timer startTime;
+#endif
 
     if (step->type == STEP_EXECUTE_OP) {
         step->segment->forward(step->arg0, nThreads, thread->threadIndex, context->batchSize);
@@ -114,14 +113,13 @@ inline void executeStep(NnExecutorStep *step, NnSize nThreads, NnExecutorThread
         throw std::invalid_argument("Unsupported step type");
     }
 
-    #if DEBUG_BENCHMARK
-    auto endTime = std::chrono::high_resolution_clock::now();
-    NnSize duration = (NnSize)std::chrono::duration_cast<std::chrono::microseconds>(endTime - startTime).count();
+#if DEBUG_EXECUTOR_BENCHMARK
+    NnSize duration = startTime.elapsedMicroseconds();
     if (step->type == STEP_EXECUTE_OP)
         printf("🕒 [OP %16s %2d] %u μs\n", opCodeToString(step->opConfig->code), step->opConfig->index, duration);
     else if (step->type == STEP_SYNC_NODES)
         printf("🕒 [SYNC %17d] %u μs\n", step->arg0, duration);
-    #endif
+#endif
 }
 
 static inline void *executorThreadHandler(void *arg) {
diff --git a/src/tokenizer-test.cpp b/src/tokenizer-test.cpp
@@ -101,7 +101,7 @@ void dev_testDecoderEmojiWithEos(Tokenizer *tokenizer) {
 }
 
 void testChatTemplateDetection() {
-    ChatTemplate t0(TEMPLATE_UNKNOWN, "{\% set loop_messages = messages \%}{\% for message in loop_messages \%}{\% set content = '<|start_header_id|>' + message['role'] + '<|end_header_id|>\n\n'+ message['content'] | trim + '<|eot_id|>' \%}{\% if loop.index0 == 0 \%}{\% set content = bos_token + content \%}{\% endif \%}{{ content }}{\% endfor \%}{\% if add_generation_prompt \%}{{ '<|start_header_id|>assistant<|end_header_id|>\n\n' }}{\% endif \%}", "<eos>");
+    ChatTemplateGenerator t0(TEMPLATE_UNKNOWN, "{\% set loop_messages = messages \%}{\% for message in loop_messages \%}{\% set content = '<|start_header_id|>' + message['role'] + '<|end_header_id|>\n\n'+ message['content'] | trim + '<|eot_id|>' \%}{\% if loop.index0 == 0 \%}{\% set content = bos_token + content \%}{\% endif \%}{{ content }}{\% endfor \%}{\% if add_generation_prompt \%}{{ '<|start_header_id|>assistant<|end_header_id|>\n\n' }}{\% endif \%}", "<eos>");
     assert(t0.type == TEMPLATE_LLAMA3);
 
     printOk("chatTemplateDetection");
diff --git a/src/tokenizer.cpp b/src/tokenizer.cpp
diff --git a/src/tokenizer.hpp b/src/tokenizer.hpp

Original file line number	Diff line number	Diff line change
`@@ -586,7 +586,7 @@ static void add_Q80_F32(float y, const NnBlockQ80 x, const NnSize n, const NnS`
`586`	`586`	`#endif`
`587`	`587`	`}`
`588`	`588`
`589`		`-static void softmax_F32(float *x, const NnSize size) {`
	`589`	`+void softmax_F32(float *x, const NnSize size) {`
`590`	`590`	`if (size == 0)`
`591`	`591`	`return;`
`592`	`592`
Original file line number	Diff line number	Diff line change
`@@ -101,7 +101,7 @@ void dev_testDecoderEmojiWithEos(Tokenizer *tokenizer) {`
`101`	`101`	`}`
`102`	`102`
`103`	`103`	`void testChatTemplateDetection() {`
`104`		`- ChatTemplate t0(TEMPLATE_UNKNOWN, "{\% set loop_messages = messages \%}{\% for message in loop_messages \%}{\% set content = '<\|start_header_id\|>' + message['role'] + '<\|end_header_id\|>\n\n'+ message['content'] \| trim + '<\|eot_id\|>' \%}{\% if loop.index0 == 0 \%}{\% set content = bos_token + content \%}{\% endif \%}{{ content }}{\% endfor \%}{\% if add_generation_prompt \%}{{ '<\|start_header_id\|>assistant<\|end_header_id\|>\n\n' }}{\% endif \%}", "<eos>");`
	`104`	`+ ChatTemplateGenerator t0(TEMPLATE_UNKNOWN, "{\% set loop_messages = messages \%}{\% for message in loop_messages \%}{\% set content = '<\|start_header_id\|>' + message['role'] + '<\|end_header_id\|>\n\n'+ message['content'] \| trim + '<\|eot_id\|>' \%}{\% if loop.index0 == 0 \%}{\% set content = bos_token + content \%}{\% endif \%}{{ content }}{\% endfor \%}{\% if add_generation_prompt \%}{{ '<\|start_header_id\|>assistant<\|end_header_id\|>\n\n' }}{\% endif \%}", "<eos>");`
`105`	`105`	`assert(t0.type == TEMPLATE_LLAMA3);`
`106`	`106`
`107`	`107`	`printOk("chatTemplateDetection");`