修改『C1-1.大型语言模型 LLM 理论简介』中 typo，增加以及更正资讯。

* Update 1.大型语言模型 LLM 理论简介.md
datawhalechina · Apr 16, 2024 · 8399838 · 8399838
1 parent ca2b905
commit 8399838
Show file tree

Hide file tree

Showing 2 changed files with 24 additions and 24 deletions.
diff --git a/docs/C1/1.大语言模型 LLM 理论简介.md b/docs/C1/1.大语言模型 LLM 理论简介.md
@@ -74,18 +74,18 @@ ChatGPT 从本质上来说是一个 LLM 应用，是基于基座模型开发出
 GPT3.5 是免费的，而 GPT-4 是收费的。需要开通 plus 会员 20 美元/月。
 
 通常我们可以调用模型 API 来开发自己的应用，主流模型 [API 对比](https://openai.com/pricing)如下：
-| 语言模型名称 | 上下文长度 | 特点 | input 费用($/million tokens) | output 费用($/ 1M tokens) |
-| :---: | :---: | :---: | :---: | :---: |
-| GPT-3.5-turbo-0125 | 16k | 经济，专门对话 | 0.5 | 1.5 |
-| GPT-3.5-turbo-instruct | 4k | 指令模型 |  1.5 | 2 |
-| GPT-4 | 8k | 性能更强 | 30 | 60 |
-| GPT-4-32k | 32k | 性能强，长上下文 | 60 | 120 |
-| GPT-4-turbo | 128k | 性能最强 | 10 | 30 |
+| 语言模型名称 | 上下文长度 | 特点 | input 费用($/million tokens) | output 费用($/ 1M tokens) | 知识截止日期 |
+| :---: | :---: | :---: | :---: | :---: | :---: |
+| GPT-3.5-turbo-0125 | 16k | 经济，专门对话 | 0.5 | 1.5 | 2021 年 9 月 |
+| GPT-3.5-turbo-instruct | 4k | 指令模型 |  1.5 | 2 | 2021 年 9 月 |
+| GPT-4 | 8k | 性能更强 | 30 | 60 | 2021 年 9 月 |
+| GPT-4-32k | 32k | 性能强，长上下文 | 60 | 120 | 2021 年 9 月 |
+| GPT-4-turbo | 128k | 性能最强 | 10 | 30 | 2023 年 12 月 |
 
 |  Embedding 模型名称 | 维度 | 特点 | 费用($/ 1M tokens) |
 | :---: | :---: | :---: | :---: |
 |text-embedding-3-small |  512/1536 | 较小 |  0.02 | 
-| text-embedding-3-large | 256/1024.3072 | 较大 | 0.13 |
+| text-embedding-3-large | 256/1024/3072 | 较大 | 0.13 |
 | ada v2 | 1536 | 传统 | 0.1 |
 
 ##### 1.3.1.2 Claude 系列
@@ -141,7 +141,7 @@ Claude 3 系列包括三个不同的模型，分别是 Claude 3 Haiku、Claude 3
 
 > [星火大模型使用地址](https://xinghuo.xfyun.cn)
 
-**讯飞星火认知大模型**是**科大讯飞**发布的语言大模型，支持多种自然语言处理任务。该模型于 `2023 年 5 月`首次发布，后续经过多次升级。`2023 年 10 月`，讯飞发布了**讯飞星火认知大模型 V3.0**。
+**讯飞星火认知大模型**是**科大讯飞**发布的语言大模型，支持多种自然语言处理任务。该模型于 `2023 年 5 月`首次发布，后续经过多次升级。`2023 年 10 月`，讯飞发布了**讯飞星火认知大模型 V3.0**。`2024 年 1 月`，讯飞发布了**讯飞星火认知大模型 V3.5**，在语言理解，文本生成，知识问答等七个方面进行了升级，并且支持system指令，插件调用等多项功能。
 
 ![讯飞发布会](../figures/C1-1-xunfei.jpg)
 
@@ -157,7 +157,7 @@ Claude 3 系列包括三个不同的模型，分别是 Claude 3 Haiku、Claude 3
 >
 > [LLaMA 开源地址](https://github.com/facebookresearch/llama)
 
-**LLaMA 系列模型**是 **Meta** 开源的一组参数规模 **从 7B 到 70B** 的基础语言模型。LlaMa 于`2023 年 2 月`发布，并于 `2023 年 7 月`发布了 **LlaMa2** 模型。它们都是在数万亿个字符上训练的，展示了如何**仅使用公开可用的数据集来训练最先进的模型**，而不需要依赖专有或不可访问的数据集。这些数据集包括 Common Crawl、Wikipedia、OpenWebText2、RealNews、Books 等。LLaMA 模型使用了**大规模的数据过滤和清洗技术**，以提高数据质量和多样性，减少噪声和偏见。LLaMA 模型还使用了高效的**数据并行**和**流水线并行**技术，以加速模型的训练和扩展。特别地，LLaMA 13B 在 CommonsenseQA 等 9 个基准测试中超过了 GPT-3 (175B)，而 **LLaMA 65B 与最优秀的模型 Chinchilla-70B 和 PaLM-540B 相媲美**。LLaMA 通过使用更少的字符来达到最佳性能，从而在各种推理预算下具有优势。
+**LLaMA 系列模型**是 **Meta** 开源的一组参数规模 **从 7B 到 70B** 的基础语言模型。LLaMA 于`2023 年 2 月`发布，并于 `2023 年 7 月`发布了 **LLaMA2** 模型。它们都是在数万亿个字符上训练的，展示了如何**仅使用公开可用的数据集来训练最先进的模型**，而不需要依赖专有或不可访问的数据集。这些数据集包括 Common Crawl、Wikipedia、OpenWebText2、RealNews、Books 等。LLaMA 模型使用了**大规模的数据过滤和清洗技术**，以提高数据质量和多样性，减少噪声和偏见。LLaMA 模型还使用了高效的**数据并行**和**流水线并行**技术，以加速模型的训练和扩展。特别地，LLaMA 13B 在 CommonsenseQA 等 9 个基准测试中超过了 GPT-3 (175B)，而 **LLaMA 65B 与最优秀的模型 Chinchilla-70B 和 PaLM-540B 相媲美**。LLaMA 通过使用更少的字符来达到最佳性能，从而在各种推理预算下具有优势。
 
 与 GPT 系列相同，LLaMA 模型也采用了 **decoder-only** 架构，同时结合了一些前人工作的改进：
 
@@ -179,7 +179,7 @@ Claude 3 系列包括三个不同的模型，分别是 Claude 3 Haiku、Claude 3
 >
 > [通义千问开源地址](https://github.com/QwenLM/Qwen1.5)
 
-**通义千问由阿里巴巴基于“通义”大模型研发**，于 `2023 年 4 月`正式发布。2023 年 8 月，阿里云开源了 Qwen（通义千问）系列工作。并于 `2024 年 2 月 5 日`，开源了 **Qwen1.5**（Qwen2 的测试版）是一个 **decoder-Only** 的模型，采用 `SwiGLU 激活`、`RoPE`、`multi-head attention`的架构。中文能力相对来说非常不错的闭源模型。
+**通义千问由阿里巴巴基于“通义”大模型研发**，于 `2023 年 4 月`正式发布。2023 年 9 月，阿里云开源了 Qwen（通义千问）系列工作。并于 `2024 年 2 月 5 日`，开源了 **Qwen1.5**（Qwen2 的测试版）是一个 **decoder-Only** 的模型，采用 `SwiGLU 激活`、`RoPE`、`multi-head attention`的架构。中文能力相对来说非常不错的闭源模型。
 
 目前，已经开源了 7 种模型大小：**0.5B、1.8B、4B、7B、14B 、72B 的 Dense 模型和 14B (A2.7B)的 MoE 模型**；所有模型均支持长度为 **32768  token** 的上下文；
 
@@ -284,4 +284,4 @@ LLM 已经在许多领域产生了深远的影响。在**自然语言处理**领
 【**参考内容**】：
 1. [A Survey of Large Language Models
 ](https://arxiv.org/abs/2303.18223)
-1. [周枫：当我们谈论大模型时，应该关注哪些新能力？](https://xueqiu.com/1389978604/248392718)
+1. [周枫：当我们谈论大模型时，应该关注哪些新能力？](https://xueqiu.com/1389978604/248392718)
diff --git a/notebook/C1 大型语言模型 LLM 介绍/1.大型语言模型 LLM 理论简介.md b/notebook/C1 大型语言模型 LLM 介绍/1.大型语言模型 LLM 理论简介.md
@@ -74,18 +74,18 @@ ChatGPT 从本质上来说是一个 LLM 应用，是基于基座模型开发出
 GPT3.5 是免费的，而 GPT-4 是收费的。需要开通 plus 会员 20 美元/月。
 
 通常我们可以调用模型 API 来开发自己的应用，主流模型 [API 对比](https://openai.com/pricing)如下：
-| 语言模型名称 | 上下文长度 | 特点 | input 费用($/million tokens) | output 费用($/ 1M tokens) |
-| :---: | :---: | :---: | :---: | :---: |
-| GPT-3.5-turbo-0125 | 16k | 经济，专门对话 | 0.5 | 1.5 |
-| GPT-3.5-turbo-instruct | 4k | 指令模型 |  1.5 | 2 |
-| GPT-4 | 8k | 性能更强 | 30 | 60 |
-| GPT-4-32k | 32k | 性能强，长上下文 | 60 | 120 |
-| GPT-4-turbo | 128k | 性能最强 | 10 | 30 |
+| 语言模型名称 | 上下文长度 | 特点 | input 费用($/million tokens) | output 费用($/ 1M tokens) | 知识截止日期 |
+| :---: | :---: | :---: | :---: | :---: | :---: |
+| GPT-3.5-turbo-0125 | 16k | 经济，专门对话 | 0.5 | 1.5 | 2021 年 9 月 |
+| GPT-3.5-turbo-instruct | 4k | 指令模型 |  1.5 | 2 | 2021 年 9 月 |
+| GPT-4 | 8k | 性能更强 | 30 | 60 | 2021 年 9 月 |
+| GPT-4-32k | 32k | 性能强，长上下文 | 60 | 120 | 2021 年 9 月 |
+| GPT-4-turbo | 128k | 性能最强 | 10 | 30 | 2023 年 12 月 |
 
 |  Embedding 模型名称 | 维度 | 特点 | 费用($/ 1M tokens) |
 | :---: | :---: | :---: | :---: |
 |text-embedding-3-small |  512/1536 | 较小 |  0.02 | 
-| text-embedding-3-large | 256/1024.3072 | 较大 | 0.13 |
+| text-embedding-3-large | 256/1024/3072 | 较大 | 0.13 |
 | ada v2 | 1536 | 传统 | 0.1 |
 
 ##### 1.3.1.2 Claude 系列
@@ -141,7 +141,7 @@ Claude 3 系列包括三个不同的模型，分别是 Claude 3 Haiku、Claude 3
 
 > [星火大模型使用地址](https://xinghuo.xfyun.cn)
 
-**讯飞星火认知大模型**是**科大讯飞**发布的语言大模型，支持多种自然语言处理任务。该模型于 `2023 年 5 月`首次发布，后续经过多次升级。`2023 年 10 月`，讯飞发布了**讯飞星火认知大模型 V3.0**。
+**讯飞星火认知大模型**是**科大讯飞**发布的语言大模型，支持多种自然语言处理任务。该模型于 `2023 年 5 月`首次发布，后续经过多次升级。`2023 年 10 月`，讯飞发布了**讯飞星火认知大模型 V3.0**。`2024 年 1 月`，讯飞发布了**讯飞星火认知大模型 V3.5**，在语言理解，文本生成，知识问答等七个方面进行了升级，并且支持system指令，插件调用等多项功能。
 
 ![讯飞发布会](../../figures/C1-1-xunfei.jpg)
 
@@ -157,7 +157,7 @@ Claude 3 系列包括三个不同的模型，分别是 Claude 3 Haiku、Claude 3
 >
 > [LLaMA 开源地址](https://github.com/facebookresearch/llama)
 
-**LLaMA 系列模型**是 **Meta** 开源的一组参数规模 **从 7B 到 70B** 的基础语言模型。LlaMa 于`2023 年 2 月`发布，并于 `2023 年 7 月`发布了 **LlaMa2** 模型。它们都是在数万亿个字符上训练的，展示了如何**仅使用公开可用的数据集来训练最先进的模型**，而不需要依赖专有或不可访问的数据集。这些数据集包括 Common Crawl、Wikipedia、OpenWebText2、RealNews、Books 等。LLaMA 模型使用了**大规模的数据过滤和清洗技术**，以提高数据质量和多样性，减少噪声和偏见。LLaMA 模型还使用了高效的**数据并行**和**流水线并行**技术，以加速模型的训练和扩展。特别地，LLaMA 13B 在 CommonsenseQA 等 9 个基准测试中超过了 GPT-3 (175B)，而 **LLaMA 65B 与最优秀的模型 Chinchilla-70B 和 PaLM-540B 相媲美**。LLaMA 通过使用更少的字符来达到最佳性能，从而在各种推理预算下具有优势。
+**LLaMA 系列模型**是 **Meta** 开源的一组参数规模 **从 7B 到 70B** 的基础语言模型。LLaMA 于`2023 年 2 月`发布，并于 `2023 年 7 月`发布了 **LLaMA2** 模型。它们都是在数万亿个字符上训练的，展示了如何**仅使用公开可用的数据集来训练最先进的模型**，而不需要依赖专有或不可访问的数据集。这些数据集包括 Common Crawl、Wikipedia、OpenWebText2、RealNews、Books 等。LLaMA 模型使用了**大规模的数据过滤和清洗技术**，以提高数据质量和多样性，减少噪声和偏见。LLaMA 模型还使用了高效的**数据并行**和**流水线并行**技术，以加速模型的训练和扩展。特别地，LLaMA 13B 在 CommonsenseQA 等 9 个基准测试中超过了 GPT-3 (175B)，而 **LLaMA 65B 与最优秀的模型 Chinchilla-70B 和 PaLM-540B 相媲美**。LLaMA 通过使用更少的字符来达到最佳性能，从而在各种推理预算下具有优势。
 
 与 GPT 系列相同，LLaMA 模型也采用了 **decoder-only** 架构，同时结合了一些前人工作的改进：
 
@@ -179,7 +179,7 @@ Claude 3 系列包括三个不同的模型，分别是 Claude 3 Haiku、Claude 3
 >
 > [通义千问开源地址](https://github.com/QwenLM/Qwen1.5)
 
-**通义千问由阿里巴巴基于“通义”大模型研发**，于 `2023 年 4 月`正式发布。2023 年 8 月，阿里云开源了 Qwen（通义千问）系列工作。并于 `2024 年 2 月 5 日`，开源了 **Qwen1.5**（Qwen2 的测试版）是一个 **decoder-Only** 的模型，采用 `SwiGLU 激活`、`RoPE`、`multi-head attention`的架构。中文能力相对来说非常不错的闭源模型。
+**通义千问由阿里巴巴基于“通义”大模型研发**，于 `2023 年 4 月`正式发布。2023 年 9 月，阿里云开源了 Qwen（通义千问）系列工作。并于 `2024 年 2 月 5 日`，开源了 **Qwen1.5**（Qwen2 的测试版）是一个 **decoder-Only** 的模型，采用 `SwiGLU 激活`、`RoPE`、`multi-head attention`的架构。中文能力相对来说非常不错的闭源模型。
 
 目前，已经开源了 7 种模型大小：**0.5B、1.8B、4B、7B、14B 、72B 的 Dense 模型和 14B (A2.7B)的 MoE 模型**；所有模型均支持长度为 **32768  token** 的上下文；
 
@@ -284,4 +284,4 @@ LLM 已经在许多领域产生了深远的影响。在**自然语言处理**领
 【**参考内容**】：
 1. [A Survey of Large Language Models
 ](https://arxiv.org/abs/2303.18223)
-1. [周枫：当我们谈论大模型时，应该关注哪些新能力？](https://xueqiu.com/1389978604/248392718)
+1. [周枫：当我们谈论大模型时，应该关注哪些新能力？](https://xueqiu.com/1389978604/248392718)