Skip to content

Commit

Permalink
修改 『C1-1.大型语言模型 LLM 理论简介』中 typo,增加以及更正资讯。
Browse files Browse the repository at this point in the history
* Update 1.大型语言模型 LLM 理论简介.md
  • Loading branch information
tackhwa authored Apr 16, 2024
1 parent ca2b905 commit 8399838
Show file tree
Hide file tree
Showing 2 changed files with 24 additions and 24 deletions.
24 changes: 12 additions & 12 deletions docs/C1/1.大语言模型 LLM 理论简介.md
Original file line number Diff line number Diff line change
Expand Up @@ -74,18 +74,18 @@ ChatGPT 从本质上来说是一个 LLM 应用,是基于基座模型开发出
GPT3.5 是免费的,而 GPT-4 是收费的。需要开通 plus 会员 20 美元/月。

通常我们可以调用模型 API 来开发自己的应用,主流模型 [API 对比](https://openai.com/pricing)如下:
| 语言模型名称 | 上下文长度 | 特点 | input 费用($/million tokens) | output 费用($/ 1M tokens) |
| :---: | :---: | :---: | :---: | :---: |
| GPT-3.5-turbo-0125 | 16k | 经济,专门对话 | 0.5 | 1.5 |
| GPT-3.5-turbo-instruct | 4k | 指令模型 | 1.5 | 2 |
| GPT-4 | 8k | 性能更强 | 30 | 60 |
| GPT-4-32k | 32k | 性能强,长上下文 | 60 | 120 |
| GPT-4-turbo | 128k | 性能最强 | 10 | 30 |
| 语言模型名称 | 上下文长度 | 特点 | input 费用($/million tokens) | output 费用($/ 1M tokens) | 知识截止日期 |
| :---: | :---: | :---: | :---: | :---: | :---: |
| GPT-3.5-turbo-0125 | 16k | 经济,专门对话 | 0.5 | 1.5 | 2021 年 9 月 |
| GPT-3.5-turbo-instruct | 4k | 指令模型 | 1.5 | 2 | 2021 年 9 月 |
| GPT-4 | 8k | 性能更强 | 30 | 60 | 2021 年 9 月 |
| GPT-4-32k | 32k | 性能强,长上下文 | 60 | 120 | 2021 年 9 月 |
| GPT-4-turbo | 128k | 性能最强 | 10 | 30 | 2023 年 12 月 |

| Embedding 模型名称 | 维度 | 特点 | 费用($/ 1M tokens) |
| :---: | :---: | :---: | :---: |
|text-embedding-3-small | 512/1536 | 较小 | 0.02 |
| text-embedding-3-large | 256/1024.3072 | 较大 | 0.13 |
| text-embedding-3-large | 256/1024/3072 | 较大 | 0.13 |
| ada v2 | 1536 | 传统 | 0.1 |

##### 1.3.1.2 Claude 系列
Expand Down Expand Up @@ -141,7 +141,7 @@ Claude 3 系列包括三个不同的模型,分别是 Claude 3 Haiku、Claude 3

> [星火大模型使用地址](https://xinghuo.xfyun.cn)
**讯飞星火认知大模型****科大讯飞**发布的语言大模型,支持多种自然语言处理任务。该模型于 `2023 年 5 月`首次发布,后续经过多次升级。`2023 年 10 月`,讯飞发布了**讯飞星火认知大模型 V3.0**
**讯飞星火认知大模型****科大讯飞**发布的语言大模型,支持多种自然语言处理任务。该模型于 `2023 年 5 月`首次发布,后续经过多次升级。`2023 年 10 月`,讯飞发布了**讯飞星火认知大模型 V3.0**`2024 年 1 月`,讯飞发布了**讯飞星火认知大模型 V3.5**,在语言理解,文本生成,知识问答等七个方面进行了升级,并且支持system指令,插件调用等多项功能。

![讯飞发布会](../figures/C1-1-xunfei.jpg)

Expand All @@ -157,7 +157,7 @@ Claude 3 系列包括三个不同的模型,分别是 Claude 3 Haiku、Claude 3
>
> [LLaMA 开源地址](https://github.com/facebookresearch/llama)
**LLaMA 系列模型****Meta** 开源的一组参数规模 **从 7B 到 70B** 的基础语言模型。LlaMa`2023 年 2 月`发布,并于 `2023 年 7 月`发布了 **LlaMa2** 模型。它们都是在数万亿个字符上训练的,展示了如何**仅使用公开可用的数据集来训练最先进的模型**,而不需要依赖专有或不可访问的数据集。这些数据集包括 Common Crawl、Wikipedia、OpenWebText2、RealNews、Books 等。LLaMA 模型使用了**大规模的数据过滤和清洗技术**,以提高数据质量和多样性,减少噪声和偏见。LLaMA 模型还使用了高效的**数据并行****流水线并行**技术,以加速模型的训练和扩展。特别地,LLaMA 13B 在 CommonsenseQA 等 9 个基准测试中超过了 GPT-3 (175B),而 **LLaMA 65B 与最优秀的模型 Chinchilla-70B 和 PaLM-540B 相媲美**。LLaMA 通过使用更少的字符来达到最佳性能,从而在各种推理预算下具有优势。
**LLaMA 系列模型****Meta** 开源的一组参数规模 **从 7B 到 70B** 的基础语言模型。LLaMA`2023 年 2 月`发布,并于 `2023 年 7 月`发布了 **LLaMA2** 模型。它们都是在数万亿个字符上训练的,展示了如何**仅使用公开可用的数据集来训练最先进的模型**,而不需要依赖专有或不可访问的数据集。这些数据集包括 Common Crawl、Wikipedia、OpenWebText2、RealNews、Books 等。LLaMA 模型使用了**大规模的数据过滤和清洗技术**,以提高数据质量和多样性,减少噪声和偏见。LLaMA 模型还使用了高效的**数据并行****流水线并行**技术,以加速模型的训练和扩展。特别地,LLaMA 13B 在 CommonsenseQA 等 9 个基准测试中超过了 GPT-3 (175B),而 **LLaMA 65B 与最优秀的模型 Chinchilla-70B 和 PaLM-540B 相媲美**。LLaMA 通过使用更少的字符来达到最佳性能,从而在各种推理预算下具有优势。

与 GPT 系列相同,LLaMA 模型也采用了 **decoder-only** 架构,同时结合了一些前人工作的改进:

Expand All @@ -179,7 +179,7 @@ Claude 3 系列包括三个不同的模型,分别是 Claude 3 Haiku、Claude 3
>
> [通义千问开源地址](https://github.com/QwenLM/Qwen1.5)
**通义千问由阿里巴巴基于“通义”大模型研发**,于 `2023 年 4 月`正式发布。2023 年 8 月,阿里云开源了 Qwen(通义千问)系列工作。并于 `2024 年 2 月 5 日`,开源了 **Qwen1.5**(Qwen2 的测试版)是一个 **decoder-Only** 的模型,采用 `SwiGLU 激活``RoPE``multi-head attention`的架构。中文能力相对来说非常不错的闭源模型。
**通义千问由阿里巴巴基于“通义”大模型研发**,于 `2023 年 4 月`正式发布。2023 年 9 月,阿里云开源了 Qwen(通义千问)系列工作。并于 `2024 年 2 月 5 日`,开源了 **Qwen1.5**(Qwen2 的测试版)是一个 **decoder-Only** 的模型,采用 `SwiGLU 激活``RoPE``multi-head attention`的架构。中文能力相对来说非常不错的闭源模型。

目前,已经开源了 7 种模型大小:**0.5B、1.8B、4B、7B、14B 、72B 的 Dense 模型和 14B (A2.7B)的 MoE 模型**;所有模型均支持长度为 **32768 token** 的上下文;

Expand Down Expand Up @@ -284,4 +284,4 @@ LLM 已经在许多领域产生了深远的影响。在**自然语言处理**领
**参考内容**】:
1. [A Survey of Large Language Models
](https://arxiv.org/abs/2303.18223)
1. [周枫:当我们谈论大模型时,应该关注哪些新能力?](https://xueqiu.com/1389978604/248392718)
1. [周枫:当我们谈论大模型时,应该关注哪些新能力?](https://xueqiu.com/1389978604/248392718)
Original file line number Diff line number Diff line change
Expand Up @@ -74,18 +74,18 @@ ChatGPT 从本质上来说是一个 LLM 应用,是基于基座模型开发出
GPT3.5 是免费的,而 GPT-4 是收费的。需要开通 plus 会员 20 美元/月。

通常我们可以调用模型 API 来开发自己的应用,主流模型 [API 对比](https://openai.com/pricing)如下:
| 语言模型名称 | 上下文长度 | 特点 | input 费用($/million tokens) | output 费用($/ 1M tokens) |
| :---: | :---: | :---: | :---: | :---: |
| GPT-3.5-turbo-0125 | 16k | 经济,专门对话 | 0.5 | 1.5 |
| GPT-3.5-turbo-instruct | 4k | 指令模型 | 1.5 | 2 |
| GPT-4 | 8k | 性能更强 | 30 | 60 |
| GPT-4-32k | 32k | 性能强,长上下文 | 60 | 120 |
| GPT-4-turbo | 128k | 性能最强 | 10 | 30 |
| 语言模型名称 | 上下文长度 | 特点 | input 费用($/million tokens) | output 费用($/ 1M tokens) | 知识截止日期 |
| :---: | :---: | :---: | :---: | :---: | :---: |
| GPT-3.5-turbo-0125 | 16k | 经济,专门对话 | 0.5 | 1.5 | 2021 年 9 月 |
| GPT-3.5-turbo-instruct | 4k | 指令模型 | 1.5 | 2 | 2021 年 9 月 |
| GPT-4 | 8k | 性能更强 | 30 | 60 | 2021 年 9 月 |
| GPT-4-32k | 32k | 性能强,长上下文 | 60 | 120 | 2021 年 9 月 |
| GPT-4-turbo | 128k | 性能最强 | 10 | 30 | 2023 年 12 月 |

| Embedding 模型名称 | 维度 | 特点 | 费用($/ 1M tokens) |
| :---: | :---: | :---: | :---: |
|text-embedding-3-small | 512/1536 | 较小 | 0.02 |
| text-embedding-3-large | 256/1024.3072 | 较大 | 0.13 |
| text-embedding-3-large | 256/1024/3072 | 较大 | 0.13 |
| ada v2 | 1536 | 传统 | 0.1 |

##### 1.3.1.2 Claude 系列
Expand Down Expand Up @@ -141,7 +141,7 @@ Claude 3 系列包括三个不同的模型,分别是 Claude 3 Haiku、Claude 3

> [星火大模型使用地址](https://xinghuo.xfyun.cn)
**讯飞星火认知大模型****科大讯飞**发布的语言大模型,支持多种自然语言处理任务。该模型于 `2023 年 5 月`首次发布,后续经过多次升级。`2023 年 10 月`,讯飞发布了**讯飞星火认知大模型 V3.0**
**讯飞星火认知大模型****科大讯飞**发布的语言大模型,支持多种自然语言处理任务。该模型于 `2023 年 5 月`首次发布,后续经过多次升级。`2023 年 10 月`,讯飞发布了**讯飞星火认知大模型 V3.0**`2024 年 1 月`,讯飞发布了**讯飞星火认知大模型 V3.5**,在语言理解,文本生成,知识问答等七个方面进行了升级,并且支持system指令,插件调用等多项功能。

![讯飞发布会](../../figures/C1-1-xunfei.jpg)

Expand All @@ -157,7 +157,7 @@ Claude 3 系列包括三个不同的模型,分别是 Claude 3 Haiku、Claude 3
>
> [LLaMA 开源地址](https://github.com/facebookresearch/llama)
**LLaMA 系列模型****Meta** 开源的一组参数规模 **从 7B 到 70B** 的基础语言模型。LlaMa`2023 年 2 月`发布,并于 `2023 年 7 月`发布了 **LlaMa2** 模型。它们都是在数万亿个字符上训练的,展示了如何**仅使用公开可用的数据集来训练最先进的模型**,而不需要依赖专有或不可访问的数据集。这些数据集包括 Common Crawl、Wikipedia、OpenWebText2、RealNews、Books 等。LLaMA 模型使用了**大规模的数据过滤和清洗技术**,以提高数据质量和多样性,减少噪声和偏见。LLaMA 模型还使用了高效的**数据并行****流水线并行**技术,以加速模型的训练和扩展。特别地,LLaMA 13B 在 CommonsenseQA 等 9 个基准测试中超过了 GPT-3 (175B),而 **LLaMA 65B 与最优秀的模型 Chinchilla-70B 和 PaLM-540B 相媲美**。LLaMA 通过使用更少的字符来达到最佳性能,从而在各种推理预算下具有优势。
**LLaMA 系列模型****Meta** 开源的一组参数规模 **从 7B 到 70B** 的基础语言模型。LLaMA`2023 年 2 月`发布,并于 `2023 年 7 月`发布了 **LLaMA2** 模型。它们都是在数万亿个字符上训练的,展示了如何**仅使用公开可用的数据集来训练最先进的模型**,而不需要依赖专有或不可访问的数据集。这些数据集包括 Common Crawl、Wikipedia、OpenWebText2、RealNews、Books 等。LLaMA 模型使用了**大规模的数据过滤和清洗技术**,以提高数据质量和多样性,减少噪声和偏见。LLaMA 模型还使用了高效的**数据并行****流水线并行**技术,以加速模型的训练和扩展。特别地,LLaMA 13B 在 CommonsenseQA 等 9 个基准测试中超过了 GPT-3 (175B),而 **LLaMA 65B 与最优秀的模型 Chinchilla-70B 和 PaLM-540B 相媲美**。LLaMA 通过使用更少的字符来达到最佳性能,从而在各种推理预算下具有优势。

与 GPT 系列相同,LLaMA 模型也采用了 **decoder-only** 架构,同时结合了一些前人工作的改进:

Expand All @@ -179,7 +179,7 @@ Claude 3 系列包括三个不同的模型,分别是 Claude 3 Haiku、Claude 3
>
> [通义千问开源地址](https://github.com/QwenLM/Qwen1.5)
**通义千问由阿里巴巴基于“通义”大模型研发**,于 `2023 年 4 月`正式发布。2023 年 8 月,阿里云开源了 Qwen(通义千问)系列工作。并于 `2024 年 2 月 5 日`,开源了 **Qwen1.5**(Qwen2 的测试版)是一个 **decoder-Only** 的模型,采用 `SwiGLU 激活``RoPE``multi-head attention`的架构。中文能力相对来说非常不错的闭源模型。
**通义千问由阿里巴巴基于“通义”大模型研发**,于 `2023 年 4 月`正式发布。2023 年 9 月,阿里云开源了 Qwen(通义千问)系列工作。并于 `2024 年 2 月 5 日`,开源了 **Qwen1.5**(Qwen2 的测试版)是一个 **decoder-Only** 的模型,采用 `SwiGLU 激活``RoPE``multi-head attention`的架构。中文能力相对来说非常不错的闭源模型。

目前,已经开源了 7 种模型大小:**0.5B、1.8B、4B、7B、14B 、72B 的 Dense 模型和 14B (A2.7B)的 MoE 模型**;所有模型均支持长度为 **32768 token** 的上下文;

Expand Down Expand Up @@ -284,4 +284,4 @@ LLM 已经在许多领域产生了深远的影响。在**自然语言处理**领
**参考内容**】:
1. [A Survey of Large Language Models
](https://arxiv.org/abs/2303.18223)
1. [周枫:当我们谈论大模型时,应该关注哪些新能力?](https://xueqiu.com/1389978604/248392718)
1. [周枫:当我们谈论大模型时,应该关注哪些新能力?](https://xueqiu.com/1389978604/248392718)

0 comments on commit 8399838

Please sign in to comment.