From 8399838b7c1f6bd4c39653bd315c0c2464b5362e Mon Sep 17 00:00:00 2001 From: tackhwa <55059307+tackhwa@users.noreply.github.com> Date: Tue, 16 Apr 2024 21:25:14 +0800 Subject: [PATCH] =?UTF-8?q?=E4=BF=AE=E6=94=B9=20=E3=80=8EC1-1.=E5=A4=A7?= =?UTF-8?q?=E5=9E=8B=E8=AF=AD=E8=A8=80=E6=A8=A1=E5=9E=8B=20LLM=20=E7=90=86?= =?UTF-8?q?=E8=AE=BA=E7=AE=80=E4=BB=8B=E3=80=8F=E4=B8=AD=20typo=EF=BC=8C?= =?UTF-8?q?=E5=A2=9E=E5=8A=A0=E4=BB=A5=E5=8F=8A=E6=9B=B4=E6=AD=A3=E8=B5=84?= =?UTF-8?q?=E8=AE=AF=E3=80=82?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit * Update 1.大型语言模型 LLM 理论简介.md --- ...06\350\256\272\347\256\200\344\273\213.md" | 24 +++++++++---------- ...06\350\256\272\347\256\200\344\273\213.md" | 24 +++++++++---------- 2 files changed, 24 insertions(+), 24 deletions(-) diff --git "a/docs/C1/1.\345\244\247\350\257\255\350\250\200\346\250\241\345\236\213 LLM \347\220\206\350\256\272\347\256\200\344\273\213.md" "b/docs/C1/1.\345\244\247\350\257\255\350\250\200\346\250\241\345\236\213 LLM \347\220\206\350\256\272\347\256\200\344\273\213.md" index 6273909..36668d7 100644 --- "a/docs/C1/1.\345\244\247\350\257\255\350\250\200\346\250\241\345\236\213 LLM \347\220\206\350\256\272\347\256\200\344\273\213.md" +++ "b/docs/C1/1.\345\244\247\350\257\255\350\250\200\346\250\241\345\236\213 LLM \347\220\206\350\256\272\347\256\200\344\273\213.md" @@ -74,18 +74,18 @@ ChatGPT 从本质上来说是一个 LLM 应用,是基于基座模型开发出 GPT3.5 是免费的,而 GPT-4 是收费的。需要开通 plus 会员 20 美元/月。 通常我们可以调用模型 API 来开发自己的应用,主流模型 [API 对比](https://openai.com/pricing)如下: -| 语言模型名称 | 上下文长度 | 特点 | input 费用($/million tokens) | output 费用($/ 1M tokens) | -| :---: | :---: | :---: | :---: | :---: | -| GPT-3.5-turbo-0125 | 16k | 经济,专门对话 | 0.5 | 1.5 | -| GPT-3.5-turbo-instruct | 4k | 指令模型 | 1.5 | 2 | -| GPT-4 | 8k | 性能更强 | 30 | 60 | -| GPT-4-32k | 32k | 性能强,长上下文 | 60 | 120 | -| GPT-4-turbo | 128k | 性能最强 | 10 | 30 | +| 语言模型名称 | 上下文长度 | 特点 | input 费用($/million tokens) | output 费用($/ 1M tokens) | 知识截止日期 | +| :---: | :---: | :---: | :---: | :---: | :---: | +| GPT-3.5-turbo-0125 | 16k | 经济,专门对话 | 0.5 | 1.5 | 2021 年 9 月 | +| GPT-3.5-turbo-instruct | 4k | 指令模型 | 1.5 | 2 | 2021 年 9 月 | +| GPT-4 | 8k | 性能更强 | 30 | 60 | 2021 年 9 月 | +| GPT-4-32k | 32k | 性能强,长上下文 | 60 | 120 | 2021 年 9 月 | +| GPT-4-turbo | 128k | 性能最强 | 10 | 30 | 2023 年 12 月 | | Embedding 模型名称 | 维度 | 特点 | 费用($/ 1M tokens) | | :---: | :---: | :---: | :---: | |text-embedding-3-small | 512/1536 | 较小 | 0.02 | -| text-embedding-3-large | 256/1024.3072 | 较大 | 0.13 | +| text-embedding-3-large | 256/1024/3072 | 较大 | 0.13 | | ada v2 | 1536 | 传统 | 0.1 | ##### 1.3.1.2 Claude 系列 @@ -141,7 +141,7 @@ Claude 3 系列包括三个不同的模型,分别是 Claude 3 Haiku、Claude 3 > [星火大模型使用地址](https://xinghuo.xfyun.cn) -**讯飞星火认知大模型**是**科大讯飞**发布的语言大模型,支持多种自然语言处理任务。该模型于 `2023 年 5 月`首次发布,后续经过多次升级。`2023 年 10 月`,讯飞发布了**讯飞星火认知大模型 V3.0**。 +**讯飞星火认知大模型**是**科大讯飞**发布的语言大模型,支持多种自然语言处理任务。该模型于 `2023 年 5 月`首次发布,后续经过多次升级。`2023 年 10 月`,讯飞发布了**讯飞星火认知大模型 V3.0**。`2024 年 1 月`,讯飞发布了**讯飞星火认知大模型 V3.5**,在语言理解,文本生成,知识问答等七个方面进行了升级,并且支持system指令,插件调用等多项功能。 ![讯飞发布会](../figures/C1-1-xunfei.jpg) @@ -157,7 +157,7 @@ Claude 3 系列包括三个不同的模型,分别是 Claude 3 Haiku、Claude 3 > > [LLaMA 开源地址](https://github.com/facebookresearch/llama) -**LLaMA 系列模型**是 **Meta** 开源的一组参数规模 **从 7B 到 70B** 的基础语言模型。LlaMa 于`2023 年 2 月`发布,并于 `2023 年 7 月`发布了 **LlaMa2** 模型。它们都是在数万亿个字符上训练的,展示了如何**仅使用公开可用的数据集来训练最先进的模型**,而不需要依赖专有或不可访问的数据集。这些数据集包括 Common Crawl、Wikipedia、OpenWebText2、RealNews、Books 等。LLaMA 模型使用了**大规模的数据过滤和清洗技术**,以提高数据质量和多样性,减少噪声和偏见。LLaMA 模型还使用了高效的**数据并行**和**流水线并行**技术,以加速模型的训练和扩展。特别地,LLaMA 13B 在 CommonsenseQA 等 9 个基准测试中超过了 GPT-3 (175B),而 **LLaMA 65B 与最优秀的模型 Chinchilla-70B 和 PaLM-540B 相媲美**。LLaMA 通过使用更少的字符来达到最佳性能,从而在各种推理预算下具有优势。 +**LLaMA 系列模型**是 **Meta** 开源的一组参数规模 **从 7B 到 70B** 的基础语言模型。LLaMA 于`2023 年 2 月`发布,并于 `2023 年 7 月`发布了 **LLaMA2** 模型。它们都是在数万亿个字符上训练的,展示了如何**仅使用公开可用的数据集来训练最先进的模型**,而不需要依赖专有或不可访问的数据集。这些数据集包括 Common Crawl、Wikipedia、OpenWebText2、RealNews、Books 等。LLaMA 模型使用了**大规模的数据过滤和清洗技术**,以提高数据质量和多样性,减少噪声和偏见。LLaMA 模型还使用了高效的**数据并行**和**流水线并行**技术,以加速模型的训练和扩展。特别地,LLaMA 13B 在 CommonsenseQA 等 9 个基准测试中超过了 GPT-3 (175B),而 **LLaMA 65B 与最优秀的模型 Chinchilla-70B 和 PaLM-540B 相媲美**。LLaMA 通过使用更少的字符来达到最佳性能,从而在各种推理预算下具有优势。 与 GPT 系列相同,LLaMA 模型也采用了 **decoder-only** 架构,同时结合了一些前人工作的改进: @@ -179,7 +179,7 @@ Claude 3 系列包括三个不同的模型,分别是 Claude 3 Haiku、Claude 3 > > [通义千问开源地址](https://github.com/QwenLM/Qwen1.5) -**通义千问由阿里巴巴基于“通义”大模型研发**,于 `2023 年 4 月`正式发布。2023 年 8 月,阿里云开源了 Qwen(通义千问)系列工作。并于 `2024 年 2 月 5 日`,开源了 **Qwen1.5**(Qwen2 的测试版)是一个 **decoder-Only** 的模型,采用 `SwiGLU 激活`、`RoPE`、`multi-head attention`的架构。中文能力相对来说非常不错的闭源模型。 +**通义千问由阿里巴巴基于“通义”大模型研发**,于 `2023 年 4 月`正式发布。2023 年 9 月,阿里云开源了 Qwen(通义千问)系列工作。并于 `2024 年 2 月 5 日`,开源了 **Qwen1.5**(Qwen2 的测试版)是一个 **decoder-Only** 的模型,采用 `SwiGLU 激活`、`RoPE`、`multi-head attention`的架构。中文能力相对来说非常不错的闭源模型。 目前,已经开源了 7 种模型大小:**0.5B、1.8B、4B、7B、14B 、72B 的 Dense 模型和 14B (A2.7B)的 MoE 模型**;所有模型均支持长度为 **32768 token** 的上下文; @@ -284,4 +284,4 @@ LLM 已经在许多领域产生了深远的影响。在**自然语言处理**领 【**参考内容**】: 1. [A Survey of Large Language Models ](https://arxiv.org/abs/2303.18223) -1. [周枫:当我们谈论大模型时,应该关注哪些新能力?](https://xueqiu.com/1389978604/248392718) \ No newline at end of file +1. [周枫:当我们谈论大模型时,应该关注哪些新能力?](https://xueqiu.com/1389978604/248392718) diff --git "a/notebook/C1 \345\244\247\345\236\213\350\257\255\350\250\200\346\250\241\345\236\213 LLM \344\273\213\347\273\215/1.\345\244\247\345\236\213\350\257\255\350\250\200\346\250\241\345\236\213 LLM \347\220\206\350\256\272\347\256\200\344\273\213.md" "b/notebook/C1 \345\244\247\345\236\213\350\257\255\350\250\200\346\250\241\345\236\213 LLM \344\273\213\347\273\215/1.\345\244\247\345\236\213\350\257\255\350\250\200\346\250\241\345\236\213 LLM \347\220\206\350\256\272\347\256\200\344\273\213.md" index 110adcd..fce647c 100644 --- "a/notebook/C1 \345\244\247\345\236\213\350\257\255\350\250\200\346\250\241\345\236\213 LLM \344\273\213\347\273\215/1.\345\244\247\345\236\213\350\257\255\350\250\200\346\250\241\345\236\213 LLM \347\220\206\350\256\272\347\256\200\344\273\213.md" +++ "b/notebook/C1 \345\244\247\345\236\213\350\257\255\350\250\200\346\250\241\345\236\213 LLM \344\273\213\347\273\215/1.\345\244\247\345\236\213\350\257\255\350\250\200\346\250\241\345\236\213 LLM \347\220\206\350\256\272\347\256\200\344\273\213.md" @@ -74,18 +74,18 @@ ChatGPT 从本质上来说是一个 LLM 应用,是基于基座模型开发出 GPT3.5 是免费的,而 GPT-4 是收费的。需要开通 plus 会员 20 美元/月。 通常我们可以调用模型 API 来开发自己的应用,主流模型 [API 对比](https://openai.com/pricing)如下: -| 语言模型名称 | 上下文长度 | 特点 | input 费用($/million tokens) | output 费用($/ 1M tokens) | -| :---: | :---: | :---: | :---: | :---: | -| GPT-3.5-turbo-0125 | 16k | 经济,专门对话 | 0.5 | 1.5 | -| GPT-3.5-turbo-instruct | 4k | 指令模型 | 1.5 | 2 | -| GPT-4 | 8k | 性能更强 | 30 | 60 | -| GPT-4-32k | 32k | 性能强,长上下文 | 60 | 120 | -| GPT-4-turbo | 128k | 性能最强 | 10 | 30 | +| 语言模型名称 | 上下文长度 | 特点 | input 费用($/million tokens) | output 费用($/ 1M tokens) | 知识截止日期 | +| :---: | :---: | :---: | :---: | :---: | :---: | +| GPT-3.5-turbo-0125 | 16k | 经济,专门对话 | 0.5 | 1.5 | 2021 年 9 月 | +| GPT-3.5-turbo-instruct | 4k | 指令模型 | 1.5 | 2 | 2021 年 9 月 | +| GPT-4 | 8k | 性能更强 | 30 | 60 | 2021 年 9 月 | +| GPT-4-32k | 32k | 性能强,长上下文 | 60 | 120 | 2021 年 9 月 | +| GPT-4-turbo | 128k | 性能最强 | 10 | 30 | 2023 年 12 月 | | Embedding 模型名称 | 维度 | 特点 | 费用($/ 1M tokens) | | :---: | :---: | :---: | :---: | |text-embedding-3-small | 512/1536 | 较小 | 0.02 | -| text-embedding-3-large | 256/1024.3072 | 较大 | 0.13 | +| text-embedding-3-large | 256/1024/3072 | 较大 | 0.13 | | ada v2 | 1536 | 传统 | 0.1 | ##### 1.3.1.2 Claude 系列 @@ -141,7 +141,7 @@ Claude 3 系列包括三个不同的模型,分别是 Claude 3 Haiku、Claude 3 > [星火大模型使用地址](https://xinghuo.xfyun.cn) -**讯飞星火认知大模型**是**科大讯飞**发布的语言大模型,支持多种自然语言处理任务。该模型于 `2023 年 5 月`首次发布,后续经过多次升级。`2023 年 10 月`,讯飞发布了**讯飞星火认知大模型 V3.0**。 +**讯飞星火认知大模型**是**科大讯飞**发布的语言大模型,支持多种自然语言处理任务。该模型于 `2023 年 5 月`首次发布,后续经过多次升级。`2023 年 10 月`,讯飞发布了**讯飞星火认知大模型 V3.0**。`2024 年 1 月`,讯飞发布了**讯飞星火认知大模型 V3.5**,在语言理解,文本生成,知识问答等七个方面进行了升级,并且支持system指令,插件调用等多项功能。 ![讯飞发布会](../../figures/C1-1-xunfei.jpg) @@ -157,7 +157,7 @@ Claude 3 系列包括三个不同的模型,分别是 Claude 3 Haiku、Claude 3 > > [LLaMA 开源地址](https://github.com/facebookresearch/llama) -**LLaMA 系列模型**是 **Meta** 开源的一组参数规模 **从 7B 到 70B** 的基础语言模型。LlaMa 于`2023 年 2 月`发布,并于 `2023 年 7 月`发布了 **LlaMa2** 模型。它们都是在数万亿个字符上训练的,展示了如何**仅使用公开可用的数据集来训练最先进的模型**,而不需要依赖专有或不可访问的数据集。这些数据集包括 Common Crawl、Wikipedia、OpenWebText2、RealNews、Books 等。LLaMA 模型使用了**大规模的数据过滤和清洗技术**,以提高数据质量和多样性,减少噪声和偏见。LLaMA 模型还使用了高效的**数据并行**和**流水线并行**技术,以加速模型的训练和扩展。特别地,LLaMA 13B 在 CommonsenseQA 等 9 个基准测试中超过了 GPT-3 (175B),而 **LLaMA 65B 与最优秀的模型 Chinchilla-70B 和 PaLM-540B 相媲美**。LLaMA 通过使用更少的字符来达到最佳性能,从而在各种推理预算下具有优势。 +**LLaMA 系列模型**是 **Meta** 开源的一组参数规模 **从 7B 到 70B** 的基础语言模型。LLaMA 于`2023 年 2 月`发布,并于 `2023 年 7 月`发布了 **LLaMA2** 模型。它们都是在数万亿个字符上训练的,展示了如何**仅使用公开可用的数据集来训练最先进的模型**,而不需要依赖专有或不可访问的数据集。这些数据集包括 Common Crawl、Wikipedia、OpenWebText2、RealNews、Books 等。LLaMA 模型使用了**大规模的数据过滤和清洗技术**,以提高数据质量和多样性,减少噪声和偏见。LLaMA 模型还使用了高效的**数据并行**和**流水线并行**技术,以加速模型的训练和扩展。特别地,LLaMA 13B 在 CommonsenseQA 等 9 个基准测试中超过了 GPT-3 (175B),而 **LLaMA 65B 与最优秀的模型 Chinchilla-70B 和 PaLM-540B 相媲美**。LLaMA 通过使用更少的字符来达到最佳性能,从而在各种推理预算下具有优势。 与 GPT 系列相同,LLaMA 模型也采用了 **decoder-only** 架构,同时结合了一些前人工作的改进: @@ -179,7 +179,7 @@ Claude 3 系列包括三个不同的模型,分别是 Claude 3 Haiku、Claude 3 > > [通义千问开源地址](https://github.com/QwenLM/Qwen1.5) -**通义千问由阿里巴巴基于“通义”大模型研发**,于 `2023 年 4 月`正式发布。2023 年 8 月,阿里云开源了 Qwen(通义千问)系列工作。并于 `2024 年 2 月 5 日`,开源了 **Qwen1.5**(Qwen2 的测试版)是一个 **decoder-Only** 的模型,采用 `SwiGLU 激活`、`RoPE`、`multi-head attention`的架构。中文能力相对来说非常不错的闭源模型。 +**通义千问由阿里巴巴基于“通义”大模型研发**,于 `2023 年 4 月`正式发布。2023 年 9 月,阿里云开源了 Qwen(通义千问)系列工作。并于 `2024 年 2 月 5 日`,开源了 **Qwen1.5**(Qwen2 的测试版)是一个 **decoder-Only** 的模型,采用 `SwiGLU 激活`、`RoPE`、`multi-head attention`的架构。中文能力相对来说非常不错的闭源模型。 目前,已经开源了 7 种模型大小:**0.5B、1.8B、4B、7B、14B 、72B 的 Dense 模型和 14B (A2.7B)的 MoE 模型**;所有模型均支持长度为 **32768 token** 的上下文; @@ -284,4 +284,4 @@ LLM 已经在许多领域产生了深远的影响。在**自然语言处理**领 【**参考内容**】: 1. [A Survey of Large Language Models ](https://arxiv.org/abs/2303.18223) -1. [周枫:当我们谈论大模型时,应该关注哪些新能力?](https://xueqiu.com/1389978604/248392718) \ No newline at end of file +1. [周枫:当我们谈论大模型时,应该关注哪些新能力?](https://xueqiu.com/1389978604/248392718)