Skip to content

GPT 系列

GPT-1 (2018)

OpenAI 首次提出生成式预训练Transformer,在多项 NLP 任务上取得了显著进展。

GPT-2 (2019)

  • 更大规模的模型(15 亿参数)
  • 展示了 zero-shot 任务迁移能力
  • 因担心被滥用而延迟发布完整模型

GPT-3 (2020)

  • 1750 亿参数
  • 强大的 few-shot 学习能力
  • 无需梯度更新,仅通过提示即可完成任务

GPT-4 (2023)

  • 多模态支持
  • 更强的推理能力
  • 在各种专业测试中表现优异

核心思想

GPT 系列的核心思想是 语言模型的大规模预训练 + 下游任务的微调/提示