陈同学的技术碎碎念

Attention Is All You Need

Vaswani et al.

2017

这篇论文提出了Transformer架构，这是现代大语言模型的基础。Transformer完全基于注意力机制，摒弃了循环和卷积结构，为后续的BERT、GPT等模型奠定了基础。

查看论文 →

Language Models are Unsupervised Multitask Learners

Radford et al. (OpenAI)

2019

GPT-2的论文，展示了大规模语言模型在零样本任务转移方面的能力。证明了通过扩大模型规模和训练数据，语言模型可以在没有明确监督的情况下学习多种任务。

查看论文 →

BERT: Pre-training of Deep Bidirectional Transformers

Devlin et al. (Google)

2018

BERT通过双向Transformer编码器进行预训练，在11个NLP任务上取得了最先进的性能。BERT的创新在于掩码语言模型和下一句预测的预训练目标。

查看论文 →

Language Models are Few-Shot Learners

Brown et al. (OpenAI)

2020

GPT-3的论文，展示了1750亿参数的模型在少样本学习方面的强大能力。GPT-3可以在不进行梯度更新的情况下，仅通过提示就能完成各种任务。

查看论文 →

Training language models to follow instructions with human feedback

Ouyang et al. (OpenAI)

2022

InstructGPT的论文，介绍了通过人类反馈强化学习（RLHF）训练语言模型的方法。这种方法使模型能够更好地理解和遵循人类指令，为ChatGPT奠定了基础。

查看论文 →

LLaMA: Open and Efficient Foundation Language Models

Touvron et al. (Meta)

2023

LLaMA展示了如何用更少的参数训练出高性能的语言模型。通过精心设计的数据和训练方法，LLaMA在多个基准测试上超越了GPT-3，同时模型规模更小。

查看论文 →

Scaling Laws for Neural Language Models

Kaplan et al. (OpenAI)

2020

这篇论文系统地研究了语言模型的扩展规律，揭示了模型大小、数据集大小和计算量之间的关系。为大规模语言模型的训练提供了重要的指导原则。

查看论文 →

Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

Wei et al. (Google)

2022

提出了思维链（Chain-of-Thought）提示方法，通过引导模型生成中间推理步骤，显著提升了大型语言模型在复杂推理任务上的表现。

查看论文 →

LoRA: Low-Rank Adaptation of Large Language Models

Hu et al. (Microsoft)

2021

提出了LoRA（低秩适应）方法，通过低秩分解来高效地微调大语言模型。这种方法大大减少了可训练参数的数量，使得在资源受限的情况下也能微调大模型。

查看论文 →

Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks

Lewis et al. (Facebook AI)

2020

RAG（检索增强生成）结合了检索和生成，通过从外部知识库检索相关信息来增强语言模型的生成能力，解决了模型知识更新和事实准确性的问题。

查看论文 →

GPT-4 Technical Report

OpenAI

2023

GPT-4的技术报告展示了多模态大语言模型的能力。GPT-4在多个领域和任务上表现出色，包括代码生成、数学推理、创意写作等，展现了通用人工智能的潜力。

查看论文 →

FlashAttention: Fast and Memory-Efficient Exact Attention

Dao et al. (Stanford)

2022

FlashAttention通过重新设计注意力计算的内存访问模式，实现了更快且更节省内存的精确注意力计算。这使得训练更大的Transformer模型成为可能。

查看论文 →