Attention Is All You Need
2017
这篇论文提出了Transformer架构,这是现代大语言模型的基础。Transformer完全基于注意力机制,摒弃了循环和卷积结构,为后续的BERT、GPT等模型奠定了基础。
查看论文 →
Language Models are Unsupervised Multitask Learners
2019
GPT-2的论文,展示了大规模语言模型在零样本任务转移方面的能力。证明了通过扩大模型规模和训练数据,语言模型可以在没有明确监督的情况下学习多种任务。
查看论文 →
BERT: Pre-training of Deep Bidirectional Transformers
2018
BERT通过双向Transformer编码器进行预训练,在11个NLP任务上取得了最先进的性能。BERT的创新在于掩码语言模型和下一句预测的预训练目标。
查看论文 →
Language Models are Few-Shot Learners
2020
GPT-3的论文,展示了1750亿参数的模型在少样本学习方面的强大能力。GPT-3可以在不进行梯度更新的情况下,仅通过提示就能完成各种任务。
查看论文 →
Training language models to follow instructions with human feedback
2022
InstructGPT的论文,介绍了通过人类反馈强化学习(RLHF)训练语言模型的方法。这种方法使模型能够更好地理解和遵循人类指令,为ChatGPT奠定了基础。
查看论文 →
LLaMA: Open and Efficient Foundation Language Models
2023
LLaMA展示了如何用更少的参数训练出高性能的语言模型。通过精心设计的数据和训练方法,LLaMA在多个基准测试上超越了GPT-3,同时模型规模更小。
查看论文 →
Scaling Laws for Neural Language Models
2020
这篇论文系统地研究了语言模型的扩展规律,揭示了模型大小、数据集大小和计算量之间的关系。为大规模语言模型的训练提供了重要的指导原则。
查看论文 →
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
2022
提出了思维链(Chain-of-Thought)提示方法,通过引导模型生成中间推理步骤,显著提升了大型语言模型在复杂推理任务上的表现。
查看论文 →
LoRA: Low-Rank Adaptation of Large Language Models
2021
提出了LoRA(低秩适应)方法,通过低秩分解来高效地微调大语言模型。这种方法大大减少了可训练参数的数量,使得在资源受限的情况下也能微调大模型。
查看论文 →
Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks
2020
RAG(检索增强生成)结合了检索和生成,通过从外部知识库检索相关信息来增强语言模型的生成能力,解决了模型知识更新和事实准确性的问题。
查看论文 →
GPT-4 Technical Report
2023
GPT-4的技术报告展示了多模态大语言模型的能力。GPT-4在多个领域和任务上表现出色,包括代码生成、数学推理、创意写作等,展现了通用人工智能的潜力。
查看论文 →
FlashAttention: Fast and Memory-Efficient Exact Attention
2022
FlashAttention通过重新设计注意力计算的内存访问模式,实现了更快且更节省内存的精确注意力计算。这使得训练更大的Transformer模型成为可能。
查看论文 →