笔记归纳
1. 核心技术点
- 神经网络:模拟人脑的计算模型,处理复杂的非线性关系。
- Transformer:一种革命性的神经网络架构,擅长处理自然语言。
- Fine-tuning微调:包括SFT(监督微调)和RLHF(基于人类反馈的强化学习)。
- 硬件支持:英伟达GPU与CUDA。
- API与工具:Assistants API、function calling、Prompt、RAG(检索增强生成)、Agent、多模态、视觉模型等。
2. AI使用技巧
- 反向提问:明确解决问题所需的信息。
- 参数调整:如
temperature=5
(情绪值)。 - 指令技巧:PUA(命令它,强调)、
take a deep breath
(深呼吸)。
3. 大语言模型(LLM)
- 定义:将无状态的连续描述转变为有状态的离散逻辑文字。
- 机器学习类型:
- 监督学习:使用已分类数据进行学习。
- 无监督学习:让模型自行归类未分类数据。
- 强化学习:基于奖励机制优化模型。
4. 模型训练阶段
- 预训练:数据收集、清洗、格式化。
- SFT:监督微调。
- RLHF:基于人类反馈的强化学习。
5. Transformer模型类型
- Encode-only:仅编码器模型(如BERT),适用于分类、回归。
- Decode-only:仅解码器模型(如GPT),适用于文本生成。
- Sequence to Sequence:序列到序列模型(如T5),适用于机器翻译、文本生成、摘要等。
- Moe:混合专家模型,神经网络结构。
6. 神经网络与模型训练
- 神经网络:模仿人脑,由输入层、隐藏层、输出层组成。
- 模型训练:通过大量数据和正确反馈,调整模型参数。
7. Transformer与Embedding
Transformer属于深度学习领域。它主要用于处理序列数据(如文本),并引入了自注意力机制(Self-Attention)来捕捉序列中的依赖关系。
- Embedding:将每个词或子词(token)转化为向量,捕捉语义关系。不仅适用于文本,还可以用于图像、音频等其他类型的数据。
- 自注意力机制(Self-Attention):同时处理序列中的所有元素,捕捉依赖关系。
- 多头注意力机制(Multi-Head Attention):将输入拆分为多个小的子空间(即“头”),然后并行计算。
8. 思维链与涌现
- 思维链:将复杂任务分解为子任务,逐步解决。核心思想是让模型生成中间推理步骤。
- 涌现:当神经网络规模足够大时,表现出意想不到的能力。
9. 总结
- 神经网络是模型训练的基础,Transformer是其特殊架构。
- 思维链引导复杂推理,涌现表明AI向更智能方向发展。
- 神经网络、模型训练、Transformer、思维链、涌现等技术推动AI发展。。