文本生成：从 Seq2Seq 到 GPT 的演进

张开发

• 2026/5/11 20:21:01 • 15 分钟阅读

分享文章

文本生成从 Seq2Seq 到 GPT 的演进1. 技术分析1.1 文本生成技术演进文本生成经历了从规则方法到深度学习的演进文本生成技术路线规则模板: 基于模板填充统计语言模型: n-gram 神经语言模型: RNN/LSTM Transformer: GPT/T51.2 文本生成模型对比模型架构特点代表模型RNN/LSTM循环结构序列建模Seq2SeqTransformer注意力机制并行计算GPTT5统一框架多任务T5BERT双向编码理解为主BERT1.3 生成策略对比生成策略 Greedy: 每步选概率最大的 token Beam Search: 保留多个候选 Sampling: 随机采样 Top-K: 限制候选范围 Top-P (Nucleus): 概率质量阈值2. 核心功能实现2.1 RNN 文本生成import torch import torch.nn as nn import torch.nn.functional as F class RNNGenerator(nn.Module): def __init__(self, vocab_size, embedding_dim, hidden_dim, num_layers2): super().__init__() self.embedding nn.Embedding(vocab_size, embedding_dim) self.lstm nn.LSTM(embedding_dim, hidden_dim, num_layersnum_layers) self.fc nn.Linear(hidden_dim, vocab_size) def forward(self, x, hiddenNone): x self.embedding(x) output, hidden self.lstm(x, hidden) logits self.fc(output) return logits, hidden def generate(self, start_token, max_len100, temperature1.0): self.eval() generated [start_token] hidden None for _ in range(max_len): input_ids torch.tensor([generated[-1]]).unsqueeze(0) with torch.no_grad(): logits, hidden self.forward(input_ids, hidden) logits logits.squeeze(0) / temperature probabilities F.softmax(logits, dim-1) next_token torch.multinomial(probabilities, num_samples1).item() generated.append(next_token) if next_token self.end_token: break return generated2.2 Transformer 文本生成class TransformerGenerator(nn.Module): def __init__(self, vocab_size, d_model512, num_heads8, d_ff2048, num_layers6): super().__init__() self.embedding nn.Embedding(vocab_size, d_model) self.positional_encoding PositionalEncoding(d_model) decoder_layer nn.TransformerDecoderLayer(d_model, num_heads, d_ff) self.decoder nn.TransformerDecoder(decoder_layer, num_layers) self.fc nn.Linear(d_model, vocab_size) def forward(self, tgt, memoryNone, tgt_maskNone): tgt self.embedding(tgt) * torch.sqrt(torch.tensor(self.embedding.embedding_dim, dtypetorch.float32)) tgt self.positional_encoding(tgt) output self.decoder(tgt, memory, tgt_masktgt_mask) output self.fc(output) return output def generate(self, start_token, max_len100, temperature1.0, top_k50): self.eval() generated [start_token] for _ in range(max_len): input_ids torch.tensor([generated]).T tgt_mask nn.Transformer.generate_square_subsequent_mask(len(input_ids)).to(input_ids.device) with torch.no_grad(): logits self.forward(input_ids, tgt_masktgt_mask) logits logits[-1, :] / temperature if top_k 0: v, _ torch.topk(logits, top_k) logits[logits v[-1]] float(-inf) probabilities F.softmax(logits, dim-1) next_token torch.multinomial(probabilities, num_samples1).item() generated.append(next_token) if next_token self.end_token: break return generated2.3 GPT 风格生成class GPTGenerator(nn.Module): def __init__(self, vocab_size, d_model768, num_heads12, d_ff3072, num_layers12): super().__init__() self.transformer nn.Transformer( d_modeld_model, nheadnum_heads, num_encoder_layers0, num_decoder_layersnum_layers, dim_feedforwardd_ff ) self.embedding nn.Embedding(vocab_size, d_model) self.positional_encoding PositionalEncoding(d_model) self.fc nn.Linear(d_model, vocab_size) def forward(self, x): x self.embedding(x) * torch.sqrt(torch.tensor(self.embedding.embedding_dim, dtypetorch.float32)) x self.positional_encoding(x) mask nn.Transformer.generate_square_subsequent_mask(x.size(0)).to(x.device) output self.transformer(x, x, tgt_maskmask) output self.fc(output) return output def generate(self, prompt, tokenizer, max_len100, temperature1.0, top_p0.9): self.eval() input_ids tokenizer.encode(prompt, return_tensorspt).T for _ in range(max_len): with torch.no_grad(): logits self.forward(input_ids) logits logits[-1, :] / temperature if top_p 1.0: sorted_logits, sorted_indices torch.sort(logits, descendingTrue) cumulative_probs torch.cumsum(F.softmax(sorted_logits, dim-1), dim-1) sorted_indices_to_remove cumulative_probs top_p sorted_indices_to_remove[1:] sorted_indices_to_remove[:-1].clone() sorted_indices_to_remove[0] 0 indices_to_remove sorted_indices[sorted_indices_to_remove] logits[indices_to_remove] float(-inf) probabilities F.softmax(logits, dim-1) next_token torch.multinomial(probabilities, num_samples1).item() input_ids torch.cat([input_ids, torch.tensor([[next_token]])], dim0) if next_token tokenizer.eos_token_id: break return tokenizer.decode(input_ids.squeeze().tolist())3. 性能对比3.1 文本生成模型对比模型生成质量训练难度推理速度适用场景RNN中低快简单生成Transformer高中中中等生成GPT-2很高高中复杂生成GPT-3极高很高慢高质量生成3.2 生成策略对比策略多样性连贯性可控性Greedy低高高Beam Search低很高很高Top-K中中中Top-P高高中Temperature可调可调可调3.3 模型大小影响模型参数生成质量训练时间GPT-2 small124M中1周GPT-2 medium355M高2周GPT-2 large774M很高4周GPT-3175B极高数月4. 最佳实践4.1 文本生成模型选择def select_generator(task_type, data_size): if task_type simple: return RNNGenerator(10000, 256, 512) elif task_type medium: return TransformerGenerator(10000, 512, 8, 2048, 6) else: from transformers import GPT2LMHeadModel return GPT2LMHeadModel.from_pretrained(gpt2) class GeneratorFactory: staticmethod def create(config): if config[type] rnn: return RNNGenerator(**config[params]) elif config[type] transformer: return TransformerGenerator(**config[params]) elif config[type] gpt: from transformers import GPT2LMHeadModel return GPT2LMHeadModel.from_pretrained(config[model_name])4.2 文本生成训练流程class TextGenerationTrainer: def __init__(self, model, optimizer, scheduler, loss_fn): self.model model self.optimizer optimizer self.scheduler scheduler self.loss_fn loss_fn def train_step(self, batch): self.optimizer.zero_grad() input_ids batch[input_ids] labels batch[labels] output self.model(input_ids) loss self.loss_fn(output.reshape(-1, output.size(-1)), labels.reshape(-1)) loss.backward() self.optimizer.step() self.scheduler.step() return loss.item() def evaluate(self, dataloader): self.model.eval() total_loss 0 with torch.no_grad(): for batch in dataloader: input_ids batch[input_ids] labels batch[labels] output self.model(input_ids) loss self.loss_fn(output.reshape(-1, output.size(-1)), labels.reshape(-1)) total_loss loss.item() return total_loss / len(dataloader)5. 总结文本生成已进入 Transformer 时代GPT目前最强大的文本生成模型生成策略根据需求选择合适策略模型大小更大模型通常更好但更慢预训练模型推荐使用现成的预训练模型对比数据如下GPT-2 比 RNN 生成质量提升显著Top-P 策略平衡多样性和连贯性温度参数控制随机性推荐使用预训练 GPT 模型进行微调

更多文章

前端开发 2026/5/11 20:20:24

量子计算对比特币挖矿的威胁与限制分析

1. 量子挖矿威胁的本质解析比特币网络的安全基石建立在算力竞争之上。目前全网约15吉瓦的电力消耗（超过许多国家的用电量）全部用于确保一个核心特性：任何攻击者都无法以超越暴力破解允许的速度找到有效的区块头。Grover算法从理论上威胁了这一…

逆向工程师的视角：如何用Windbg双机调试分析未知Windows驱动在安全研究和恶意代码分析领域，逆向工程师常常需要面对未知的Windows驱动程序。这些驱动可能是第三方闭源组件，也可能是潜在的恶意软件载体。与传统的驱动开发调试不同&#xff0c…

张开发

前端开发 2026/5/11 19:28:55

手把手教你用51单片机和HC-SR04超声波模块给智能小车写个测距程序（附完整代码与调试技巧）

51单片机智能小车超声波测距实战：从时序解析到避障逻辑优化智能小车的环境感知能力是其实现自主导航与避障的核心，而超声波测距模块因其成本低廉、测距稳定等特点，成为初学者入门嵌入式开发的经典选择。本文将深入剖析HC-SR04模块与51单片机…

张开发

文本生成：从 Seq2Seq 到 GPT 的演进

最新文章

5分钟快速上手：浏览器PPT查看终极解决方案PPTXjs

Photon光影包：如何为Minecraft打造电影级视觉体验

Kubernetes架构与核心概念详解

社会网络分析(五) | 实战Gephi进阶布局，优化小说社群可视化

Matlab机器人姿态解算实战：从旋转矩阵到齐次变换的完整链路

【仅限首批Early Access用户】Claude 3.5 Sonnet的“动态温度调节”机制详解：如何让模型在严谨性与创意性间智能切换？

推荐文章

AI驱动蛋白质工程：从语言模型与拓扑数据分析到高效工作流构建

AI眼科医疗：从CNN、GAN到RNN的疾病诊断与预测技术演进

AI付费订阅与API稳定调用全攻略：支付、中转与避坑指南

GPT增强众筹文案对捐赠偏好影响的实验设计与分析

构式语法与AI融合：从理论到计算实现的双向赋能

基于Spring Boot的游戏攻略交流平台毕设

相关文章

R 4.5新增s2_geometry()函数实测：全球10亿点集距离计算耗时从47分钟降至89秒（附基准测试完整复现代码）

Hotkey Detective：3分钟解决Windows热键冲突的完整指南

5步掌握跨平台数据采集：MediaCrawler智能爬虫工具终极指南

预推免‘赶考’全记录：一周内辗转广州、长沙四场线下复试的真实体验与行程攻略

HALCON 20110 + Python 3.8 环境搭建避坑指南：从dll配置到复杂测量功能实现

算法公平性审查官认证考试全攻略：软件测试从业者的进阶之路

分享文章

更多文章

量子计算对比特币挖矿的威胁与限制分析

2026最新大模型学习路线：从零基础到实战精通，少走90%弯路

从Java后端到AI风口：转型踩坑一年，我悟了！涨薪30%的真相是…

2026版大模型学习路线：从零基础小白到实战落地，一文打通全流程

可调电源设计：三种输出电压调节方案原理与实战解析

暗黑破坏神2存档编辑器：d2s-editor网页版深度体验指南

从MATLAB验证到RTL实现：一个完整华莱士树乘法器的设计、仿真与调试实战

HX711终极指南：如何用24位ADC打造专业级电子秤系统

AI芯片设计中的功耗优化与性能功耗比革命

AI技能验证器：构建可靠LLM应用的核心测试框架

逆向工程师的视角：如何用Windbg双机调试分析一个未知Windows驱动（实战案例解析）

手把手教你用51单片机和HC-SR04超声波模块给智能小车写个测距程序（附完整代码与调试技巧）