机读格式显示(MARC)

000 01171nam0 2200241 450

001 0000651172

010 __ |a 978-7-302-68561-6 |d CNY99.00

092 __ |b 三新KJ2512期-0400

100 __ |a 20250331d2025 em y0chiy50 ea

101 0_ |a chi

102 __ |a CN |b 110000

105 __ |a y z 000yy

106 __ |a r

200 1_ |a 从零构建大模型 |e 算法、训练与微调 |f 梁楠著

210 __ |a 北京 |c 清华大学出版社 |d 2025.4

215 __ |a 296页 |d 24cm

330 __ |a 本书共12章, 涵盖了Transformer模型的基础理论, 如Seq2Seq模型、分词、嵌入层和自注意力机制等关键概念; 并深入剖析了GPT模型的核心实现与文本生成过程, 以及BERT模型的预训练和微调技术。同时, 也对ViT (视觉Transformer) 模型的架构、训练方法, 以及高阶微调策略如AdapterTuning和P-Tuning进行了详尽讲解。此外, 还系统地介绍了数据处理、数据增强、模型性能优化( 包括混合精度训练和分布式训练) 、对比学习、对抗训练、自适应优化器、动态学习率调度, 以及模型蒸馏与剪枝技术等多个方面。

333 __ |a 本书特别适合希望系统掌握大模型构建、训练和优化的技术人员和研究者, 也适合对自然语言处理、计算机视觉等领域的大模型开发有兴趣的学习者

517 1_ |a 算法、训练与微调

606 0_ |a 人工智能

690 __ |a TP18 |v 5

701 _0 |a 梁楠 |4 著

801 _0 |a CN |b 湖北三新 |c 20250401