Blog

FlashAttention

FlashAttention 是一种高效的注意力机制优化算法，旨在降低 Transformer 模型在处理长序列时的计算和内存开销。它由斯坦福大学的研究者提出，最初在 2022 年的论文《FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Aware Optimization》中介绍，主要针对 GPU 加速的深度学习任务。核心思想传统的注意力机制（Attention）在处理长序列时需要存储和操作大规模的中间矩阵（如查询-键相似度矩阵），这会导致内存占用高、计算效率低的问题。FlashAttention 通过以下方式优化：工作原理 FlashAttention 基于以下步骤：优势应用场景 FlashAttention 广泛用于需要处理长序列的 NLP 和 CV 任务，例如：局限性后续发展 FlashAttention 的成功启发了后续工作，如 FlashAttention-2，进一步优化了并行性和内存分配，性能更优。此外，它已被集成到许多深度学习框架（如 PyTorch、Hugging Face Transformers）中，方便开发者直接使用。总结来说，FlashAttention 是一种革命性的注意力机制优化方案，通过分块计算和 IO 优化显著提升了 Transformer 的效率，尤其适合处理长序列任务，是现代大模型训练和推理中的关键技术。

By Chris, 3 monthsAugust 15, 2025 ago

Blog

AI模型从无到有的建立过程

AI模型从无到有的建立过程构建一个AI模型（这里主要指机器学习模型，如神经网络模型）是一个系统工程，通常遵循CRISP-DM（Cross-Industry Standard Process for Data Mining）或类似流程。从无到有，大致可以分为几个关键阶段：问题定义、数据准备、模型设计、训练与评估、调优、部署以及维护。下面我将详细讲解每个过程，包括所需数据、使用工具和原理。整个过程可能因具体任务（如分类、回归、生成式AI）而略有差异，但核心逻辑相似。以一个图像分类模型（如识别猫狗）为例进行说明。 1. 问题定义和规划（Problem Definition and Planning） 2. 数据收集和准备（Data Collection and Preparation） 3. 特征工程（Feature Engineering） 4. 模型选择和设计（Model Selection and Design） 5. 模型训练（Model Training） 6. 模型评估（Model Evaluation） 7. 模型调优（Model Tuning） 8. 模型部署（Model Deployment） 9. 监控和维护（Monitoring and Maintenance）总结和注意事项构建AI模型是一个迭代过程，可能需要多次循环（如数据不足时返回收集阶段）。总成本包括计算资源（GPU小时）和人力。工具多为开源Python生态，便于上手。原理根植于数学（如优化、概率）和计算机科学（如并行计算）。如果针对特定类型AI（如大语言模型），过程类似但数据规模更大（需万亿token）。

By Chris, 3 monthsAugust 14, 2025 ago

Blog

Transformer中的层和参数

在 Transformer 模型中，层（layers）和参数（parameters）密切相关：每一层都包含大量的可学习参数，模型的总参数量基本上就是所有层中参数的总和。下面我们详细解释它们之间的关系。一、Transformer 的基本结构回顾一个标准的 Transformer 模型（如原始论文《Attention is All You Need》中的架构）由以下主要组件构成：编码器（Encoder）：由多个相同的层堆叠而成（如6层）解码器（Decoder）：也由多个相同层堆叠而成（如6层）每一层（无论是编码器还是解码器）都包含若干子层，每个子层内部都有可学习的参数。二、Transformer 层的组成（以编码器层为例）每个编码器层包含两个主要子层：多头自注意力机制（Multi-Head Self-Attention）前馈神经网络（Feed-Forward Network, FFN）每个子层后都有：层归一化（LayerNorm）——有少量参数残差连接（Residual Connection）——无参数假设：输入维度：d(model)=512注意力头数：h=8每个头的维度：d(k)=d(v)=d(model)/h=64那么，多头注意力包含以下可学习权重矩阵： WQ∈Rdmodel×dmodel WK∈Rdmodel×dmodel WV∈Rdmodel×dmodel WO∈Rdmodel×dmodel （输出投影）👉 这4个矩阵每个都有 512×512=262,144 个参数所以总参数量：4×262,144=1,048,576 ≈ 105万注意：虽然叫“多头”，但这些权重通常是整体实现的，不是每个头单独一个矩阵。第一层：dmodel→dff（如 512 → 2048）第二层：dff→dmodel 参数包括： W1∈R512×2048→ 512×2048=1,048,576W2∈R2048×512→ 2048×512=1,048,576偏置项 b1,b2：2048+512=2560👉 FFN 总参数 ≈ 1,048,576+1,048,576+2560≈2,100,000 Read more…

By Chris, 3 monthsAugust 14, 2025 ago

Blog

中国虎符式教育

转载自云中月虎符式教学五十年你知道虎符吗？在秦汉的时候，调兵可不是嘴上吆喝两句那么随意的事。中央要发兵，得掏出一块虎符，劈成两半：一半留在朝廷，一半交给驻地将军。两半合起来，才能呼风唤雨；缺一块，你连一个伙夫都调不走。两千年后，这种虎符精神，在中国的中小学教育里，被精心发扬光大。中国式虎符教育：一讲就懂，不讲不懂中国课堂的核心，其实就是一套现代版虎符制度：学生手里那本课本，是明面的一半虎符；另一半虎符，叫“教师教学参考书”，藏在老师手里。这个大名鼎鼎的“教参”堪称中国教育的独门秘籍：每本教参都有ISBN编号，但却不是你能在新华书店随便买到的“凡间货色”。它通过教育部门的行政体系，一级级配发到老师手里，学生连边都摸不着。设计初衷非常简单直接：“一讲就懂，不讲不懂”：课本给你半拉子知识，教参才是解锁真相的钥匙。老师靠着它在课堂上点石成金，稳稳端住“师道尊严”的牌子。普通学生不听课，想靠课本自学，那就等着云里雾里吧。所以，中国教育改革这些年来，看似热闹非凡，其实绕来绕去，都在围绕一个核心问题打转：这另一半虎符，到底该怎么处理？第一击：重点班的“超级虎符” 最早的冲击，来自重点班。重点班的老师，不光有那半本官方教参，他们脑子里还有一套比教参还厉害的“超级虎符”，多年教龄、刷题经验和暗号式讲解。只要用这些暗号去匹配课本，学生立刻如虎添翼。普通班的学生也有课本，却像骑着毛驴追高铁。这第一次冲击，让人意识到：虎符虽然是制度统一发的，但解读力可以私有化，且明显分层。第二击：课堂只讲一半，课后讲一半 2000年代初，出现了更具破坏力的补课风潮。老师们发现，课堂讲一半，课后收费讲另一半，是个稳赚不赔的生意：课本：学生人手一本，废话多到看吐；课堂：讲得云里雾里，点到即止；补课：真相大白！代价是每小时200元起步。北京某名师，一节课补课费能顶一个月工资，家长还得排队抢名额。知识被切片出售，解释权悄悄进了老师的私人口袋。这等于老师亲手把自己的虎符掰成了两段：课堂发一截，还有一截留着课外班出示。第三击：课件商人盗虎符接下来登场的是课件和教学软件商人。他们像文物贩子一样，把名师的“超虎符”精华收集起来，浓缩成多媒体课件、光盘、PPT…… 再明码标价卖给家长和学生。B站五分钟搞定高考作文，公众号疯狂推送押题文档，抖音算法推送“秒懂知识点”的短视频。很多人买到手兴奋地说：“没想到这就是虎符的另一半！” 从此，虎符不再只在老师手里，商人也能卖，流量也能赚。讲课比拼的已经不是谁懂，而是谁剪得更爽、谁标题党写得更狠。第四击：K12初创公司“虎符批发” 2010年前后，资本嗅到了讲解权的金光。学而思、新东方、猿辅导、作业帮，这些K12初创公司干脆把课外辅导做成了标准化业务，批量化生产另一半虎符。语文讲解、奥数套路、英语模板被打包成流水线产品，精准推送，疯狂吸金。 2020年，教培市场规模飙到2万亿，学而思年营收轻松破百亿。这已经不是偶尔偷讲一题两题，而是整半块虎符做成量产模型，在资本市场挂牌销售。教育部门急了：你们这不是讲得好，你们是讲得太对了——直接动了正统的饭碗。于是2021年，“双减”重拳出击，教培行业千亿市值灰飞烟灭，虎符貌似重回“体制神职人员”手里。但，战火哪有这么容易熄？第五击：人工智能AI的万能虎符压轴登场的是人工智能。 2023年以后，国产AI大模型杀入战场，DeepSeek、Kimi、智谱清言不再是查答案的工具，而是能讲、能答、能演示的全能老师。你只需丢进去一道题，它立刻化身良师益友：哪个知识点考到了？哪个选项是坑？命题人想干啥？ Kimi能把一道高考数学题拆解得比老师还细，还附赠三种解法。不收补课费，不嫌你笨，还能换个方式再讲一遍。这下，虎符彻底没了控制力——学生不再等老师开口，也不必交补课费，随时能自己合符动兵。老师还想留一手？抱歉，学生刷AI比求你开小灶快多了。几十年来，这块写着“解释权”的虎符，被各方分食、肢解、克隆、量产，从中央高台流落到教育灰市：1.重点班：出现“超级虎符”，第一次打破均衡；2.课外辅导：老师自己掰虎符赚钱；3.课件商人：盗版虎符流入市场；4.K12公司：批量生产虎符上市售卖；5.人工智能：复制全网虎符，人人可得。原本是“老师讲了你才懂”的封闭体系，如今变成了“你想懂，随时有人讲”的开放状态。

By Chris, 3 monthsAugust 12, 2025 ago

Blog

Transformers介绍

Transformers 库介绍 Transformers 是由 Hugging Face 公司开发的开源 Python 库，主要用于处理基于 Transformer 架构的预训练模型。该库自 2018 年推出以来，已成为自然语言处理 (NLP)、计算机视觉 (CV)、音频处理、多模态任务等领域的事实标准工具。它支持数千个预训练模型（如 BERT、GPT、T5、ViT 等），并提供易用的 API 来加载、微调和部署这些模型。Transformers 库的核心理念是“模型即服务”，允许开发者快速访问 Hugging Face Model Hub 中的模型，而无需从头训练。截至 2025 年，该库的最新版本（假设基于我的知识更新，大约在 v4.40+）支持 PyTorch、TensorFlow 和 JAX 后端，兼容 CPU/GPU/TPU 等硬件。它强调社区驱动，用户可以轻松上传和分享自定义模型。Transformers 的优势包括：该库不限于 NLP，还扩展到视觉（如 Vision Transformer）、音频（如 Whisper）和多模态（如 CLIP）模型。 Transformers 的主要组成 Transformers 库由多个模块和组件构成，这些组件协同工作，提供从数据预处理到模型训练的全流程支持。下面我用表格形式列出主要组成及其功能、示例类/函数，便于比较：组件名称描述主要功能示例类/函数 Read more…

By Chris, 3 monthsAugust 9, 2025 ago

Blog

PyTorch介绍

PyTorch 介绍 PyTorch 是一个开源的机器学习框架，主要用于深度学习任务，如计算机视觉、自然语言处理等。它由 Meta（前 Facebook）的 AI 研究实验室开发，于 2016 年首次发布。PyTorch 的优势在于其动态计算图（eager mode），这使得调试和实验更灵活，与 Python 的编程风格高度兼容。同时，它支持 GPU 加速、分布式训练，并拥有丰富的生态系统。PyTorch 被广泛用于学术研究和工业生产，支持从原型开发到部署的全流程。相比其他框架如 TensorFlow，PyTorch 更注重直观性和灵活性，允许用户在运行时定义和修改模型。它还提供了 TorchScript 用于将模型转换为静态图模式，便于生产部署；TorchServe 用于模型服务化；以及 torch.distributed 用于分布式训练和性能优化。 PyTorch 的主要组成部分 PyTorch 的核心是 torch 库，但它包括多个模块和子库，形成一个完整的生态。以下是其关键组成部分：这些组件使得 PyTorch 适用于从简单脚本到大规模分布式系统的各种场景。安装 PyTorch PyTorch 的安装取决于你的操作系统、Python 版本、是否使用 GPU 等。推荐使用 Python 3.9 或更高版本，并通过 Anaconda 管理环境，因为它会自动安装依赖。这会安装 PyTorch 核心、torchvision 和 Read more…

By Chris, 3 monthsAugust 9, 2025 ago

Blog

IndexTTS实现语音个性化克隆的原理

IndexTTS是一个工业级、可控且高效的零样本文本转语音(TTS)系统。它基于XTTS和Tortoise，具备汉字拼音纠正和通过标点控制停顿的功能。系统在多个模块上进行了改进，包括说话人条件特征表示的改进和BigVGAN2的集成以优化音频质量。核心特性通过对IndexTTS代码的分析，特别是infer.py和相关的GPT模型代码，可以清楚地看到Personalized VoiceCloning的实现机制。这个过程的核心在于使用参考音频（prompt audio）生成条件向量（conditioningvector），然后在语音合成过程中利用这个条件向量来控制输出语音的音色。以下是详细的工作流程：

By Chris, 3 monthsAugust 9, 2025 ago

Blog

Self Hosted AI LLMs with AMD MI50 GPUs

I decide to build a self hosted AI system with some cheap hardwares to test and learn AI. Here’s what I have right now: CPU: AMD Ryzen 3950X 16 cores 32 threadsMemory: 32GBMotherboard: Aorus X570 eLite WifiStorage: 500GB NVMeGPU: AMD MI50 32GBGPU for video output: Nvidia 1050 Ti 4GB At Read more…

By Chris, 3 monthsAugust 7, 2025 ago

Blog

A100/H100 太贵，何不用 4090？

推荐一个好文作者：李博杰这是一个好问题。先说结论，大模型的训练用 4090 是不行的，但推理（inference/serving）用 4090 不仅可行，在性价比上还能比 H100 稍高。4090 如果极致优化，性价比甚至可以达到 H100 的 2 倍。事实上，H100/A100 和 4090 最大的区别就在通信和内存上，算力差距不大。 H100 A100 4090 Tensor FP16 算力 989 Tflops 312 Tflops 330 Tflops Tensor FP32 算力 495 Tflops 156 Tflops 83 Tflops 内存容量 80 GB 80 GB 24 GB 内存带宽 3.35 TB/s 2 TB/s 1 TB/s 通信带宽 900 GB/s Read more…

By Chris, 7 monthsApril 15, 2025 ago

Blog

GPT-4o的多模态生图,让整个设计圈开始都emo了(组图)

GPT4o的多模态生图前天上线之后。经过两天的发酵，含金量还在不断提升。在我的群里，已经能看到越来越多的，进入到实际生产环节的例子。比如@银海的直接做商品图的翻译和合成，这是原来的算法，很难做的效果，但是现在，有手就行。非常复杂的电商流程，一张原始图，换产品换脸换衣服。比如@歸藏的直接把UI图放样机里面的例子，如果做过UI或者产品设计的朋友肯定都知道，以前我们在做展示，或者做汇报的时候，经常做样机做的挺痛苦的。比如给他头像，画的两套表情包，是可以直接上架到微信表情商店的那种。来自一个顶级消费品公司的电商设计团队负责人@黄花鱼，用GPT-4o来直接做之前非常流行的3D品牌海报。比如我一个很喜欢的小红书AI博主@Rico有三猫，用GPT-4o给她做小红书封面。也用GPT-4o直接做商品图翻译出海。群友@默月佥在用GPT-4o出蜜蜂的解剖科普图。一个很专业的公众号AI博主@阿真lrene，不仅用GPT-4o生成复杂的漫画，还能抠图，一键直出透明通道的PNG图。干死各种抠图软件的不是更牛逼的抠图软件，而是大模型。。。还有朋友@不知名网友虎子哥，用GPT-4o给他自己家的房子装修。。。还有一些我确实不知道源头的但是被传播的蛮广的例子（如有作者，欢迎评论区认领）。给几个家具做一个展示图，这个场景在电商领域无敌。之前我写可灵的AI模特的时候，很多人问，能不能让模特戴首饰？现在，可以了。还用它，直接P图，消除人物。老照片一键修复+上色。甚至，还可以模仿字体做字体设计。在GPT-4o的冲击下，N多的设计师和创业者，都有点emo了。比如就有大佬在X上感叹道：朋友圈里还看到了一张图，是glif的老板，在X上发的。纪念ComfyUI，纪念一切的AI图像工作流。 OpenAI的一次更新，又屠杀了一堆公司。又一次深刻的阐明了那句《三体》中的经典台词：我消灭你，与你无关。 GPT-4o的冲击当然是有，但是，他的上限在哪？能做到什么地步？真的能彻底替代ComfyUI的AI图像工作流吗？我想弄清楚这个答案。首先我觉得我还是要跟大家非常简单的用一两句话解释一下ComfyUI，让大家知道这玩意是个啥，我们才好继续往下聊。 ComfyUI是一个非常专业的工作流工具，不局限于AI绘图，AI视频啥的也都可以往里面接。他的界面大概是这样的，很像电路板。这个就是在Liblib上搭的ComfyUI工作流。它是以节点方式，把各个工具、各个模型给串起来，形成一整套的工作流，比如一张图进去，经过各种节点和插件，输出一个完全风格不同的AI视频，这都是OK的。坦率的讲，我不是ComfyUI的专家的，做过的工作流也不多，我觉得在这个领域，我并没有那么强的发言权，所以。我去请教了一下我的1个好朋友，AI绘图大神@炼丹师忠忠。我想听听，他的看法。首先是，GPT-4o对电商设计的冲击到底有多大？我跟忠忠聊了很久。最后得到的结论，跟我自己在设计行业里感受到的水温差不多。对于普通水平的电商设计师，肯定是有打击的，他们原有的技能水平也就只能产出跟gpt4o差不多的图，相对来说意义不大了。上游的运营专员可以自己操作工具来生产一样质量的图。跟被冲击的插画师类似，可能会变为帮忙修补gpt4o产出的图的bug，还有叠加原图部分细节上去加强细节还原（类似于高低频修复流程）。生产成本降低后，需求量会变大，原本用不起各种华丽背景图包装的商家，现在也用的起了。从效果上极简操作就能生图的工具有美图设计室等一堆工具，GPT4o只是在某些效果方面更进一步而已，对于专业级的实际商业生产的影响可能没有那么大。而从视觉设计角度，对现有的整个开源生态，反而是利好作用。忠忠举了自己设计的公司IP的例子。现在，可以一句话把IP的3D模型，直出到品牌海报上，不需要走以前的3D建模+渲染了，大大节省了时间。同时，更有趣的一点是，GPT-4o可以根据一张IP草图，来生成这个IP的各角度视图。而这些图，会进一步推动flux等开源模型的微调版本的效果。你可能会问，都有GPT-4o了，为什么还要去微调flux，在ComfyUI搭工作流用呢？这不是脱裤子放屁多此一举呢？其实有两个原因。 Read more…

By Chris, 8 monthsMarch 27, 2025 ago