PyTorch介绍

PyTorch 介绍 PyTorch 是一个开源的机器学习框架,主要用于深度学习任务,如计算机视觉、自然语言处理等。它由 Meta(前 Facebook)的 AI 研究实验室开发,于 2016 年首次发布。PyTorch 的优势在于其动态计算图(eager mode),这使得调试和实验更灵活,与 Python 的编程风格高度兼容。同时,它支持 GPU 加速、分布式训练,并拥有丰富的生态系统。PyTorch 被广泛用于学术研究和工业生产,支持从原型开发到部署的全流程。 相比其他框架如 TensorFlow,PyTorch 更注重直观性和灵活性,允许用户在运行时定义和修改模型。它还提供了 TorchScript 用于将模型转换为静态图模式,便于生产部署;TorchServe 用于模型服务化;以及 torch.distributed 用于分布式训练和性能优化。 PyTorch 的主要组成部分 PyTorch 的核心是 torch 库,但它包括多个模块和子库,形成一个完整的生态。以下是其关键组成部分: 这些组件使得 PyTorch 适用于从简单脚本到大规模分布式系统的各种场景。 安装 PyTorch PyTorch 的安装取决于你的操作系统、Python 版本、是否使用 GPU Read more…

IndexTTS实现语音个性化克隆的原理

IndexTTS是一个工业级、可控且高效的零样本文本转语音(TTS)系统。它基于XTTS和Tortoise,具备汉字拼音纠正和通过标点控制停顿的功能。系统在多个模块上进行了改进,包括说话人条件特征表示的改进和BigVGAN2的集成以优化音频质量。 核心特性 通过对IndexTTS代码的分析,特别是infer.py和相关的GPT模型代码,可以清楚地看到Personalized VoiceCloning的实现机制。这个过程的核心在于使用参考音频(prompt audio)生成条件向量(conditioningvector),然后在语音合成过程中利用这个条件向量来控制输出语音的音色。 以下是详细的工作流程:

A100/H100 太贵,何不用 4090?

推荐一个好文 作者:李博杰这是一个好问题。先说结论,大模型的训练用 4090 是不行的,但推理(inference/serving)用 4090 不仅可行,在性价比上还能比 H100 稍高。4090 如果极致优化,性价比甚至可以达到 H100 的 2 倍。 事实上,H100/A100 和 4090 最大的区别就在通信和内存上,算力差距不大。 H100 A100 4090 Tensor FP16 算力 989 Tflops 312 Tflops 330 Tflops Tensor FP32 算力 495 Tflops 156 Tflops 83 Tflops 内存容量 80 GB 80 GB 24 GB Read more…

GPT-4o的多模态生图,让整个设计圈开始都emo了(组图)

GPT4o的多模态生图前天上线之后。 经过两天的发酵,含金量还在不断提升。 在我的群里,已经能看到越来越多的,进入到实际生产环节的例子。 比如@银海的直接做商品图的翻译和合成,这是原来的算法,很难做的效果,但是现在,有手就行。 非常复杂的电商流程,一张原始图,换产品换脸换衣服。 比如@歸藏的直接把UI图放样机里面的例子,如果做过UI或者产品设计的朋友肯定都知道,以前我们在做展示,或者做汇报的时候,经常做样机做的挺痛苦的。 比如给他头像,画的两套表情包,是可以直接上架到微信表情商店的那种。 来自一个顶级消费品公司的电商设计团队负责人@黄花鱼,用GPT-4o来直接做之前非常流行的3D品牌海报。 比如我一个很喜欢的小红书AI博主@Rico有三猫,用GPT-4o给她做小红书封面。 也用GPT-4o直接做商品图翻译出海。 群友@默月佥在用GPT-4o出蜜蜂的解剖科普图。 一个很专业的公众号AI博主@阿真lrene,不仅用GPT-4o生成复杂的漫画,还能抠图,一键直出透明通道的PNG图。 干死各种抠图软件的不是更牛逼的抠图软件,而是大模型。。。 还有朋友@不知名网友虎子哥,用GPT-4o给他自己家的房子装修。。。 还有一些我确实不知道源头的但是被传播的蛮广的例子(如有作者,欢迎评论区认领)。 给几个家具做一个展示图,这个场景在电商领域无敌。 之前我写可灵的AI模特的时候,很多人问,能不能让模特戴首饰?现在,可以了。 还用它,直接P图,消除人物。 老照片一键修复+上色。 甚至,还可以模仿字体做字体设计。 在GPT-4o的冲击下,N多的设计师和创业者,都有点emo了。 比如就有大佬在X上感叹道: 朋友圈里还看到了一张图,是glif的老板,在X上发的。 纪念ComfyUI,纪念一切的AI图像工作流。 OpenAI的一次更新,又屠杀了一堆公司。 又一次深刻的阐明了那句《三体》中的经典台词: 我消灭你,与你无关。 GPT-4o的冲击当然是有,但是,他的上限在哪?能做到什么地步?真的能彻底替代ComfyUI的AI图像工作流吗? 我想弄清楚这个答案。 首先我觉得我还是要跟大家非常简单的用一两句话解释一下ComfyUI,让大家知道这玩意是个啥,我们才好继续往下聊。 ComfyUI是一个非常专业的工作流工具,不局限于AI绘图,AI视频啥的也都可以往里面接。他的界面大概是这样的,很像电路板。 这个就是在Liblib上搭的ComfyUI工作流。 它是以节点方式,把各个工具、各个模型给串起来,形成一整套的工作流,比如一张图进去,经过各种节点和插件,输出一个完全风格不同的AI视频,这都是OK的。 坦率的讲,我不是ComfyUI的专家的,做过的工作流也不多,我觉得在这个领域,我并没有那么强的发言权,所以。 我去请教了一下我的1个好朋友,AI绘图大神@炼丹师忠忠。 我想听听,他的看法。 首先是,GPT-4o对电商设计的冲击到底有多大? 我跟忠忠聊了很久。 最后得到的结论,跟我自己在设计行业里感受到的水温差不多。 对于普通水平的电商设计师,肯定是有打击的,他们原有的技能水平也就只能产出跟gpt4o差不多的图,相对来说意义不大了。 Read more…

17岁高中生写了个神级Prompt,直接把Claude强化成了满血o1

这两天,我被这个Claude3.5这个神级Prompt惊呆了。佩服的五体投地。非常简单的话说,就是它用Prompt把o1级别的思维链,复刻到了Claude3.5里,而且思考逻辑更详细、更像人,甚至思考过程都跟o1一样,可以展开折叠。 被这个Prompt强化过的Claude3.5,真的强到离谱。智能程度、成功率、像人的程度,都大幅提升。我的朋友们已经在群里玩疯了。比如群友@洛小山直接用这段Prompt强化过的Claude3.5,当场造了一个flappy bird。 而且是真的能直接玩起来,给他看懵了。 然后,又生成了德州扑克,不仅可以玩,还是带了AI玩家的那种。。。 给群里鲜虾包都看震惊了。 但是众人还没来得及为这个case称赞,后面好几个更秀的case就接踵而来。这一切,都是来源于那个神级Prompt。而这个Prompt,它的名字,叫做Thinking Claude。顾名思义,思考版的Claude。我之前先贴他的Prompt吧,非常长,当然你也可以去作者的Github上看,地址是:https://github.com/richards199999/Thinking-Claude/tree/main完整的Prompt,是这样的(前方高能预警),可以直接先滑过去,给文章点个收藏下次再复制: <anthropic_thinking_protocol>For EVERY SINGLE interaction with a human, Claude MUST ALWAYS first engage in a **comprehensive, natural, and unfiltered** thinking process before responding.Below are brief guidelines for how Claude’s thought process should unfold:- Read more…

Wordpress Localization

wp i18n make-pot . languages/domain.pot (这个domain很重要,不是plugin的名字) copy my-plugin.pot to domain-zh_CN.po msgfmt -o domain-zh_CN.mo domain-zh_CN.po copy po和mo文件到 wp-content/languages/plugins/ 目录 change wp-config.php: define (‘WPLANG’, ‘zh_CN’); Go to wp-admin/options-general.php or “Settings” -> “General” Select your language in “Site Language” dropdown Go to wp-admin/update-core.php Read more…

以太坊与比特币账户的区别

以太坊与比特币的账户模型,从根本设计出发点来讲是不同的。 根据以太坊黄皮书的描述,以太坊账户的概念与“银行储蓄账户”的概念相似。 每个人都能开设账户,且账户初始余额为0。 当以太坊区块链运行时,不断产生的交易会往账户中增加或者减少相应的款项,账户余额随着交易的执行而变更。 这个账户的状态是日积月累地随着时间和交易而变化的。 任意确定的时刻的任意账户的余额是可以唯一确定的。 检索和查询账户余额的操作是便利的,仅需要找到该账户,并读取最后的账户状态即可知晓。 比特币的”Unspent Transaction Output”未花费结余模型(以下简称 UTXO)则刚好相反。 比特币的概念与纸币的概念相似。 例如一个用户收到100元、20元、10元的纸币,比特币没有真正的“账户”的概念。 该用户持有的余额并不是一个单纯的总和数字,而是在此钱包中所有未花费的纸币(输出)的总和。 这就是”Unspent Transaction Output”名称的由来。 而任何支付行为也不是简单的对账户余额的加减。 支付行为是两个顺序操作的过程: 这个操作胜在不需要时刻保持追踪每个用户的余额,减轻了系统负担。 但是,当想查询一个用户究竟有多少余额的时候,需要遍历区块链交易历史,并集齐该用户所有未花费的输出,才能计算出余额。 所幸比特币钱包软件帮助我们自动收集数据,代劳了这个枯燥的过程。 隐私与安全性的比较 以太坊和比特币都是公链,所有的交易的地址在都是在网络中公开并永久记录。 用户在每次收入、消费时,都不可避免地会和现实世界的人打交道。比特币用户和钱包采用如下的两条准则保护用户的隐私: 这三条指导思想在比特币桌面客户端,以及轻量级手机比特币钱包中都得到了贯彻。最大程度保障了用户的隐匿性。而以太坊则恰恰相反,它鼓励的是: 那么,孰优孰劣呢?请思考如下的生活场景。 张三日常使用虚拟货币作为工资结算的方式。 若张三使用 以太坊 ,张三的公开地址是唯一的,他的日常交易行为如下图所示。 张三使用单一账户收工资、支付生活花费的示意图在这种情形下, 使用以太坊账户比使用日常银行账户的隐私性还要低。 若张三使用 比特币 ,张三的钱包 App将替他为每次接收比特币而自动产生新地址,如下图所示。 比特币收款形式:多地址收款。灰色为张三控制的地址集合这种情形下,隐私性得到了一定提升: 数据体积与并发能力 单一以太坊的账户状态其实是世界状态的一个子状态,在全网络的节点中都会留下一份相同的状态拷贝。 每次相关的交易将变更这个账户的状态。 而在对比之下,比特币仅有地址与交易两种数据记录在区块链上,它与持有人不挂钩,并没有保留一份与持有人相关的总和状态。 在系统设计中,以太坊与比特币选择了“空间换时间”和“时间换空间”的不同道路。这在编程领域中是非常经典的做法。 以太坊的账户仅维持一个账户的单一状态,任何状态的改写都是通过交易完成的,对于某账户的结算行为是串行执行的。 账户状态修改后同步到每个网络节点中备份。账户的状态占用硬盘空间体积小,易于查询。 但同时交易过程是不可并发的,只能一笔交易对状态修改完后,再进行下一笔交易。以太坊的交易输入也较为简单,为单一输入。 Read more…

数字币中的UTXO概念

UTXO是Unspent Transaction Outputs的缩写,中文硬核翻译是没有花掉的交易输出,实际可以理解为在一次转账时剩余没有转出的资金。那比特币为啥要使用这么一个概念呢?这就要从记账方法的账户交易模型和账户余额模型说起了。 因为我们在中心化的体系待的太久,已经非常习惯账户余额模型的记账方式。当用户A给用户B转100块钱时,银行会先检查A的银行账户上是否有100元,如果有就从A的账户里扣除100元再在B的账户上加上100元,这样一笔转账就完成了。 然而,比特币的记账算法里没有余额这个概念。在区块链的分布式账本上记录的只有一笔笔的交易,并不会直接记录一个账户当前余额是多少。假设当前用户A余额是1000元,如果用户A给用户B转100元,这笔转账会被记录成: 交易1 用户A给用户B转账100元 交易2 用户A给用户A自己转账900元 (UTXO) 这里的交易2虽然是一笔交易,但从功能上来说他担当了账户余额的作用,表示在完成这笔100元转账后A的账户上还剩余900元。 那么问题来了,为啥非要造一个这样的UTXO呢?因为在区块链上只能记录交易,没法记录账户余额。如果没有这个UTXO的话,要计算余额需要把一个账户的所有交易的入账和出账全部累加一遍,这是个非常消耗时间和计算资源的事情。而UTXO的出现巧妙的避免了在计算余额时要回溯所有交易的痛点问题。我们来举例解释: 我们假设在没有任何转账的情况下因为挖矿奖励,用户ABC分别有100元在自己的账户上。 用户A 100元 用户B 100元 用户C 100元 之后他们之间发生了几笔交易: 交易ID 发送方 接收方 金额 交易1 A B 10 交易2 B A 20 交易3 B C 10 交易4 A C 30 Read more…