JenniferWu'Blog

Created2026-03-03|Updated2026-03-10

Soft prompts\LoRA\Adapter

Created2026-02-10|Updated2026-02-28

TorchServe, TensorFlow Serving，KServe

Created2026-01-24|Updated2026-01-24

Dropout调整：合理位置添加并调整Drop Rate，可有效提升模型性能。 Softmax温度：在注意力、交叉熵分类、对比学习等涉及Softmax的场景中引入温度参数。 Normalization：深度学习核心是表征学习，需通过归一化（如LLM的Pre-norm/Post-norm、多模态系统设计）确保分布对齐，避免深层网络或模块组合时的表征偏移。 Batch Size与Learning Rate同步调整：Batch Size影响梯度估计准确性（类比下山方向），LR影响更新步长（下山速度），方向准确时可加快步长；微调预训练模型时可采用极低LR（如e-7）配合多轮训练。学习率策略：采用W ...

Diffusers

Created2026-01-06|Updated2026-02-11

扩散模型，微调方法等

在终端运行代码

Created2026-01-06|Updated2026-02-28|开发工具

linux(bash)和Windows(cmd)脚本基础知识和使用；分布式训练命令；tmux使用

AI系统架构

Created2026-01-06|Updated2026-03-10

hardware-Compiler-infra-Algorithm-agent

VScode

Created2025-12-21|Updated2025-12-21

使用.vsix导入extension

数据结构

Created2025-11-27|Updated2026-02-28

堆

Tokenization Algorithm

Created2025-11-22|Updated2025-11-22

1. Whitespace / Word-level Tokenization（空格或词级分词）最简单的分词方法：按空格或标点切割。 ✔ 优点非常简单快 ✘ 缺点词表巨大（上百万）完全不能处理新词（OOV）不适合大型模型 📌 使用场景早期 NLP（如传统机器学习、bag-of-words） 🔡 2. Character-level Tokenization（字符级分词）将每个字符作为 token。 ✔ 优点没有 OOV 词表极小（几百个字符） ✘ 缺点序列长度极长，训练慢丢失词内部结构（较难学习语义） 📌 使用场景一些生成任务（字符语言模型）高频率的低资源语 ...

Machine Learning

Created2025-07-26|Updated2025-07-26

对比 Categorical vs. Multinominal 对比点 Categorical 分布 Multinomial 分布抽样单位抽一次，得到一个类别抽多次，得到每类出现的次数是谁的特例？是 Multinomial 的特例（n=1）是更广义的分布应用单标签分类、one-hot 文本计数、生成模型、多次采样 123456789101112131415import torchfrom torch.distributions import Categorical, Multinomialp = torch.tensor([0.2, 0.5, 0. ...