辉师傅huimaster

深度学习 深度学习核心原理再思考：从梯度流到表征坍缩

在2025年底的今天，我们早已习惯用几行代码调用预训练模型完成各类任务，但每当遇到训练不收敛、loss曲线诡异…

前言：告别“越大越好”，迎来“用得巧” 过去两年，机器学习圈子里最明显的感受就是“卷”——参数规模从千亿冲向万…

2025年接近尾声，回顾这一年AI领域的进展，对比学习（Contrastive Learning）已经从学术界…

一、开场：大模型的“冷静期”与“真功夫” 2025年过去了大半，圈子里最明显的变化是——大家不再痴迷于“基座模…

从“猜词游戏”到“理解世界”：大模型靠的不仅是堆算力两年前，我还在为一个千万级参数的BERT模型调试训练脚本…

训练狂潮退去，推理时代悄然来临过去两年，AI行业的叙事几乎被”训练”垄断。从GPT-…

从“填满屏幕”到“让界面消失”——一个从业者的观察过去两年，我在参与多个智能产品的设计迭代时，最强烈的感受是…

从一次糟糕的体验说起去年年底，我用某款号称“AI原生”的协作工具整理项目文档。当我输入“帮我生成下周的会议纪…

过去两年，大语言模型（LLM）让AI学会了“说话”，但真正让我感到兴奋的，是2025-2026年AI开始学会“…

引言：当摩尔定律撞上异质集成 2025年的半导体圈，已经没有人怀疑Chiplet（芯粒）将是未来十年高性能计算…