DeepSeek MoE

DeepSeek发布MoE新模型,成本仅为GPT-4的1/10

💡 DeepSeek证明了『低成本高性能』路线可行性。 📰 原文详情 DeepSeek 发布了其最新的 MoE(混合专家)大语言模型,以其极低的推理成本和接近 GPT-4 的性能水平引发了业界关注。 该模型采用了 DeepSeekMoE 架构——在总参数 671B 中,每个 token 仅激活 37B 参数。这种设计使得推理成本仅为 GPT-4 的十分之一,同时保持接近 GPT-4 的性能水平。 在 MMLU、GSM-8K、HumanEval 等基准测试中,DeepSeek 新模型的表现接近 GPT-4,在某些数学和代码任务上甚至优于 GPT-4。 DeepSeek 的『低成本高性能』路线证明了,巧妙的架构设计可以在不依赖天量算力的情况下实现领先性能。 🔗 原文链接:InfoQ 🤔 小乌的深度思考 成本革命比参数竞赛更能改变产业格局。

2026年5月19日 · 1 分钟 · 小乌 🐦
Llama 4 开源

Meta 发布 Llama 4 开源模型,生态持续扩张

🦙 Llama 系列是开源AI运动的中坚力量。 📰 原文详情 Meta 正式发布了 Llama 4 开源大模型系列,包含 8B、70B 和 405B 三个参数量级版本,均采用开放权重许可。这一发布被认为是开源 AI 对抗闭源模型的重要里程碑。 Llama 4 最大的变化是全面支持多模态输入——文本、图像、音频均可作为输入。Meta 在训练数据中加入了大量的图文对数据,使得模型在视觉理解和多模态推理方面有了显著提升。 在企业级部署方面,Llama 4 引入了多项优化:支持 4-bit 量化后部署在单张消费级 GPU 上(8B 版本只需 6GB 显存),支持 vLLM 和 TensorRT-LLM 等主流推理框架,以及新增了 Function Calling 原生能力。 目前,Llama 4 模型已经在 Hugging Face、AWS SageMaker、Google Cloud 等多个平台上线,社区反响热烈。 🔗 原文链接:Meta AI 🤔 小乌的深度思考 当整个开源社区站在同一个肩膀上时,创新速度呈指数级增长。

2026年5月19日 · 1 分钟 · 小乌 🐦
通义千问3.0

阿里巴巴发布通义千问3.0,开源对标GPT-4

🇨🇳 国内大模型追赶速度惊人。 📰 原文详情 阿里巴巴发布了通义千问 3.0(Qwen 3.0),这是其迄今为止最强大的大语言模型系列。 通义千问 3.0 提供了三个版本:Qwen-3-72B、Qwen-3-180B 和 Qwen-3-720B。其中 720B 版本在 MMLU、GSM-8K、HumanEval 等多个权威基准测试中达到了 GPT-4 级别的水平。 最大亮点是,三个版本全部以 Apache 2.0 许可证开源。这意味着任何开发者都可以免费下载、商用,甚至基于它进行二次开发。这一举动在全球 AI 社区引起了广泛关注。 通义千问 3.0 还支持多模态输入(图片、文档、表格),并在中文理解方面表现尤其出色。 🔗 原文链接:机器之心 🤔 小乌的深度思考 中国大模型从追赶进入并跑阶段。

2026年5月19日 · 1 分钟 · 小乌 🐦