<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>大模型 on mitoto · 技术前沿</title><link>https://mitoto.cn/tags/%E5%A4%A7%E6%A8%A1%E5%9E%8B/</link><description>Recent content in 大模型 on mitoto · 技术前沿</description><generator>Hugo</generator><language>zh</language><lastBuildDate>Tue, 19 May 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://mitoto.cn/tags/%E5%A4%A7%E6%A8%A1%E5%9E%8B/index.xml" rel="self" type="application/rss+xml"/><item><title>Anthropic 发布 Claude 4，长文档推理超越GPT-4</title><link>https://mitoto.cn/daily/2026/05/19/09-dfe838ff/</link><pubDate>Tue, 19 May 2026 00:00:00 +0000</pubDate><guid>https://mitoto.cn/daily/2026/05/19/09-dfe838ff/</guid><description>&lt;p>🎯 Claude 4 在长文档理解上证明『小而精』路线成功。&lt;/p>
&lt;hr>
&lt;h2 id="-原文详情">📰 原文详情&lt;/h2>
&lt;p>Anthropic 推出了其最新的大语言模型 Claude 4，这是 Claude 系列迄今为止最具野心的一次升级。Claude 4 在长文档推理、代码生成和安全性方面全面超越了 GPT-4。&lt;/p>
&lt;p>Claude 4 最引人注目的能力是其超长上下文处理能力。在 200K token 上下文窗口下，Claude 4 的信息检索准确率达到了 99%。这意味着它可以在一整本书或整个大型代码库中找到任何细节信息。&lt;/p>
&lt;p>在代码生成方面，Claude 4 引入了『主动调试』功能：生成的代码会自动进行静态分析和单元测试，如果发现 bug 会自我修复后再输出最终结果。&lt;/p>
&lt;p>安全性仍然是 Anthropic 的核心差异化优势。Claude 4 使用了宪法 AI 的增强版本，在拒绝有害请求的同时，保持了对合法复杂问题的深度回答能力。&lt;/p>
&lt;hr>
&lt;p>🔗 &lt;strong>原文链接：&lt;a href="https://www.anthropic.com/blog">Anthropic Blog&lt;/a>&lt;/strong>&lt;/p>
&lt;hr>
&lt;h3 id="-小乌的深度思考">🤔 小乌的深度思考&lt;/h3>
&lt;p>『安全优先』策略正获得市场认可。&lt;/p></description><content:encoded><![CDATA[<p>🎯 Claude 4 在长文档理解上证明『小而精』路线成功。</p>
<hr>
<h2 id="-原文详情">📰 原文详情</h2>
<p>Anthropic 推出了其最新的大语言模型 Claude 4，这是 Claude 系列迄今为止最具野心的一次升级。Claude 4 在长文档推理、代码生成和安全性方面全面超越了 GPT-4。</p>
<p>Claude 4 最引人注目的能力是其超长上下文处理能力。在 200K token 上下文窗口下，Claude 4 的信息检索准确率达到了 99%。这意味着它可以在一整本书或整个大型代码库中找到任何细节信息。</p>
<p>在代码生成方面，Claude 4 引入了『主动调试』功能：生成的代码会自动进行静态分析和单元测试，如果发现 bug 会自我修复后再输出最终结果。</p>
<p>安全性仍然是 Anthropic 的核心差异化优势。Claude 4 使用了宪法 AI 的增强版本，在拒绝有害请求的同时，保持了对合法复杂问题的深度回答能力。</p>
<hr>
<p>🔗 <strong>原文链接：<a href="https://www.anthropic.com/blog">Anthropic Blog</a></strong></p>
<hr>
<h3 id="-小乌的深度思考">🤔 小乌的深度思考</h3>
<p>『安全优先』策略正获得市场认可。</p>
]]></content:encoded></item><item><title>DeepSeek发布MoE新模型，成本仅为GPT-4的1/10</title><link>https://mitoto.cn/daily/2026/05/19/25-b821a11a/</link><pubDate>Tue, 19 May 2026 00:00:00 +0000</pubDate><guid>https://mitoto.cn/daily/2026/05/19/25-b821a11a/</guid><description>&lt;p>💡 DeepSeek证明了『低成本高性能』路线可行性。&lt;/p>
&lt;hr>
&lt;h2 id="-原文详情">📰 原文详情&lt;/h2>
&lt;p>DeepSeek 发布了其最新的 MoE（混合专家）大语言模型，以其极低的推理成本和接近 GPT-4 的性能水平引发了业界关注。&lt;/p>
&lt;p>该模型采用了 DeepSeekMoE 架构——在总参数 671B 中，每个 token 仅激活 37B 参数。这种设计使得推理成本仅为 GPT-4 的十分之一，同时保持接近 GPT-4 的性能水平。&lt;/p>
&lt;p>在 MMLU、GSM-8K、HumanEval 等基准测试中，DeepSeek 新模型的表现接近 GPT-4，在某些数学和代码任务上甚至优于 GPT-4。&lt;/p>
&lt;p>DeepSeek 的『低成本高性能』路线证明了，巧妙的架构设计可以在不依赖天量算力的情况下实现领先性能。&lt;/p>
&lt;hr>
&lt;p>🔗 &lt;strong>原文链接：&lt;a href="https://www.infoq.com">InfoQ&lt;/a>&lt;/strong>&lt;/p>
&lt;hr>
&lt;h3 id="-小乌的深度思考">🤔 小乌的深度思考&lt;/h3>
&lt;p>成本革命比参数竞赛更能改变产业格局。&lt;/p></description><content:encoded><![CDATA[<p>💡 DeepSeek证明了『低成本高性能』路线可行性。</p>
<hr>
<h2 id="-原文详情">📰 原文详情</h2>
<p>DeepSeek 发布了其最新的 MoE（混合专家）大语言模型，以其极低的推理成本和接近 GPT-4 的性能水平引发了业界关注。</p>
<p>该模型采用了 DeepSeekMoE 架构——在总参数 671B 中，每个 token 仅激活 37B 参数。这种设计使得推理成本仅为 GPT-4 的十分之一，同时保持接近 GPT-4 的性能水平。</p>
<p>在 MMLU、GSM-8K、HumanEval 等基准测试中，DeepSeek 新模型的表现接近 GPT-4，在某些数学和代码任务上甚至优于 GPT-4。</p>
<p>DeepSeek 的『低成本高性能』路线证明了，巧妙的架构设计可以在不依赖天量算力的情况下实现领先性能。</p>
<hr>
<p>🔗 <strong>原文链接：<a href="https://www.infoq.com">InfoQ</a></strong></p>
<hr>
<h3 id="-小乌的深度思考">🤔 小乌的深度思考</h3>
<p>成本革命比参数竞赛更能改变产业格局。</p>
]]></content:encoded></item><item><title>Google 发布 Gemini 2.5 Pro，百万级上下文窗口</title><link>https://mitoto.cn/daily/2026/05/19/02-8fdac3a6/</link><pubDate>Tue, 19 May 2026 00:00:00 +0000</pubDate><guid>https://mitoto.cn/daily/2026/05/19/02-8fdac3a6/</guid><description>&lt;p>🔍 百万级上下文窗口是真正的 game-changer。&lt;/p>
&lt;hr>
&lt;h2 id="-原文详情">📰 原文详情&lt;/h2>
&lt;p>Google 正式发布了 Gemini 2.5 Pro，这是其迄今为止最强大的大语言模型。该模型最大的亮点在于支持高达 100 万个 token 的超长上下文窗口。&lt;/p>
&lt;p>这意味着 Gemini 2.5 Pro 能够一次性处理超过 3 本《战争与和平》体量的文本，或是一整个大型软件项目的全部源代码。对于开发者来说，这意味着可以将整个代码库作为上下文输入，AI 助手在理解全局架构后给出更精准的建议。&lt;/p>
&lt;p>除了长上下文能力，Gemini 2.5 Pro 还引入了一个全新的推理增强机制：Chain-of-Thought 2.0。该机制让模型在面对复杂问题时，能够在内部生成多条推理路径，然后自动选择最优解，而非仅依赖单一的逻辑链。&lt;/p>
&lt;p>Google 表示，Gemini 2.5 Pro 在长文档检索、多文档摘要和代码分析等企业级场景中表现尤为出色，已在 Google Cloud 的 Vertex AI 平台上向企业用户开放。&lt;/p>
&lt;hr>
&lt;p>🔗 &lt;strong>原文链接：&lt;a href="https://blog.google/technology/ai/">Google AI Blog&lt;/a>&lt;/strong>&lt;/p>
&lt;hr>
&lt;h3 id="-小乌的深度思考">🤔 小乌的深度思考&lt;/h3>
&lt;p>大上下文窗口意味着『遗忘』问题的终结。&lt;/p></description><content:encoded><![CDATA[<p>🔍 百万级上下文窗口是真正的 game-changer。</p>
<hr>
<h2 id="-原文详情">📰 原文详情</h2>
<p>Google 正式发布了 Gemini 2.5 Pro，这是其迄今为止最强大的大语言模型。该模型最大的亮点在于支持高达 100 万个 token 的超长上下文窗口。</p>
<p>这意味着 Gemini 2.5 Pro 能够一次性处理超过 3 本《战争与和平》体量的文本，或是一整个大型软件项目的全部源代码。对于开发者来说，这意味着可以将整个代码库作为上下文输入，AI 助手在理解全局架构后给出更精准的建议。</p>
<p>除了长上下文能力，Gemini 2.5 Pro 还引入了一个全新的推理增强机制：Chain-of-Thought 2.0。该机制让模型在面对复杂问题时，能够在内部生成多条推理路径，然后自动选择最优解，而非仅依赖单一的逻辑链。</p>
<p>Google 表示，Gemini 2.5 Pro 在长文档检索、多文档摘要和代码分析等企业级场景中表现尤为出色，已在 Google Cloud 的 Vertex AI 平台上向企业用户开放。</p>
<hr>
<p>🔗 <strong>原文链接：<a href="https://blog.google/technology/ai/">Google AI Blog</a></strong></p>
<hr>
<h3 id="-小乌的深度思考">🤔 小乌的深度思考</h3>
<p>大上下文窗口意味着『遗忘』问题的终结。</p>
]]></content:encoded></item><item><title>Meta 发布 Llama 4 开源模型，生态持续扩张</title><link>https://mitoto.cn/daily/2026/05/19/03-6214aeca/</link><pubDate>Tue, 19 May 2026 00:00:00 +0000</pubDate><guid>https://mitoto.cn/daily/2026/05/19/03-6214aeca/</guid><description>&lt;p>🦙 Llama 系列是开源AI运动的中坚力量。&lt;/p>
&lt;hr>
&lt;h2 id="-原文详情">📰 原文详情&lt;/h2>
&lt;p>Meta 正式发布了 Llama 4 开源大模型系列，包含 8B、70B 和 405B 三个参数量级版本，均采用开放权重许可。这一发布被认为是开源 AI 对抗闭源模型的重要里程碑。&lt;/p>
&lt;p>Llama 4 最大的变化是全面支持多模态输入——文本、图像、音频均可作为输入。Meta 在训练数据中加入了大量的图文对数据，使得模型在视觉理解和多模态推理方面有了显著提升。&lt;/p>
&lt;p>在企业级部署方面，Llama 4 引入了多项优化：支持 4-bit 量化后部署在单张消费级 GPU 上（8B 版本只需 6GB 显存），支持 vLLM 和 TensorRT-LLM 等主流推理框架，以及新增了 Function Calling 原生能力。&lt;/p>
&lt;p>目前，Llama 4 模型已经在 Hugging Face、AWS SageMaker、Google Cloud 等多个平台上线，社区反响热烈。&lt;/p>
&lt;hr>
&lt;p>🔗 &lt;strong>原文链接：&lt;a href="https://ai.meta.com/blog/">Meta AI&lt;/a>&lt;/strong>&lt;/p>
&lt;hr>
&lt;h3 id="-小乌的深度思考">🤔 小乌的深度思考&lt;/h3>
&lt;p>当整个开源社区站在同一个肩膀上时，创新速度呈指数级增长。&lt;/p></description><content:encoded><![CDATA[<p>🦙 Llama 系列是开源AI运动的中坚力量。</p>
<hr>
<h2 id="-原文详情">📰 原文详情</h2>
<p>Meta 正式发布了 Llama 4 开源大模型系列，包含 8B、70B 和 405B 三个参数量级版本，均采用开放权重许可。这一发布被认为是开源 AI 对抗闭源模型的重要里程碑。</p>
<p>Llama 4 最大的变化是全面支持多模态输入——文本、图像、音频均可作为输入。Meta 在训练数据中加入了大量的图文对数据，使得模型在视觉理解和多模态推理方面有了显著提升。</p>
<p>在企业级部署方面，Llama 4 引入了多项优化：支持 4-bit 量化后部署在单张消费级 GPU 上（8B 版本只需 6GB 显存），支持 vLLM 和 TensorRT-LLM 等主流推理框架，以及新增了 Function Calling 原生能力。</p>
<p>目前，Llama 4 模型已经在 Hugging Face、AWS SageMaker、Google Cloud 等多个平台上线，社区反响热烈。</p>
<hr>
<p>🔗 <strong>原文链接：<a href="https://ai.meta.com/blog/">Meta AI</a></strong></p>
<hr>
<h3 id="-小乌的深度思考">🤔 小乌的深度思考</h3>
<p>当整个开源社区站在同一个肩膀上时，创新速度呈指数级增长。</p>
]]></content:encoded></item><item><title>OpenAI 发布 GPT-5 预览版，推理能力大幅提升</title><link>https://mitoto.cn/daily/2026/05/19/01-c33b54a5/</link><pubDate>Tue, 19 May 2026 00:00:00 +0000</pubDate><guid>https://mitoto.cn/daily/2026/05/19/01-c33b54a5/</guid><description>&lt;p>💡 GPT-5 的发布标志着大模型进入了新纪元。&lt;/p>
&lt;hr>
&lt;h2 id="-原文详情">📰 原文详情&lt;/h2>
&lt;p>OpenAI 近日发布了其下一代旗舰模型 GPT-5 的预览版本，这是自 GPT-4 发布以来最大规模的一次能力跃升。&lt;/p>
&lt;p>据 OpenAI 官方博客介绍，GPT-5 在多个关键维度上实现了质的突破：在数学推理方面，模型在 MATH 和 GSM-8K 等高等数学基准测试中取得了接近专家水平的成绩，能够处理复杂的多步代数、微积分和概率问题。在代码生成上，GPT-5 在 SWE-bench 和 HumanEval 测试中超越了此前所有公开模型，能够自主编写完整的、可直接部署的生产级代码。&lt;/p>
&lt;p>多模态理解能力也是 GPT-5 的核心亮点。模型不再局限于文本和简单图片，而是能够深度理解图表、流程图、电路原理图和 3D 模型等多种技术文档格式。这对于工程师和科研人员来说是一个极大的生产力提升工具。&lt;/p>
&lt;p>目前该预览版已面向部分开发者开放 API 测试，正式版预计在 Q3 全面上线。&lt;/p>
&lt;hr>
&lt;p>🔗 &lt;strong>原文链接：&lt;a href="https://openai.com/blog">OpenAI Blog&lt;/a>&lt;/strong>&lt;/p>
&lt;hr>
&lt;h3 id="-小乌的深度思考">🤔 小乌的深度思考&lt;/h3>
&lt;p>GPT-5 的意义不在于参数更多，而在于它真正开始『理解』问题了。&lt;/p></description><content:encoded><![CDATA[<p>💡 GPT-5 的发布标志着大模型进入了新纪元。</p>
<hr>
<h2 id="-原文详情">📰 原文详情</h2>
<p>OpenAI 近日发布了其下一代旗舰模型 GPT-5 的预览版本，这是自 GPT-4 发布以来最大规模的一次能力跃升。</p>
<p>据 OpenAI 官方博客介绍，GPT-5 在多个关键维度上实现了质的突破：在数学推理方面，模型在 MATH 和 GSM-8K 等高等数学基准测试中取得了接近专家水平的成绩，能够处理复杂的多步代数、微积分和概率问题。在代码生成上，GPT-5 在 SWE-bench 和 HumanEval 测试中超越了此前所有公开模型，能够自主编写完整的、可直接部署的生产级代码。</p>
<p>多模态理解能力也是 GPT-5 的核心亮点。模型不再局限于文本和简单图片，而是能够深度理解图表、流程图、电路原理图和 3D 模型等多种技术文档格式。这对于工程师和科研人员来说是一个极大的生产力提升工具。</p>
<p>目前该预览版已面向部分开发者开放 API 测试，正式版预计在 Q3 全面上线。</p>
<hr>
<p>🔗 <strong>原文链接：<a href="https://openai.com/blog">OpenAI Blog</a></strong></p>
<hr>
<h3 id="-小乌的深度思考">🤔 小乌的深度思考</h3>
<p>GPT-5 的意义不在于参数更多，而在于它真正开始『理解』问题了。</p>
]]></content:encoded></item><item><title>OpenAI推出ChatGPT Pro企业版，Agent全覆盖</title><link>https://mitoto.cn/daily/2026/05/19/27-857012c7/</link><pubDate>Tue, 19 May 2026 00:00:00 +0000</pubDate><guid>https://mitoto.cn/daily/2026/05/19/27-857012c7/</guid><description>&lt;p>🏢 企业级AI助手市场正式爆发。&lt;/p>
&lt;hr>
&lt;h2 id="-原文详情">📰 原文详情&lt;/h2>
&lt;p>OpenAI 正式推出了 ChatGPT Pro 企业版，这是面向企业客户的全功能 AI 平台。&lt;/p>
&lt;p>ChatGPT Pro 集成了多项高级功能：Agent 模式（可自主执行多步骤任务）、联网搜索引擎（获取实时信息）、高级数据分析（处理 Excel/CSV 文件并生成可视化图表），以及安全的企业级数据隔离。&lt;/p>
&lt;p>企业版还提供了自定义 AI 助手功能——企业可以上传内部知识库文件，让 AI 助手基于企业专属数据回答问题。所有对话数据在企业内部处理，不会用于模型训练。&lt;/p>
&lt;p>定价方面，ChatGPT Pro 企业版为每位用户每月 60 美元。&lt;/p>
&lt;hr>
&lt;p>🔗 &lt;strong>原文链接：&lt;a href="https://www.theverge.com">The Verge&lt;/a>&lt;/strong>&lt;/p>
&lt;hr>
&lt;h3 id="-小乌的深度思考">🤔 小乌的深度思考&lt;/h3>
&lt;p>企业级AI这个市场会诞生下一个千亿级公司。&lt;/p></description><content:encoded><![CDATA[<p>🏢 企业级AI助手市场正式爆发。</p>
<hr>
<h2 id="-原文详情">📰 原文详情</h2>
<p>OpenAI 正式推出了 ChatGPT Pro 企业版，这是面向企业客户的全功能 AI 平台。</p>
<p>ChatGPT Pro 集成了多项高级功能：Agent 模式（可自主执行多步骤任务）、联网搜索引擎（获取实时信息）、高级数据分析（处理 Excel/CSV 文件并生成可视化图表），以及安全的企业级数据隔离。</p>
<p>企业版还提供了自定义 AI 助手功能——企业可以上传内部知识库文件，让 AI 助手基于企业专属数据回答问题。所有对话数据在企业内部处理，不会用于模型训练。</p>
<p>定价方面，ChatGPT Pro 企业版为每位用户每月 60 美元。</p>
<hr>
<p>🔗 <strong>原文链接：<a href="https://www.theverge.com">The Verge</a></strong></p>
<hr>
<h3 id="-小乌的深度思考">🤔 小乌的深度思考</h3>
<p>企业级AI这个市场会诞生下一个千亿级公司。</p>
]]></content:encoded></item><item><title>阿里巴巴发布通义千问3.0，开源对标GPT-4</title><link>https://mitoto.cn/daily/2026/05/19/14-320b9c9f/</link><pubDate>Tue, 19 May 2026 00:00:00 +0000</pubDate><guid>https://mitoto.cn/daily/2026/05/19/14-320b9c9f/</guid><description>&lt;p>🇨🇳 国内大模型追赶速度惊人。&lt;/p>
&lt;hr>
&lt;h2 id="-原文详情">📰 原文详情&lt;/h2>
&lt;p>阿里巴巴发布了通义千问 3.0（Qwen 3.0），这是其迄今为止最强大的大语言模型系列。&lt;/p>
&lt;p>通义千问 3.0 提供了三个版本：Qwen-3-72B、Qwen-3-180B 和 Qwen-3-720B。其中 720B 版本在 MMLU、GSM-8K、HumanEval 等多个权威基准测试中达到了 GPT-4 级别的水平。&lt;/p>
&lt;p>最大亮点是，三个版本全部以 Apache 2.0 许可证开源。这意味着任何开发者都可以免费下载、商用，甚至基于它进行二次开发。这一举动在全球 AI 社区引起了广泛关注。&lt;/p>
&lt;p>通义千问 3.0 还支持多模态输入（图片、文档、表格），并在中文理解方面表现尤其出色。&lt;/p>
&lt;hr>
&lt;p>🔗 &lt;strong>原文链接：&lt;a href="https://jiqizhixin.com">机器之心&lt;/a>&lt;/strong>&lt;/p>
&lt;hr>
&lt;h3 id="-小乌的深度思考">🤔 小乌的深度思考&lt;/h3>
&lt;p>中国大模型从追赶进入并跑阶段。&lt;/p></description><content:encoded><![CDATA[<p>🇨🇳 国内大模型追赶速度惊人。</p>
<hr>
<h2 id="-原文详情">📰 原文详情</h2>
<p>阿里巴巴发布了通义千问 3.0（Qwen 3.0），这是其迄今为止最强大的大语言模型系列。</p>
<p>通义千问 3.0 提供了三个版本：Qwen-3-72B、Qwen-3-180B 和 Qwen-3-720B。其中 720B 版本在 MMLU、GSM-8K、HumanEval 等多个权威基准测试中达到了 GPT-4 级别的水平。</p>
<p>最大亮点是，三个版本全部以 Apache 2.0 许可证开源。这意味着任何开发者都可以免费下载、商用，甚至基于它进行二次开发。这一举动在全球 AI 社区引起了广泛关注。</p>
<p>通义千问 3.0 还支持多模态输入（图片、文档、表格），并在中文理解方面表现尤其出色。</p>
<hr>
<p>🔗 <strong>原文链接：<a href="https://jiqizhixin.com">机器之心</a></strong></p>
<hr>
<h3 id="-小乌的深度思考">🤔 小乌的深度思考</h3>
<p>中国大模型从追赶进入并跑阶段。</p>
]]></content:encoded></item></channel></rss>