2025 年 AI 模型重要进展汇总文档

2025 年 AI 模型重要进展汇总文档

汇总2025年(1月至12月)AI领域主要模型发布和突破性事件,整合大型语言模型(LLM)、开源模型(重点中国模型)、图片/视频生成模型以及语音模型的进展。数据基于全年关键公告,聚焦OpenAI、Google、Anthropic、xAI、DeepSeek、Qwen、Kimi、MiniMax、ElevenLabs等公司。2025年AI迭代加速,中国开源模型贡献突出,代理能力、多模态、推理和效率成为主流趋势。

1月

  • LLM:DeepSeek发布DeepSeek-R1(开源推理模型),性能媲美OpenAI o1,训练成本低,引发行业震动。
  • 开源模型:MiniMax发布并开源MiniMax-01系列(Text-01和VL-01),支持超长上下文,性价比高。
  • 图片/视频:Luma AI发布Ray 2系列,支持实时视频生成。
  • 语音:科大讯飞更新星火语音大模型,增强多语言情感表达。

2月

  • LLM:OpenAI发布GPT-4.5研究预览;Google发布Gemini 2.0系列,支持2M token上下文。
  • 语音:ElevenLabs推出Scribe STT模型,支持99语言;Deepgram发布Nova-3 STT,提升实时准确率。

3月

  • LLM:OpenAI发布新一代STT模型(gpt-4o-transcribe系列)。
  • 图片/视频:相关多模态扩展。

4月

  • LLM:OpenAI发布o3o4-mini,强化代理能力。
  • 开源模型:阿里Qwen发布Qwen3系列(0.6B至235B MoE,全开源),旗舰模型在代码/数学领先。
  • 图片/视频:Kuaishou发布Kling 2.0,提升运动控制。

5月

  • LLM:Anthropic发布Claude 4系列(Opus 4/Sonnet 4),代理和代码领先;Google发布Veo 3(原生音频视频)。
  • 图片/视频:Google发布Veo 3(首个原生音视频同步);Runway迭代Gen-3

6月

  • 图片/视频:Kuaishou发布Kling 2.1;RunwayGen-3支持1080p。
  • 语音:ElevenLabs发布v3 (Alpha) TTS,支持70+语言和高情感表达;科大讯飞语音合成升级(一句话克隆)。

7月

  • LLM:xAI发布Grok 4
  • 开源模型:Moonshot AI发布开源Kimi K2(MoE架构),专注Agent和编程。
  • 图片/视频:相关迭代。

8月

  • LLM:OpenAI发布GPT-5
  • 开源模型:阿里发布Qwen-Image(开源图像生成)。
  • 图片/视频:阿里Qwen-Image扩展。

9月

  • LLM:Anthropic更新Claude Sonnet 4.5
  • 开源模型:Moonshot更新Kimi K2 Instruct
  • 图片/视频:OpenAI发布Sora 2;阿里通义万相 Wan2.5(音画同步);字节Seedream 4.0

10月

  • LLM:Anthropic发布Claude Haiku 4.5
  • 开源模型:MiniMax发布MiniMax-M2(MoE,Agent优化)。
  • 图片/视频:生数科技Vidu Q2(角色一致性);语音相关更新(如科大讯飞星火X1.5,百变声音克隆)。

11月

  • LLM:Google发布Gemini 3;xAI发布Grok 4.1;Anthropic发布Claude Opus 4.5(密集发布期,竞争激烈)。
  • 开源模型:Moonshot发布Kimi K2 Thinking(强化推理)。
  • 图片/视频:Black Forest LabsFLUX.2(开源图像SOTA);GoogleVeo 3.1;阿里Z-Image(开源高效图像)。

12月

  • LLM:Google发布Gemini 3 Flash;OpenAI发布GPT-5.2系列;NVIDIANemotron 3(开源代理优化)。
  • 开源模型:MiniMax发布MiniMax-M2.1/M1系列。
  • 图片/视频:RunwayGen-4.5(基准第一);KuaishouKling 2.6(原生音频);字节Seedream 4.5;Luma更新。
  • 语音:OpenAI发布新音频模型(Realtime Mini、TTS/STT);GoogleGemini 2.5 Flash Native Audio;阿里开源CosyVoice 3(TTS克隆)。

全年总结
2025年AI模型竞争进入白热化,中国开源模型(DeepSeek、Qwen、Kimi、MiniMax)在效率、开源和基准上多次领先,推动全球普惠。闭源旗舰(如GPT-5系列、Gemini 3、Claude 4.5、Grok 4)专注代理、多模态和实时能力。视频/图像领域音画同步和长时序突破显著;语音模型向低延迟、情感丰富演进。年底11-12月密集发布标志AI能力跃升,代理AI和多模态成为新焦点。

来源:https://vestlab.beikee.org/

评论