2025,AI 前沿技术动态与产业变革

文章正文
发布时间:2025-07-05 17:11

   曾几何时,国产大模型创业圈 “六小龙” 风光无限,被视作中国 AI 冲击国际舞台的先锋队。然而,进入 2025 年,在新晋对手 DeepSeek 的冲击以及行业理性回调的大背景下,“六小龙” 阵营已明显分化。零一万物和百川智能从曾经的备受瞩目到如今的 “掉队”,折射出大模型创业圈的残酷竞争与行业走向;智谱 AI、MiniMax、月之暗面和阶跃星辰这四家 “幸存者”,则在细分赛道上继续探索。这场从 “六小龙” 到 “四小强” 的行业洗牌,究竟揭示了怎样的发展逻辑?


2025,AI 前沿技术动态与产业变革 华为云盘古大模型 5.5 重磅发布,五大基础模型全面升级

   在 6 月 20 日盛大揭幕的华为开发者大会 2025(HDC 2025)上,华为常务董事、华为云计算 CEO 张平安带来了振奋人心的消息 —— 正式发布盘古大模型 5.5。此次发布意义非凡,自然语言处理(NLP)、计算机视觉(CV)、多模态、预测、科学计算这五大基础模型实现全面升级,为诸多行业注入全新活力与价值。

   盘古自然语言处理 NLP 大模型推出了全新的 718B 深度思考模型,这是一个由 256 个专家组成的 MoE(混合专家)大模型。在知识推理、工具调用、数学等关键领域,该模型实现了能力的大幅增强,处于领先地位。值得一提的是,盘古大模型是依托昇腾云的全栈软硬件完成训练的,这有力地证明了基于昇腾架构,我国完全有能力打造出世界一流的大模型。并且,盘古大模型 5.5 在多个特性上进行了升级,像高效长序列、低幻觉、快慢思考融合、Agent 等,极大地提升了用户体验。


  例如,其提出的自适应快慢思考合一技术,通过构建难度感知的快慢思考数据以及两阶段渐进训练,使得模型能够依据问题的难易程度,自适应地在快慢思考模式间切换。面对简单问题时敏捷回复,复杂问题则进行深度思考,整体模型推理效率提升了 8 倍。


  盘古深度研究 DeepDiver 借助长链难题合成、渐进式奖励等关键技术,在网页搜索、常识性问答等应用场景中,执行效率极高。比如可以在短短 5 分钟内完成超过 10 跳的复杂问答,还能生成万字以上的专业调研报告,显著提升了工作效率。

  盘古预测大模型采用了业界首创的 triplet transformer 统一预训练架构。该架构能够将不同行业的数据,如工艺参数的表格数据、设备运行日志的时间序列数据、产品检测的图片数据等,进行统一的三元组编码,并在同一框架内实现高效处理和预训练。这一创新举措极大地提升了预测大模型的精度,同时大幅增强了跨行业、跨场景的泛化性。在实际应用中,水泥企业借助盘古预测大模型优化配料,增加了固废利用;钢铁企业实现了高炉精准控制,单炉日省燃料 20 吨;云南铝业年省电 2600 万度;天津能源达成 100% 供热均衡。


  华为云持续拓展盘古科学计算大模型与更多科学应用领域的结合。深圳气象局基于盘古,进一步升级了 “智霁” 大模型,首次实现 AI 集合预报。这一创新能够更直观地反映天气系统的演变可能性,有效减少单一预报模型的误差。重庆市气象局针对成渝地区降水局地性强且降水强度大的特点,基于盘古打造了 “天资・12h” 气象大模型,显著提升了灾害天气的日内预报预警能力。深圳能源采用盘古进行中短期风光水发电量预测,减少了发电侧弃电,提升了能源开发效率。


  华为云发布了全新 MoE 架构的 300 亿参数视觉大模型,这是目前业界最大的视觉模型。它全面支持图像、红外、激光点云、光谱、雷达等多维度、泛视觉的感知、分析与决策。此外,盘古 CV 大模型通过跨维度生成模型,构建了油气、交通、煤矿等工业场景稀缺的泛视觉故障样本库,极大地提升了业务场景的可识别种类与精度。


   全新发布的基于盘古多模态大模型的世界模型,可为智能驾驶、具身智能机器人的训练构建所需的数字物理空间,实现持续优化迭代。以智能驾驶领域为例,输入首帧的行车场景、行车控制信息和路网数据,盘古世界模型就能生成每路摄像头的行车视频和激光雷达的点云,能够为智能驾驶生成大量的训练数据,而无需依赖高成本的路采,为端到端模型 “两天一个版本” 的高效迭代提供了强力支撑。并且,盘古世界模型还有望用于火星车的避障训练,通过对数百张火星照片进行增训,加上模拟的深度信息,生成火星的数字物理空间。火星车可以通过对数字空间中岩石的抓取模拟,提升机械臂的操作能力。


   在过去的一年中,盘古大模型持续深耕行业,已在 30 多个行业、500 多个场景中落地,在政务、金融、制造、医疗、煤矿、钢铁、铁路、自动驾驶、气象等领域发挥巨大价值,重塑千行万业,成就行业 AI 先锋。华为云还发布了盘古医学、金融、政务、工业、汽车五个具备深度思考能力的行业自然语言大模型,加速行业智能化,并于 6 月底正式上线。

AI “破圈” 加速步入物理世界,世界模型、合成数据、具身智能成关键驱动力

  展望 2025 年的人工智能行业,从实现爆发性发展的语言智能,到初步显现巨大潜力的空间智能,世界模型、合成数据、具身智能等前沿方向,有望将人工智能的强大能力从虚拟世界加速拓展到物理世界,成为驱动 AI 行业发展的重要力量。

  再回看过去的一段时间里,“世界模型” 成为 AI 行业的热词。世界模型指的是 AI 系统用来表示和理解外部世界运行规律的内部模型,通过大量图像、音频、视频和文本数据训练得来。

国内外在世界模型方面成果不断。去年 12 月初,有 “AI 教母” 之称的斯坦福大学教授李飞飞在同年组建的 World Labs 发布大型世界模型;谷歌 DeepMind 发布新一代世界模型 Genie 2;

Meta 推出了导航世界模型 NWM;此前智源研究院发布全自研原生多模态世界模型 Emu3,实现了视频、图像、文本三种模态的统一理解和生成。


  极佳视界联合创始人兼首席科学家朱政形象地比喻:“有经验的老司机在开车时,对‘鬼探头’等状况会有预判,这得益于人通过规则学习建立了一个简化的世界驾驶模型。” 李飞飞将人类智能归结为语言智能和空间智能两大方面,她认为若想让 AI 超越当前能力,需要能行动的 AI,即从大型语言模型迈向大型世界模型。智源研究院在 2025 十大 AI 技术趋势中提出,世界模型作为赋予 AI 更高级别的认知、适应和决策能力的技术,有望突破传统任务边界,探索人机交互新可能,解决空间智能问题是关键一步,且在 2025 年,空间智能的界限很可能再次被突破。


   数据对于 AI 大模型至关重要,如同 “血液” 和 “燃料”,其质量与数量直接决定模型性能上限。但随着大模型的急速发展,人们面临高质量数据短缺的问题。马斯克接受采访时表示,现实世界中能用于训练 AI 模型的资料已消耗得差不多。《自然》《麻省理工科技评论》等科技杂志也指出,传统数据集被大语言模型开发人员过度 “开垦”。


  人工智能研究机构 Epoch AI 的报告显示,在 2026 年以前,AI 训练将用尽互联网上包含音视频在内的高质量数据,现存真实数据集可能在 2030 年至 2060 年间耗尽。并且现实世界数据还存在质量参差不齐、可能使模型分析结果产生偏差的问题,再加上监管加强,数据获取受到更多限制。合成数据成为解决人工智能未来发展 “数据瓶颈” 的探索方向。


  合成数据是通过计算机算法生成的模拟数据,不直接来源于现实世界。智源研究院在 2025 十大 AI 技术趋势中提到,“合成数据将成为大模型迭代与应用落地的重要催化剂”。例如在智能驾驶领域,像暴雪天气、行人突然闯入道路等危险驾驶场景,在物理世界中真实采集难度极大,此时合成数据就发挥了重要作用。它不仅可以降低人工治理和标注成本,缓解对真实数据的依赖,避免数据隐私问题,还能缓解通用数据被大厂垄断、专有数据获取成本高的状况,促进大模型的应用落地。

通用机器人的时代即将到来,这将是世界上有史以来最大的技术产业。” 英伟达创始人兼首席执行官黄仁勋在国际消费类电子产品展览会(CES)开幕式上如此说道,他认为 AI 的下一个前沿方向是 “物理 AI”,其中蕴含着巨大的价值。2024 年,全球范围内具身智能机器人竞争愈发激烈,截至去年底,国内发布或者在研人形机器人厂商接近 100 家,融资超过 100 亿元,被业内称为 “百人大战” 或 “百机大战”。


在 CES 开幕式上,站在黄仁勋身后的 14 台具身智能机器人中,有 6 台来自中国。智平方创始人兼 CEO 郭彦东认为,未来 5 到 10 年,具身机器人将从高危作业到重复性任务,再到家庭日常,全面融入社会生活,重塑各个行业运作模式。智源研究院预测,2025 年将进入 “具身智能元年”,近百家具身初创企业或将迎来洗牌,厂商数量开始收敛。在技术路线上,端到端模型继续迭代,“小脑” 大模型的尝试可能会有突破。在商业变现方面,更多具身智能应用将在工业场景落地,部分人形机器人将迎来量产。

张宏江预测:多模态大模型即将实现,AGI 奇点来临

  12 月 6 日 - 7 日,2024 T - EDGE 创新大会暨钛媒体财经年会在北京大兴区举办,主题为 “ALL - in on Globalization ,ALL - in on AI”,众多全球科技和商业领导者汇聚一堂,共同探讨人工智能对全球各行业的巨大影响以及企业全球化增长新格局新趋势。在 12 月 7 日的 T - EDGE 全球 AI 论坛上,北京智源人工智能研究院创始理事长,美国国家工程院外籍院士张宏江以 “ChatGPT 发布 24 个月后的 6 点观察” 为主题,对 AI 大模型发展与应用展开深度演讲。

  张宏江表示,随着 ChatGPT 风靡全球,世界迎来新的 AI 革命,模型参数规模呈现指数级 “Scaling Law” 发展。在 ChatGPT 发布 24 个月后的当下,他认为大模型领域存在六个重要技术趋势:Scaling Law 没有全面放缓;AI 将创造新的操作系统、新平台、新生态;大模型推动存量和新增应用;多模态大模型是 AGI 的终极模型;多模态大模型赋能机器人;大模型的未来将迎来 “自主智能” 的世界。


  对于 “Scaling Law 放缓”“大模型面临挑战” 等说法,张宏江认为无需担忧。他指出,即便在 Pre - Training(预训练)方面有放缓趋势,但 o1 模型的发布开拓了新视野。相对于预训练模型的 “快思考” 模式,推理模型 o1 给予了更多思考时间,Scaling Law 的推理性能出现 “拐点”,实现指数级增长。OpenAI 发布的 o1 模型在推理方面超越了人的平均 IQ。Scaling Law 作为大模型的规模定律,当模型参数增大到一定程度,模型精度会出现突飞猛进的增长,即 “涌现” 现象。虽然当前存在数据不足、算力不够以及模型性能改善不明显等质疑,例如 GPT - 5 未发布,但 o1 模型引入 “思考时间” 概念,允许模型在给定计算预算内进行更多计算迭代,推理计算随 “思考时间” 呈指数级增长,所以在推理模型领域,Scaling Law 效应持续而非放缓。


  大模型实际上可看作一个新的操作系统,进而会构建新平台,形成新生态。大模型通过自然语言和多模态交互,能够理解人们需求并执行计算,符合操作系统的功能特点。而且 AI 大模型强大的技术能力将重写所有软件。以模型为核心底层,云架构、数据中心底层是芯片,英伟达、云厂商和数据中心厂商因大模型训练、推理需求快速成长。为了训练模型,在数据处理、存储、交互等方面也建立起新生态,AI infra 的发展对于大模型应用落地至关重要。这个生态比传统软件生态更丰富,能带来更长久的创新、影响和技术变革。大模型不仅推动硬件、芯片厂商发展,还带动数据中心相关硬件厂商以及能源需求和发展,其生态链比 PC、手机生态链更强大。并且基础模型训练成本高昂,而端侧、推理模型需求才刚起步。


展望未来,张宏江认为多模态大模型将是 AGI 的终极模型形态,形成从语音、图片、视频到端到端统一的多模态大模型至关重要。同时,AI 应用在 AI Infra(基础设施)、AI PC、AI 手机、AI 软件、自动驾驶、(人形智能)机器人、AI for Science(科学智能)等领域将迎来新机遇。未来,人们将从 AI 助理走向 Agent,最终每个人都拥有一个 AutoPilot,大模型将迎来自主智能世界。随着大模型发展,统一的多模态大模型有望取得突破,促使 AGI 奇点即将到来。

一文纵览国内外主流 AI 大模型最新进展

当前 AI 正以惊人的指数级速度重塑全球科技格局,大模型作为核心驱动力,不断突破人们的认知边界。从 Deepseek 的爆火到各家新模型的相继发布,AI 领域的竞争已进入白热化阶段。下面对国内外主流 AI 大模型的特点、优劣势及最新进展进行梳理。


国外 AI 大模型竞争激烈且创新不断,OpenAI、谷歌、Meta、Anthropic 等科技巨头持续推出新模型及不同功能版本。GPT - 4 系列是 OpenAI 开发的 AI 大模型,能处理文本和接收图像输入,参数超过 1 万亿甚至达 1.8 万亿个,采用 Transformer 模型架构和混合专家等技术,可处理多达 128K 个文本令牌,在自然语言处理任务如文本摘要、问答、情感分析、机器翻译等方面表现卓越,还可用于文本生成、对话系统、语言翻译、教育、数据分析等领域。


其优势在于精准理解复杂语言结构与语义关系,具备多模态输入输出能力,图像描述出色,专业知识丰富,但仍存在判断失误、“机器幻觉” 以及数学推理短板等问题。近期 OpenAI 宣布将推出新语言模型 GPT - 4.5(代号 “Orion”),它是 GPT - 4 的增强版本,也是 OpenAI 最后一个非思维链模型,未来还计划推出 GPT - 5,二者将通过自然语言处理技术提升多模态生成式 AI 能力。


  OpenAI 的 o3 - mini 是今年 1 月上线的 AI 推理精简版模型,采用新深度学习架构,在模型压缩和知识蒸馏等方面有突破,支持函数调用、结构化输出等功能,在数学、科学等 STEM 领域表现突出,具备多语言处理能力,有低、中、高三种推理强度可选。其优势是成本低、推理速度快,推理能力出色且集成搜索功能,但在博士级科学问题基准测试中表现欠佳,不支持视觉功能。



近期 OpenAI 面向所有用户更新 o3 - mini 的思维链,免费用户可体验有限速率版本,Plus 用户可选择 o3 - mini - high 版本,Pro 用户可无限使用,2 月 3 日还推出 “Deep Research” 功能,计划本月推向移动和桌面 App 端。OpenAI 的 Sora 模型是去年 12 月推出的首个文本生成视频模型,继承 Dall・E - 3 的画质和指令遵循能力,能生成高保真视频,对静态图像进行动画处理,但存在物理交互模拟不准确、时空连续性问题、物体运动不稳定以及文字乱码等局限性。目前 Sora 模型正在开放图像生成功能内测,对视频推送重新分类。

Google 的 Gemini 2.0 系列是其目前最新的 AI 大模型,包含 Flash、Flash - Lite 和 Pro 三大版本。Gemini 2.0 Flash 定位 “高效工作模型”,计算效率超高,适合高并发、高频率任务;Gemini 2.0 Pro 版本编码能力强,能处理超大文本和海量数据;Flash - Lite 是全新高性价比版本,专注大规模文本生成场景。该系列具备多模态交互能力,在复杂推理、知识理解和文本生成等方面表现出色,但在生成人物图像和完整代码生成能力上有待提升。目前 Gemini 2.0 系列已通过 Gemini API 在 Google AI Studio 和 Vertex AI 平台开放使用,在多项基准测试中较 1.5 版本性能显著提升,在 Chatbot Arena LLM Leaderboard 的最新排名中,该系列全部跻身前 10。Anthropic 公司的 Claude 3.5 等模型也各有特点,在此不一一赘述。Meta 的 Llama 3 开源后激发了全球开发者热情,推动了相关技术的发展和应用拓展。

在国内,各大科技企业也在 AI 大模型领域积极布局和创新。阿里的 Qwen2.5、字节的豆包 1.5Pro、腾讯的混元、百度的文心 4.0、讯飞的星火、月之暗面的 Kimi、智谱的 GLM - 4、昆仑万维的天工 4.0、百川智能的 Baichuan 系列、MiniMax 的 01 系列、零一万物的 Yi 系列、阶跃星辰的 Step 系列等模型,都在不断提升性能,针对不同应用场景进行优化。例如,有的模型在中文语言理解和生成上表现出色,更贴合国内用户的使用习惯和需求;有的模型在特定领域如医疗、金融等的知识问答和应用方面进行深入探索,为行业智能化发展提供支持。



结语:在不确定性中寻找确定性的商业哲学

   当零一万物在技术理想与商业现实间被迫收缩战线,当百川智能在战略摇摆中耗尽先发优势,这场大模型创业圈的洗牌早已超越技术竞争的范畴,演变为一场关于 “生存逻辑” 的哲学拷问 —— 在 AI 浪潮的惊涛骇浪中,究竟什么才是穿越周期的锚点?


   技术狂飙的时代,参数量的膨胀曾被视为实力的象征,但零一万物的教训揭示:脱离场景的 “技术主义” 如同建造空中楼阁;百川智能的辗转则证明:没有定力的 “战略焦虑” 终将在频繁转向中迷失方向。反观 “四小强” 的坚守,无论是智谱 AI 的知识图谱深耕,还是阶跃星辰的推理能力押注,本质上都是在做一道 “减法题”—— 在算力霸权与资本寒冬的夹缝中,找到能将技术价值转化为商业价值的 “最小闭环”。


   这让人想起物理学中的 “熵增定律”:系统若不持续注入能量,终将走向无序。大模型创业何尝不是如此?当行业从 “增量扩张” 转向 “存量厮杀”,那些能在不确定性中持续校准方向、在资源有限时聚焦核心场景的企业,才能将 “变” 的挑战转化为 “进” 的机遇。


   站在 2025 年的十字路口,留给行业的思考远不止于此:当技术突破与商业变现的矛盾愈发尖锐,创业公司的 “船小好调头” 究竟是优势还是陷阱?在大厂生态与垂直场景的博弈中,“专精特新” 能否真正构建起护城河?或许答案藏在每一次战略取舍的细节里 —— 不是所有的 “放弃” 都是妥协,也不是所有的 “坚守” 都有价值,唯有在理想与现实的张力中找到动态平衡,才能在 AI 大模型的 “淘汰赛” 中,走出属于中国创业公司的 “长坡厚雪” 之路。


而这,或许正是商业世界最残酷也最迷人的真相:从来没有永恒的赛道,只有持续进化的生存智慧。