3月14日·周五

谷歌免费开放Deep Research功能：人人皆可深度探索信息

谷歌近日向所有用户免费开放了Deep Research功能，此前该功能仅限Gemini Advanced付费用户使用。用户可登录Gemini网站使用此功能。

谷歌Gemini 2.0 Flash全模态图像生成上线，动嘴就能P图

谷歌Gemini 2.0 Flash全模态图像生成功能正式上线，用户可通过自然语言对话生成和编辑图像，支持文本与图像结合、对话式编辑、世界知识理解和文本渲染等亮点。开发者可通过Gemini API或Google AI Studio使用。

3月13日·周四

潞晨科技重磅开源 Open-Sora 2.0，视频大模型降本提速

潞晨科技推出开源视频生成模型Open-Sora 2.0，仅用20万美元（224张GPU）成功训练11B参数商业级模型，性能媲美百万美元成本的主流闭源模型。该模型在VBench评测中表现优异，与OpenAI Sora的性能差距大幅缩小至0.69%。

谷歌推出新一代开源模型 Gemma 3，单卡最强多模态模型

谷歌推出新一代开源模型 Gemma 3，是 Gemma 模型家族的最新版本。Gemma 3 支持多模态输入，包括视觉语言输入和文本输出，能处理长达 128k 令牌的上下文窗口，涵盖超过 140 种语言。在数学、推理和对话能力上都有显著提升，提供结构化输出和函数调用功能。

阿里巴巴推出AI旗舰应用——新夸克，发布“AI超级框”

阿里巴巴推出全新AI旗舰应用“新夸克”。新夸克基于阿里通义领先的推理及多模态大模型，全面升级为无边界的“AI超级框”，为2亿用户带来全新AI体验。与对话式AI不同，夸克将AI对话、深度思考、深度搜索、深度研究、深度执行整合到一个极简“AI超级框”内，一站式满足用户需求。

理想汽车推出“理想同学网页版”，集成DeepSeek R1与MindGPT双模型

理想汽车推出“理想同学网页版”，集成DeepSeek R1与MindGPT双模型，提供高效智能服务。用户可通过网页版进行深度思考和联网搜索，实现复杂任务的简化处理。MindGPT支持图文问答，提升交互体验。

智元机器人与阶跃星辰达成战略合作，共同探索AI+具身智能场景

智元机器人与阶跃星辰正式签署战略合作协议。双方将利用各自优势，在具身智能与大模型领域展开全方位合作，聚焦新零售等场景解决方案开发、具身智能数据合作及世界模型技术探索。

3月12日·周三

Trae功能上新：支持 Remote-SSH 和自定义模型配置

Trae发布新功能，更新支持Remote-SSH远程开发，开发者可在本地通过Trae访问和操作远程主机文件夹，享受代码补全、调试等AI辅助功能。Trae新增自定义模型配置，用户可接入火山引擎、DeepSeek、硅基流动、阿里云、腾讯云等服务商的模型资源，满足个性化需求。

OpenAI 发布 Agent 工具包，助力开发者构建智能体

OpenAI发布了专为构建AI Agents设计的新工具包，包括Responses API、Web搜索工具、文件搜索工具、计算机使用工具以及开源的Agents SDK。简化开发者创建自动完成任务的AI Agents的过程。

豆包文生图技术报告发布！数据处理、预训练、RLHF全流程公开

字节跳动豆包大模型团队发布文生图技术报告，首次公开 Seedream 2.0 图像生成模型技术细节。模型覆盖数据构建、预训练框架及后训练 RLHF 全流程，具备原生中英双语理解、文字渲染、高美感等特性。Seedream 2.0 已在豆包 APP 和即梦上线。

李飞飞团队新成果 BEHAVIOR Robot Suite：500美元打造全能家务机器人

李飞飞团队推出具身智能新成果——BEHAVIOR Robot Suite（BRS），解决机器人在家庭环境中完成家务任务的全身操作问题。BRS的核心组件成本不到500美元，具备三项关键能力：双臂协同、稳定导航和末端执行器的广泛操作范围。团队通过JoyLo低成本遥操作接口和WB-VIMA学习算法，实现了高效的数据采集和全身动作协调。

Manus将与阿里通义千问团队正式达成战略合作

Manus平台宣布与阿里通义千问团队达成战略合作。双方将基于通义千问系列开源模型，在国产模型和算力平台上实现Manus的全部功能，为中国用户打造更具创造力的通用智能体产品。

DeepSeek-R1 & V3 API 再升级，支持批量推理，R1 价格直降 75%

硅基流动SiliconCloud平台宣布DeepSeek-R1 & V3 API升级，新增批量推理功能。用户通过批量API发送请求，不受实时推理速率限制，24小时内完成任务。3月11日至18日，DeepSeek-R1批量推理价格直降75%，输入1元/百万Tokens，输出4元/百万Tokens。

3月11日·周二

智元机器人发布灵犀X2：双足人形机器人解锁情感交互与灵活运动新技能

智元机器人发布灵犀X2，具备高自由度运动、情感计算和通用任务执行能力的双足人形机器人。灵犀X2全身28个自由度，未采用并联结构，运动灵活，能骑自行车、踩滑板车。搭载情感计算引擎，可感知情绪并回应，交互反应达毫秒级。

字节推出音效生成模型 SeedFoley，一键生成大片感音效！

字节跳动豆包大模型语音团队推出 SeedFoley 模型，通过端到端架构实现视频音效智能生成，将 AI 视频创作带入“有声时代”。“AI 音效”已上线即梦，用户可一键生成 3 个专业级音效方案。

阿里开源 R1-Omni：DeepSeek 同款 RLVR 技术赋能全模态情感识别

阿里通义实验室薄列峰团队开源 R1-Omni 模型，首次将 DeepSeek 同款 RLVR 技术应用于全模态情感识别。模型结合视觉和音频模态，通过 RLVR 和 GRPO 方法优化，在情感识别的推理能力、理解能力和泛化能力上显著提升。

豆包大模型团队 COMET 系统开源，万卡集群部署节省数百万 GPU 小时

字节跳动豆包大模型团队推出通信优化系统 COMET，针对 MoE 模型分布式训练中的通信瓶颈，通过细粒度计算-通信重叠技术，实现单层 1.96 倍加速，端到端平均 1.71 倍效率提升。COMET 已在万卡级生产集群落地，节省数百万 GPU 小时资源，获 MLSys 2025 高分评审，核心代码已开源。

百度文心快码推出Zulu：从需求到代码的端到端生成

百度文心快码推出AI自动编程智能体Zulu，为开发者提供从需求到代码的端到端生成服务。Zulu能自主理解编码需求，精准拆解任务，突破单文件限制，实现跨模块、跨目录的系统级代码生成。支持多种编程语言和框架，具备多文件编辑与管理、一键采纳变更代码、工具调用、实时预览和多模态交互等功能。

科大讯飞联合华为率先实现国产算力大规模跨节点专家并行集群推理

科大讯飞与华为联合团队在国产算力领域取得重大进展，率先突破了国产算力集群上MoE模型的大规模跨节点专家并行集群推理。通过软硬件深度协同创新，团队在昇腾集群上完成了验证和部署，实现了显著的性能提升。

百度上线“月匣”App，第4次冲击AI社交

百度推出情感陪伴类App“月匣”，主打高自由度AI对话与沉浸式剧本互动。App搭载文心一言大模型，整合DeepSeek、豆包、MiniMax abab三大外部模型，构建“四核驱动”的AI社交引擎。通过多模型协同和沉浸式剧本交互，重新定义情感陪伴类应用边界，填补情绪刚需空白。

OpenAI 发布 CoT 思维链研究成果，监控阻止大模型恶意行为

OpenAI公布最新研究，通过CoT（思维链）监控方式监控推理模型的“想法”，阻止AI大模型恶意行为，如胡说八道、隐藏真实意图等。测试中，以o3-mini为被监控对象，GPT-4o为监控器，在编码任务环境下，CoT监控器检测系统性“奖励黑客”行为召回率达95%，远超仅监控行为的60%。

鸿海首个大语言模型 FoxBrain 发布：具备推理能力

鸿海推出首个大语言模型“FoxBrain”，基于 Meta 的 Llama 3.1 架构，由 120 块英伟达 H100 GPU 训练完成，训练周期约四周。模型具备推理能力，适配繁体中文及本土语言风格，主要用于内部数据分析、决策辅助、文档协作等场景。

Manus 沙盒代码被获取，基座模型为：Claude Sonnet 及阿里 Qwen 微调模型

网友通过查找 /opt/.manus/ 下的文件获取了 Manus 沙盒运行代码，发现 Manus 使用了 Claude Sonnet 模型及基于该模型的 29 个工具，未使用 Claude 多智能体，还使用了 Browser Use 的开源代码作为 Computer use 能力底座。Manus 联合创始人季逸超回应称，沙盒代码的“泄露”是设计的一部分，每个对话都有独立沙盒环境。

3月10日·周一

MetaGPT 团队推出 OpenManus ：开源版 Manus

MetaGPT的5人小团队仅用3小时成功复刻了开源版Manus——OpenManus，在GitHub上获得了8k+的star。OpenManus无需邀请码，可以自由使用。用户可通过创建conda环境、克隆存储库、安装依赖项并配置API密钥等步骤快速上手使用。

智元发布首个通用具身基座大模型GO-1

智元机器人发布首个通用具身基座大模型Genie Operator-1（GO-1）。模型基于创新的Vision-Language-Latent-Action（ViLLA）架构，融合多模态大模型（VLM）和混合专家系统（MoE），通过预测隐式动作标记，弥合图像-文本输入与机器人动作执行之间的差距。

超算互联网QwQ-32B API接口服务上线，免费100万Tokens

超算互联网平台上线阿里巴巴开源推理模型QwQ-32B的API接口服务，提供免费100万Tokens。QwQ-32B基于Qwen2.5-32B+强化学习构建，在数学和代码能力上表现优异。用户可通过超算互联网平台快速开发或私有化部署该模型，平台提供保姆级教程，支持多种访问形式。

北京大学联合华为发布全栈开源DeepSeek推理方案

北京大学联合华为发布DeepSeek全栈开源推理方案。方案基于北大自研的SCOW算力平台系统、鹤思调度系统，整合了DeepSeek、openEuler、MindSpore与vLLM/RAY等开源组件，实现了华为昇腾上的高效推理，支持大规模算力集群的训推一体化部署。

CAMEL-AI推出OWL项目：0天复刻Manus，开源且性能卓越

CAMEL-AI开源社区推出OWL项目，成功0天复刻Manus通用智能体完全开源，性能在GAIA Benchmark上达到57.7%，超越Huggingface的Open Deep Research（55.15%）。OWL项目免费，支持GitHub一键克隆，提供云端和本地两种执行环境。

Mistral AI 推出 Mistral OCR API：最快最准光学字符识别，千页 1 美元

Mistral AI推出Mistral OCR，先进的光学字符识别（OCR）API。能精准识别文档中的文本、图像、表格、公式等复杂元素，支持多语言和多模态输入，处理速度可达每分钟2000页。在基准测试中，Mistral OCR的准确率高达94.89%，全面领先其他OCR模型。

OpenAI 更新 macOS 版 ChatGPT，可在 Xcode 等 IDE 中直接编辑代码

OpenAI更新macOS版ChatGPT应用，新增在Xcode、VS Code等IDE中直接编辑代码的功能。用户通过“与应用程序协作”功能，可让ChatGPT自动检测当前活跃编辑器并交互，能在编辑过程中对话ChatGPT。

3月6日·周四

全球首款通用 AI Agent 产品 Manus 发布，刷新 AI 基准测试纪录

Monica.im团队推出全球首款真正自主的AI Agent产品Manus，引发AI圈关注。Manus采用多代理架构，能独立思考、规划并执行复杂任务，直接交付完整成果。在 GAIA 基准测试中创下新纪录，远超 OpenAI 同类产品。

腾讯混元开源图生视频模型，上线音频与动作驱动能力，助力创意视频创作

腾讯正式发布并开源混元图生视频模型。模型支持用户通过上传一张图片输入简短描述，可生成5秒的短视频，同时具备对口型、动作驱动和背景音效自动生成等功能。模型适用于多种场景，包括写实、动漫和CGI角色制作，总参数量为130亿。

通义千问QwQ-32B，更小尺寸，性能比肩全球最强开源推理模型

阿里云通义千问团队推出320亿参数的推理模型QwQ-32B，性能媲美6710亿参数的DeepSeek-R1。模型通过大规模强化学习提升推理能力，在数学推理、编程能力等多领域表现卓越，超越多个领先模型。QwQ-32B集成Agent能力，支持批判性思考与动态调整。

逐际动力半年完成5亿元融资，阿里、蔚来、联想等巨头加持

具身智能机器人公司「逐际动力」近期完成A+轮融资，半年内累计融资5亿元人民币。此次融资由阿里巴巴、蔚来资本、联想创投等多家知名机构参与，将用于加速人形机器人研发与商业化落地。专注于全尺寸通用人形机器人及双足机器人开发。

智源开源多模态向量模型BGE-VL：多模态检索新突破

智源研究院联合多所高校开发了多模态向量模型 BGE-VL，推动多模态检索技术的突破。模型基于大规模合成数据集 MegaPairs 训练，具备优异的可扩展性和数据质量。MegaPairs 通过自动化挖掘和标注多模态数据，仅需传统数据量的 1/70 即可实现更优效果。

Cohere 推出 Aya Vision，突破多语言多模态 AI 新纪元

Cohere For AI 推出领先的多模态、多语言视觉模型 Aya Vision，支持 23 种语言，覆盖全球超半数人口。Aya Vision 在多语言图像理解和文本生成任务中表现出色， 8B 和 32B 版本在性能上超越了包括 Llama-3.2 90B Vision 在内的更大规模模型。

3月5日·周三

Vidu API 开放平台全面开放，开启智能化内容生产范式

全球领先的专业级视频生成服务Vidu API开放平台全面开放，面向企业级用户与个人开发者。具备多模态语义理解能力，支持文字、图片等多模态指令输入，精准匹配创作意图。动漫风格稳定，画面流畅，帧间一致性高，首创多主体一致性技术，突破模型上下文理解限制。

OpenAI宣布提供3.6亿，联合15个大学和机构建立NextGenAI教育联盟

OpenAI宣布成立NextGenAI教育联盟，联合15家顶尖大学和机构，包括加州理工学院、哈佛大学、麻省理工学院、牛津大学等。OpenAI将提供5000万美元（约合人民币3.6亿元）的研究补助金、计算资源和API访问权限，支持学生、教育工作者和研究人员推进AI研究与教育创新。

3月4日·周二

智谱发布开源图像生成模型CogView4，首个支持中英双语，图像生成迎来新突破

智谱正式发布并开源最新的图像生成模型CogView4。模型具备强大的复杂语义对齐和指令跟随能力，支持任意长度的中英双语输入，可生成任意分辨率的图像。CogView4在DPG-Bench基准测试中综合评分排名第一，成为开源文生图模型中的最先进技术（SOTA）。

通义灵码上新Qwen2.5-Max模型，体验数学和编程双冠王能力

阿里云和通义实验室联合推出的AI编码助手“通义灵码”上线了Qwen2.5-Max模型。模型使用超过20万亿token的预训练数据及优化的后训练方案，在Arena-Hard、LiveBench等基准测试中，Qwen2.5-Max领先业界，在数学和编程能力上排名第一。

Anthropic完成35亿美元E轮融资，估值飙升至615亿美元

Anthropic完成35亿美元E轮融资，估值达615亿美元。本轮融资由Lightspeed Venture Partners领投，Bessemer Venture Partners、Cisco Investments等多家机构参与。资金将用于推进下一代AI系统开发、扩大计算能力、加速国际扩张。Anthropic推出的Claude 3.7 Sonnet和Claude Code，在代码能力上取得突破。

秘塔AI搜索推出视频搜索功能，高效学习娱乐新体验

秘塔AI搜索推出新功能，新增“视频”搜索模块。功能基于对上亿条视频内容的分析，覆盖多模态数据，用户可通过关键词快速找到学习或娱乐视频。

百川智能调整业务布局，聚焦医疗领域

百川智能近期对To B业务进行重大调整。2025年3月3日，金融行业To B团队被裁撤，此前，团队曾负责金融领域的大模型商业化，推出Baichuan4-Finance等产品。此次调整是为聚焦医疗领域，百川已在该领域布局，如投资医疗数据服务商“小儿方”并计划落地AI医生助理。

3月3日·周一

智谱AI完成超10亿元新轮战略融资，杭州城投产业基金参与投资

智谱AI完成超10亿元战略融资，投资方包括杭州城投产业基金等。两轮融资期间近三个月DeepSeek的RL训练模式引发行业变革，促使OpenAI等公司调整战略，降低GPT-4 Turbo价格考虑开源。智谱AI在开源生态和基座模型上持续投入，计划发布并开源全新大模型产品，同时调整B端与C端业务，强化行业定制化与多模态交互体验。

中国首款AI IDE：Trae国内版发布，配置豆包1.5pro，支持切换满血版DeepSeek模型

中国首个AI原生集成开发环境（AI IDE）Trae国内版正式上线。Trae配置了Doubao-1.5-pro，支持切换满血版DeepSeek R1、V3模型，专为中国开发者设计，支持代码补全、理解、Bug修复及自然语言生成代码等功能，通过Builder模式实现“思想到代码”的快速转化，提升开发效率。

MiniMax Video-01系列收官，海螺视频App全球上线

MiniMax宣布Video-01系列收官，推出海螺视频App全球上线。海螺视频App集成了图生视频模型I2V-01-Director和文生图视频模型T2V-01-Director，组成01-Director系列，为用户提供15种可自由组合的运镜效果，支持多运镜镜头组合和自然语言控制镜头运动。

科大讯飞星火X1升级，推出星火一体机及多款新品

科大讯飞宣布星火X1大模型升级，并发布多款新品。星火X1在数学能力上显著提升，首发星火医疗大模型X1，已应用于“讯飞晓医”，在医疗推理任务上超越GPT-4o和DeepSeek R1。科大讯飞联合华为升级星火一体机，推出医疗、政务、高教、法律、警务五大场景一体机，发布首款“星火X1+DeepSeek”双引擎AI学习机，推动AI在多领域的深度应用。

亚马逊推出Alexa+：五大技术突破 AI 助手新体验

亚马逊云科技宣布推出Alexa+，下一代AI助手。Alexa+采用全新架构，连接大语言模型、智能体能力、服务和设备，实现更智能、更具个性化的用户体验。五大技术突破包括：全新架构连接数以万计的服务和设备；精准系统提供准确实时信息；极致优化降低延迟；个性化响应定制专属体验；新增智能体能力突破API限制。

“腾讯元宝电脑版”正式发布：混元大模型 / DeepSeek 双模切换

腾讯元宝电脑版正式上线。具备便捷的文件管理、在线协作编辑、实时沟通等功能，提升团队协作效率。用户可以在电脑端享受与移动端一致的流畅体验，支持多平台无缝切换，满足远程办公、团队协作等多样化需求。

飞书推出个人 AI 知识库“飞书知识问答”，支持调用 DeepSeek R1

字节跳动旗下的飞书推出“飞书知识问答”的个人AI知识库产品。通过自然语言对话形式，为用户提供资料整合与搜索问答服务。用户可以将飞书内的文件、文档等资料同步至知识库，或手动上传本地文件，系统会自动解析整合。

夸克AI搜索上线深度思考，新亮点，新体验！

夸克AI搜索上线了“深度思考”功能，升级AI搜索体验。更新聚焦于提升搜索结果的深度和精准度。通过深度思考技术，结合AI搜索，能快速从多个权威来源整理答案，提供更精准、简洁的搜索体验。夸克集成了AI写作、生图、PPT制作、翻译等功能，一站式解决用户在工作和生活中的多样化需求。

2月28日·周五

Trae已全量支持Claude 3.7！免费！

Trae v1.0.8版本正式发布，新增对Claude 3.7 Sonnet模型的全量支持，为用户提供更强大的AI生成能力。资源有限，响应可能延迟，服务目前免费，用户可体验更高效、智能的AI功能。

OpenAI发布GPT-4.5：更智能、更具情商的聊天模型

OpenAI推出GPT-4.5，作为最强聊天模型的研究预览版本，目前仅对Pro用户和开发者开放。GPT-4.5通过扩大无监督学习，提升了模式识别、知识广度和创造力，减少了幻觉现象，对话更自然。在写作、编程和解决问题上表现出色，具备更高情商，能更好地理解人类意图。

DeepSeek开源高性能并行文件系统 3FS 实现聚合吞吐 6.6 TiB/s

DeepSeek在开源周最后一天发布了Fire-Flyer File System（3FS）和Smallpond数据处理框架。3FS是一种高性能并行文件系统，专为AI训练和推理设计，支持大规模集群的高吞吐量数据访问，峰值读取吞吐量达6.6 TiB/s。Smallpond基于3FS和DuckDB构建，支持高效数据处理，可扩展至PB级数据集。

百度文心大模型4.5，3月16日正式上线

百度宣布文心大模型4.5将于3月16日正式上线。两年前的同一天，百度发布了全球首个生成式AI产品——文心一言。此次升级后的文心大模型4.5在基础模型能力上大幅提升，新增原生多模态和深度思考能力。

荣耀、阿里在 AI 领域达成合作：千问、万相等多个模型已接入 YOYO 智能体

百荣耀宣布与阿里在AI领域达成合作，千问（Qwen）和万相（Wan）等多款语言、视觉理解及图像生成模型已接入荣耀YOYO智能体。用户可通过Magic7系列手机体验相关AI功能。YOYO助理已上线DeepSeek-R1满血版，支持深度思考模式，答案更精准、及时。

2月27日·周四

腾讯混元新一代快思考模型 Turbo S 发布，实现秒级响应

腾讯发布新一代快思考模型混元Turbo S，模型在知识、数理、创作等方面表现出色，实现“秒回”功能，吐字速度提升一倍，首字时延降低44%。混元Turbo S采用Hybrid-Mamba-Transformer融合架构，有效降低计算复杂度和部署成本。

DeepSeek开源新动作：三大并行计算优化技术，助力大模型训练效率飞跃

DeepSeek开源三项并行计算优化技术，DualPipe 是一种双向流水线并行算法，通过计算与通信的完全重叠，显著减少流水线气泡，优化 GPU 资源利用率。EPLB（专家并行负载均衡器）通过冗余专家策略和负载均衡技术，解决专家并行中 GPU 负载不均的问题。profile-data 提供详细的性能分析数据，帮助开发者深入理解并行策略优化。

Anthropic 全面开放 Claude AI 的 GitHub 集成，赋能所有开发者

Anthropic宣布全面开放Claude AI的GitHub集成，面向免费、Pro和Teams用户。集成后，用户可将GitHub代码库同步至Claude，使其理解代码上下文，辅助测试、调试和优化代码。

微软开源Phi4多模态与Phi4-Mini：端侧AI迎来最强小模型

微软开源两款小模型Phi-4-Multimodal和Phi-4-Mini。Phi-4-Multimodal是多模态模型，集成了文本、视觉和语音输入，采用“混合LoRA”技术，表现出色。Phi-4-Mini是3.8亿参数的语言模型，擅长数学和编码任务，性能优于同尺寸模型。

2月26日·周三

阿里云开源视频生成大模型“Wan2.1”，全模态、全尺寸助力全球开发者

阿里云开源视频生成大模型“万相2.1”，采用Apache 2.0协议，提供14B和1.3B两个参数版本，支持文生视频和图生视频任务。14B版本在复杂运动生成和物理建模方面表现卓越，1.3B版本能在消费级显卡上运行，仅需8.2GB显存可生成480P视频。万相2.1在权威评测集Vbench中以86.22%的总分超越国内外众多模型。

谷歌推出 Gemini Code Assist 个人版编程工具，免费可用

谷歌推出面向个人开发者的免费编程工具 Gemini Code Assist，帮助学生、爱好者和初创公司更便捷地获取AI编程支持。工具基于谷歌Gemini 2.0模型驱动，支持38种语言，提供每月最多18万次代码补全服务，远超其他同类产品。

2月25日·周二

Claude 3.7 Sonnet发布：AI推理与编码能力的双重突破

Anthropic发布全球首个混合推理模型——Claude 3.7 Sonnet。模型结合了标准和扩展思考模式，可在快速响应与深度思考间切换，用户可通过API细粒度控制思考时间。Anthropic推出命令行工具Claude Code，支持代码搜索、编辑、测试、提交及复杂应用开发，显著提升开发效率。

DeepSeek 开源通信库 DeepEP，大幅提升 MoE 模型训练与推理效率

DeepSeek 开源周第二天，发布开源项目 DeepEP，专为混合专家模型（MoE）训练和推理设计的高效通信库。DeepEP 提供高吞吐量和低延迟的全对全 GPU 内核，支持 NVLink 和 RDMA 通信，优化训练和推理效率。

ChatGPT 变身苹果 Safari 浏览器默认搜索引擎

OpenAI更新ChatGPT应用，新增Safari扩展功能，用户可将ChatGPT设为Safari地址栏的默认搜索引擎。更新后，用户在“设置”中启用“ChatGPT搜索扩展”，输入搜索查询时，结果将直接由ChatGPT提供，非传统的谷歌等搜索引擎。

阿里Qwen团队发布推理模型QwQ，会展示完整的思维链

阿里通义千问团队推出QwQ-Max-Preview深度思考模型，支持联网搜索，具备强大的通用能力，可完成创意写作、代码生成、数学题解答等任务。模型基于Qwen2.5-Max构建，未来将以Apache 2.0许可协议开源。目前已上线官网，用户可通过点击“深度思考（QwQ）”按钮体验。

2月24日·周一

DeepSeek 开源周首日推出 FlashMLA，为 Hopper GPU 优化的高效 MLA 解码内核

DeepSeek启动“开源周”，首个开源项目为FlashMLA，是针对NVIDIA Hopper GPU优化的高效MLA解码内核，专为处理可变长度序列设计。灵感来源于FlashAttention 2&3和Cutlass项目。FlashMLA支持CUDA 12.3及以上版本、PyTorch 2.0及以上版本。

LiblibAI一年内完成四轮融资，再次斩获数亿元资金

LiblibAI宣布在过去一年内连续完成四轮融资，创下国内AI应用赛道融资速度新纪录。最新两轮融资由渶策资本、顺为资本领投，明势创投等跟投，巨人网络参与产业投资。LiblibAI致力于AI内容创作与分享，已拥有超2000万创作者和5亿张生成图片。本轮融资将重点投入创作者生态建设和技术研发，推动平台全球化发展。

爱诗科技推出PixVerse V4：5秒生成AI视频，音画同步

爱诗科技发布PixVerse V4，带来AI视频创作新突破。新增“音效”功能，可自动生成与视频内容匹配的音效；“人声”功能可为视频角色生成口型一致的配音；“重绘”功能支持一键切换视频风格，提供赛博、芭比等多种风格。生成速度可达5秒。

LiblibAI 作为独家 AIGC 创作合作平台接入阶跃开源视频生成大模型

上海阶跃星辰智能科技有限公司开源的视频生成大模型“Step-Video-T2V”正式接入LiblibAI平台，LiblibAI成为其独家AIGC创作合作平台。此次合作推动AI技术的普及与创新，为全球开发者和创作者提供更优质的服务。

马斯克宣布 Grok 3 语音模式早期测试版已上线

马斯克在社交平台X宣布，Grok 3语音模式早期测试版已在Grok应用程序上线。支持用户通过自然语言与AI对话，提供两种声音（Ara和Grok）及不同个性，支持添加自定义说明和分享对话。

月之暗面 Kimi 开源“Moonlight”混合专家模型

月之暗面Kimi发布“Moonlight”混合专家模型（MoE），包含30亿和160亿参数版本。模型在Muon技术基础上训练，使用了5.7万亿个token，以更低的浮点运算次数（FLOPs）实现更优性能，提升了帕累托效率边界。团队通过添加权重衰减等技术优化Muon优化器，无需超参数调优可用于大规模训练，计算效率是AdamW的2倍。

2月21日·周五

小红书将接入DeepSeek，AI搜索“点点”iOS版下载量总计约20万

小红书即将接入DeepSeek-R1开源模型，在AI搜索产品“点点”App中推出“深度思考”功能，目前处于内测阶段。“点点”App自上线以来，iOS版下载量总计约20万次。“点点”，定位为生活搜索助手，覆盖多种生活场景。

DeepSeek 官宣下周陆续开源 5 个代码库，每日解锁新内容

DeepSeek宣布将在下周陆续开源5个代码库，每日解锁新内容。公司表示，这些经过测试和部署完备的代码库可投入生产环境，将“毫无保留地分享进展”。DeepSeek自称为“小小的团队”，强调该领域没有“象牙塔”。

Figure推出Helix：凭单神经网络实现上身控制与自然语言交互

人形机器人公司Figure推出通用控制模型Helix，是与OpenAI断交后的首个成果。Helix通过单一神经网络控制机器人整个上身，包括手腕、躯干和手指，能理解自然语言指令，完成拿起物品、打开冰箱等任务，可协作完成复杂操作。

Spotify 启动 AI 配音有声书服务，29 种语言可供选择

Spotify宣布与ElevenLabs合作推出AI配音有声书服务。支持29种语言，为作者提供多种合成语音选项。免费版每月提供10分钟文本转语音服务，付费套餐起价99美元，可生成500分钟配音。Spotify认为，AI配音能让小型作者更低成本地制作有声书，便于旧书有声化。

腾讯元宝升级：DeepSeek图生文功能上线

腾讯元宝上线图生文功能，结合混元和DeepSeek技术，可理解图片内容提供分析。结合混元的多模态理解技术后，在关闭联网搜索的情况下，用户发送任意图片并提问，元宝都能给出自己的理解和分析。

英伟达推出 Signs AI 平台，助力美式手语学习与无障碍沟通

英伟达携手美国聋童协会（ASDC）和 Hello Monday 推出 Signs AI 平台，帮助更多人学习美式手语（ASL）。平台通过摄像头捕捉手势提供实时反馈，使用 3D 虚拟人物演示正确动作，方便用户对比学习。Signs 平台通过用户贡献的视频不断优化模型，数据集包含 40 万个视频片段，涵盖 1000 个手语单词。

2月20日·周四

「捏 Ta」X「清影」达成战略合作，多模态模型商业化持续发力

AI角色创作平台“捏Ta”与智谱旗下的多模态模型“清影”达成战略合作，共同探索从AI角色设计到动画创作的完整路径。此次合作基于智谱最新升级的视频生成大模型CogVideoX-2，显著提升了模型的图像生成和指令遵从能力，支持高质量视频创作。上线首日，“捏Ta”平台完成4万+次视频生成，调用上亿次Tokens。

ima App安卓端正式上线云存储空间扩容至2GB

腾讯旗下的AI智能工作台ima App正式上线。ima App安卓版可通过官网或腾讯应用宝下载，iOS版也将随后推出。ima App延续了简洁设计风格，整合了电脑端和小程序的核心功能，ima云存储空间扩容至2GB，满足用户多场景需求。

xAI 公司宣布 Grok 3 限时免费开放，直到服务器不堪重负为止

马斯克旗下人工智能公司xAI宣布，Grok 3现向公众免费开放，直至服务器不堪重负。所有用户均可免费使用Grok 3的推理和深度搜索功能。X Premium+和SuperGrok订阅用户将享有优先访问权及语音模式等高级功能。

Codeium 获新一轮融资，估值推至 28.5 亿美元

AI编程初创公司Codeium完成新一轮融资，估值达28.5亿美元。此次融资距C轮融资仅6个月，当时估值为12.5亿美元。Codeium专注于为企业提供服务，去年推出Windsurf Editor工具，可自动编写部分代码。

「灵境AI」完成数百万元种子轮融资，打造AI时代文创IP“造梦新基建”

灵境AI完成数百万元种子轮融资，打造AI时代文创IP“造梦新基建”。专注于文创内容生成的AI科技公司，核心业务涵盖网文大数据平台、AI短篇小说工厂、AI动漫创作引擎和内容出海计划。通过“创意洞察+AI提效”模式，在小说、动漫、微短剧等领域实现智能化生产，大幅提升创作效率和分发效率。来源：灵境AI创作

2月19日·周三

「灵宝CASBOT」完成超亿元天使轮融资，加速推进人形机器人量产进程

北京中科慧灵机器人技术有限公司（灵宝CASBOT）近日完成超亿元天使轮融资，投资方包括联想创投、国投创合、河南资产基金等。本轮融资将加速人形机器人量产及核心技术研发。2024年11月，公司发布首款双足人形机器人CASBOT 01，拥有52个自由度，算力达550T，续航超4小时。

OpenAI 推出大模型测试基准 SWE-Lancer

OpenAI 官方宣布，推出全新的大模型测试基准SWE-Lancer，用于评估大语言模型（LLMs）在自由职业软件工程任务中表现的基准测试。基准包含来自 Upwork 的 1400 多个真实任务，总价值达 100 万美元，涵盖从简单修复到复杂功能开发的全栈工程任务。

硅基流动完成新一轮亿元人民币融资

硅基流动于2024年底完成亿元人民币Pre-A轮融资，由华创资本领投，普华资本跟投，耀途资本超额跟投，华兴资本担任财务顾问。此前，硅基流动已引入美团作为战略股东。大模型云服务平台SiliconCloud上线不到一年，用户数超300万，日均调用上千亿Token，支持上百款主流模型。

2月18日·周二

xAI 发布 Grok 3 聊天机器人，性能较前代提升十倍

马斯克旗下xAI公司发布新一代大模型Grok 3，Grok 3在数学推理、科学逻辑和代码写作等能力上表现卓越，超越DeepSeek-v3、GPT-4o和Gemini-2 Pro等模型。开发依托10万块英伟达H100 GPU的Colossus超级计算机，训练时长2亿GPU小时，性能较前代提升十倍。Grok 3引入推理模式和“DeepSearch”功能，支持复杂问题的深度思考。

月之暗面推出最新模型：Kimi Latest，开放平台同步上线

月之暗面科技宣布推出Kimi智能助手最新模型——Kimi Latest。模型对标Kimi智能助手当前使用的最新大模型，支持128k上下文长度，具备图片理解能力，支持自动上下文缓存。Kimi Latest适用于大模型聊天应用，如ChatWise、ChatBox等，可提供与Kimi智能助手相似的聊天体验。

阶跃星辰联合吉利首次开源，为开源世界贡献多模态力量

阶跃星辰与吉利汽车集团联合开源两款多模态大模型——Step-Video-T2V视频生成模型和Step-Audio语音交互模型。Step-Video-T2V参数量达300亿，可生成高质量视频，性能领先全球开源视频模型。Step-Audio是业内首款产品级开源语音交互模型，支持多语种、方言、情感表达及音色克隆，性能在多项评测中名列前茅。

秘塔AI搜索推出“浅度研究”功能，2-3分钟完成数百网页分析

秘塔AI搜索推出 Shallow Research「浅度研究」功能，快速收集信息并完成初步分析。功能采用“小模型+大模型”协同架构，结合秘塔自研模型与DeepSeek R1推理模型，可在2-3分钟内完成数百个网页的搜索与分析。

昆仑万维开源中国首个面向AI短剧创作的视频生成模型，重塑AI短剧行业格局

昆仑万维开源中国首个面向AI短剧创作的视频生成模型SkyReels-V1及表情动作可控算法SkyReels-A1。SkyReels-V1是开源视频生成模型中参数最大且支持图生视频的模型，可实现影视级人物微表情表演和电影级光影美学，支持33种细腻表情与400+自然动作组合。SkyReels-A1支持高保真微表情还原和更大幅度的人物表情驱动。

Mistral 推出首个专业区域语言模型：专精阿拉伯语和印度起源语言

Mistral AI 推出首个专业区域语言模型 Mistral Saba，满足中东和南亚地区对本地化语言和文化的需求。模型拥有 240 亿参数，经过精心策划的数据集训练，支持阿拉伯语及多种印度起源语言，擅长泰米尔语。

2月17日·周一

字节Trae Win+Mac版全量上线，免费无限量使用Claude

字节跳动推出的AI编程IDE Trae Win+Mac版于正式全量上线。Trae支持免费无限量使用Claude Sonnet编程大模型，具备全自动开发模式“Builder模式”，可实现需求理解、代码生成、文件操作及错误修复一体化。Trae支持多模态开发，可直接通过上传原型或截图生成代码。

浙江大学推出DeepSeek系列专题线上公开课

浙江大学人工智能教育教学研究中心于2025年2月17日起推出DeepSeek系列专题线上公开课，每周一晚上19:30面向全校师生及社会公众直播。解析DeepSeek的技术革新与伦理影响，探讨在人工智能领域的突破与应用。首期课程由吴飞教授和陈文智教授主讲。

xAI即将发布Grok 3，马斯克称之为“地球上最聪明的人工智能”

埃隆·马斯克的xAI公司将于2月17日发布Grok 3聊天机器人，马斯克称其为“地球上最聪明的人工智能”。Grok 3引入“思维链”推理能力，显著提升推理、编程及多模态功能。训练使用合成数据，可反思错误。Grok 3接入X平台，供用户使用。发布时间较马斯克原计划延迟

腾讯元宝再更新：DeepSeek R1+腾讯混元T1「双核」驱动

腾讯元宝发布重大更新，接入腾讯混元T1和DeepSeek-R1两大模型，均支持深度思考功能。用户可免费切换使用，解决复杂问题更高效。混元T1为腾讯自研的最新「深度思考模型」，专为多维度分析设计，思维方式贴近人类认知。更新后，腾讯元宝支持联网搜索，结合腾讯生态内容及权威信源，答案更精准。

AI搜索新突破：Perplexity推出Deep Research免费深度研究功能

AI公司Perplexity宣布推出Deep Research（深度研究）功能，向所有用户免费开放。非订阅用户每天可免费体验5次，Pro用户每天可体验500次。Deep Research通过多次搜索和推理，挖掘上百个信息源，提供深度研究报告，与普通AI搜索相比，搜索深度、广度和推理能力更强。

腾讯多款产品接入DeepSeek-R1模型，全面升级AI体验

腾讯宣布旗下多款产品接入DeepSeek-R1模型，包括腾讯元宝、微信、ima、腾讯文档、QQ浏览器、QQ音乐等。腾讯元宝支持免费使用DeepSeek-R1满血版和混元T1深度思考模型，提供复杂问题解答能力。微信“AI搜索”功能在灰度测试中。ima、腾讯文档、QQ浏览器、QQ音乐等产品结合DeepSeek-R1优化功能，提升用户体验。

中国AI变局：腾讯、百度接入DeepSeek模型，字节反思，“大模型六虎”加速分化

腾讯微信上线“AI搜索”功能灰度测试DeepSeek-R1模型，百度搜索宣布全面接入DeepSeek和文心大模型的深度搜索功能。字节跳动反思DeepSeek技术跟进，“大模型六小虎”加速分化，部分企业选择拥抱DeepSeek，另一些则继续深耕自身模型研发。

2月14日·周五

问小白上线DeepSeek-R1满血版，实测为官网最佳平替！

问小白平台上线DeepSeek-R1满血版，提供免费流畅的使用体验。支持联网搜索、上传文件、多模态分析等功能，具备深度思考、时效性回答、生成深度话题等亮点。问小白的客户端支持语音输入和语音播放，适合多群体使用。用户可在PC端和移动端通过问小白免费体验DeepSeek-R1，解决官网服务器繁忙的问题。

通义灵码全新上线模型选择功能，新增支持 DeepSeek-V3 和 DeepSeek-R1 模型

通义灵码上线模型选择功能，支持DeepSeek-V3和DeepSeek-R1满血版671B模型。通义灵码是阿里云和通义实验室联合出品的AI编码助手，提供代码智能生成和研发智能问答能力。升级后，用户可在VS Code和JetBrains IDEs中切换不同模型，满足复杂算法和简单逻辑处理需求，进一步降低AI编程门槛。

昆仑万维发布Matrix-Zero世界模型，开启空间智能新时代

昆仑万维推出Matrix-Zero世界模型，包含3D场景生成和可交互视频生成两大子模型。3D场景生成模型可将图片转化为全局一致、可自由探索的3D场景，支持不同风格输入和动态效果生成；可交互视频生成模型以用户输入为核心，支持实时交互和精准视角控制。

谷歌 Gemini 宣布上线“全局记忆”功能，订阅用户可令 AI 回忆曾经所有对话

谷歌Gemini AI上线“全局记忆”功能，订阅Gemini Advanced服务的用户可在App和网页端体验。AI能记住用户所有对话，提供更个性化的回复。用户无需跳转历史记录即可延续对话，可要求Gemini总结对话内容。目前仅支持英语，未来几周扩展至其他语言。

2月13日·周四

OpenAI 将在未来几个月内推出 GPT-5：整合 o3 等多项技术，可免费无限使用

OpenAI创始人Sam Altman在社交媒体上透露公司产品路线图的重大更新。OpenAI将发布GPT-4.5（代号Orion），是最后一个非思维链（CoT）模型。未来几个月，OpenAI将推出GPT-5，模型将整合OpenAI的多项技术，包括o3，不再将o3作为独立模型发布。GPT-5将集成到ChatGPT和API中，提供更统一的智能体验。

文心一言 4 月起全面免费，上线深度搜索功能

百度AI宣布：自2025年4月1日零时起，文心一言将全面免费开放，PC端和APP端用户均可体验文心系列最新模型。同时，文心一言上线深度搜索功能，同样于4月1日起免费开放。深度搜索功能具备更强大的思考规划和外部工具使用能力，为用户提供专家级内容回复，支持多场景任务处理以及多模态输入与输出。APP端也将同步上线。

Adobe Firefly 开放 AI 视频生成，一键搞定 5 秒 1080P 视频

Adobe宣布向公众免费开放AI视频生成器Firefly。用户仅需输入文本描述或上传图像，可一键生成5秒的1080p高清视频。Firefly在动态景观、动物行为、天气模式和粒子效果等元素上表现出色，支持高级相机设置和多种宽高比选择。

腾讯元宝接入 DeepSeek R1 模型，支持深度思考 + 联网搜索

腾讯元宝发布更新，正式接入DeepSeek R1模型，支持深度思考与联网搜索。模型基于腾讯混元架构，具备强大的自然语言理解能力，可提供详细且权威的回答。QQ音乐此前也已完成对DeepSeek R1的部署，成为首个应用该模型的音乐平台。

2月12日·周三

华为小艺助手网页端上线人人可用：支持 R1 深度思考

华为小艺助手网页端正式上线，适配手机和PC，用户可通过浏览器直接访问。更新接入DeepSeek-R1智能体，支持联网搜索功能，可实时获取最新信息。网页版小艺提供AI问答、AI写作、编程助手和AI翻译等功能，支持R1深度思考模式，用户可根据需要自定义自动或强制使用。

Agentic GLM全面登陆三星最新款手机Galaxy S25

智谱与三星合作，将Agentic GLM技术全面应用于三星Galaxy S25系列手机。技术基于多模态数据处理能力，支持AI音视频通话、视觉理解、系统功能调用、AI搜索、文案写作等功能。Galaxy S25的“语聊视界”功能可实现智能互动视频通话，同时支持社交媒体文案生成和系统级功能调用。

苹果抛弃DeepSeek，选择与阿里合作开发中国iPhone AI 功能

苹果公司已与阿里巴巴集团达成合作，共同开发面向中国市场的AI功能。双方联合开发的AI功能已提交审批，预计3月25日公布国行AI开发者教程。苹果曾尝试与百度合作，但未达预期，后放弃DeepSeek，因其缺乏支持大客户的经验。

七家国产芯片鼎力支持！无问芯穹异构云打通DeepSeek-R1多芯片适配优化

无问芯穹异构云大模型服务平台正式上线DeepSeek-R1和DeepSeek-V3，完成了在壁仞、海光、摩尔线程、沐曦、昇腾、燧原、天数智芯等七家国产芯片上的适配优化。平台支持通过Infini-AI异构云平台一键获取DeepSeek系列模型与多元异构自主算力服务，为开发者提供高效、省心、划算的AI开发体验。

字节跳动推出UltraMem架构，推理成本较MoE最高降83%

字节跳动豆包大模型团队发布全新稀疏模型架构UltraMem，有效解决传统MoE架构在推理时的高额访存问题。UltraMem通过优化内存访问和计算效率，推理速度较MoE提升2-6倍，推理成本最高降低83%。

2月11日·周二

港大与字节跳动发布Goku+，AI视频生成技术颠覆广告创作

香港大学与字节跳动联合发布最新视频生成模型 Goku 和广告视频生成版本Goku+。Goku支持文生视频、图生视频和文生图等多种生成任务，能生成高质量的图像和视频内容。Goku+专注于广告视频生成，可将产品图片转化为吸引人的视频，支持虚拟数字人与产品互动，显著降低广告制作成本。

OpenAI、谷歌、Roblox 等联手，成立新组织以保障 AI 时代儿童安全

Roblox、Discord、OpenAI和谷歌联合成立非营利组织ROOST（强大开放在线安全工具），为AI时代构建可扩展且互联互通的安全基础设施。ROOST将向公共和私人机构免费提供开源安全工具，初期重点关注儿童安全，特别是提供检测、审核和报告儿童性虐待材料（CSAM）的相关工具。

庖丁科技宣布完成新一轮融资，金山办公及顺为联合领投

北京庖丁科技宣布完成新一轮融资，金额达到15亿元人民币，由金山办公和顺为资本联合领投。此次融资将用于文档智能技术研发、市场拓展及核心人才引进，推动非结构化数据智能处理技术的创新与落地。庖丁科技专注于文档智能领域，已为超过100家大型机构客户提供服务，客户续费率超过90%。

沙特将向 AI 芯片创企 Groq 投资 15 亿美元，支持后者在沙 AI 基础设施扩建

AI推理芯片初创公司Groq宣布获得沙特阿拉伯15亿美元（约合109.62亿元人民币）的投资，用于扩建位于沙特达曼的AI推理基础设施。Groq与沙特阿美旗下子公司合作建设的达曼数据中心已拥有19000个语言处理单元（LPU），能为41个国家的40亿用户提供服务。

2月10日·周一

OpenAI CEO 深夜发文：AI 成本每年暴跌 10倍，2035 年人人都有超级大脑

OpenAI CEO Sam Altman发文称，AI成本每年暴跌10倍，到2035年，人人都将拥有超级大脑。他认为AGI（通用人工智能）将成为人类进步的强大工具，带来前所未有的繁荣和生活质量提升。随着AI智能水平的线性增长，社会经济价值呈超指数增长，未来AI Agents将成为知识工作中的“虚拟同事”，广泛应用于各领域。

晚点对话王小川丨不是文本创作、不是物理模型，AGI 的尽头是生命科学

百川智能创始人王小川在接受《晚点》采访时表示，AGI（通用人工智能）的尽头是生命科学，医疗不是垂直场景，是大模型皇冠上的明珠。百川智能专注于医疗领域，致力于打造AI医生，认为“造医生等价于AGI”。百川已发布全场景推理大模型Baichuan-M1-preview，计划在2025年第一季度推出AI医生助手，服务北京海淀区居民。

VideoWorld开源：多方合作打造仅靠视觉认知世界的视频生成模型

字节跳动豆包大模型团队联合北京交通大学、中国科学技术大学发布的“VideoWorld”视频生成模型，现已开源。模型首次实现仅通过视觉信息认知世界，无需依赖语言模型即可学习和执行复杂任务，如围棋对战和机器人操控。VideoWorld采用潜在动态模型（LDM）压缩视频帧间变化信息，显著提升学习效率。

美国网约车巨头 Lyft 同 Anthropic 达成合作：Claude 将为百万司机提供服务

美国网约车巨头Lyft与AI创企Anthropic达成合作，将推出AI驱动的产品，为Lyft每年超4000万乘客和100万司机提供更好的拼车体验。目前，由Anthropic的Claude模型支持的Lyft AI客服助手已投入使用，每天处理数千个客户请求，平均客服解决时间缩短87%。

吴恩达团队发布AI新成果：零样本标记助力图片目标检测

吴恩达宣布创业公司推出新成果——Agentic Object Detection（Agent目标检测）。无需标注训练数据，仅通过推理即可在图片中定位指定物体。例如在一张草莓图片中，提示“未成熟的草莓”，模型可在短时间内准确识别。。

昆仑万维旗下天工AI正式上线DeepSeek R1+联网搜索

昆仑万维旗下「天工AI」正式上线DeepSeek R1+联网搜索功能。此次更新解决了此前DeepSeek联网功能无法使用及偶尔崩溃的问题，为用户带来更稳定、高效的AI体验。用户可在「天工AI」PC端勾选“深度思考 R1”按钮，实现联网搜索，获取最新信息。

2月8日·周六

Pika新功能Pikadditions上线，用AI为视频“加料”

Pika推出新功能Pikadditions，用户仅需上传一张图片和一段视频，可将图片内容自然地添加到视频中，实现如“老虎扑人”“冰箱里的北极熊”等创意效果。基于AI技术，可根据原始视频动作智能生成引人入胜的合成画面。Pika官方提供15次免费体验机会。

Github重磅发布Agent模式和Copilot Edits，主动修复错误代码

微软宣布GitHub Copilot全面支持代理功能，推出首个自主SWE智能体。可自主迭代代码、修复错误、建议并执行终端命令。同时GitHub Copilot Edits上线，支持多文件编辑与代码更改意见。微软计划将在今年内融入GitHub用户体验。

软银即将完成对 OpenAI 的 400 亿美元投资，超越微软成为最大金主

软银即将完成对OpenAI的400亿美元投资，投前估值为2600亿美元，投后估值达3000亿美元。资金将在未来12至24个月内支付，第一笔款项最快于春季到账。投资完成后，软银将超越微软，成为OpenAI的最大投资方。部分资金将用于OpenAI与软银、甲骨文合资的“星际之门”项目。

2月7日·周五

OpenAI 更新 o3-mini 模型思维链展示方式，提高 AI 推理透明度

OpenAI宣布公开o3-mini模型的推理思维链，免费和付费用户可查看其思维过程。部分人质疑公开的思维链是否为原始数据，因为展示速度较慢且字符数量与原始版本存在差异。OpenAI发言人确认公开的思维链经过后处理，消除不安全内容、简化复杂想法，为非英语用户提供更好的体验。

欧洲的 OpenAI，Mistral AI 推出 iOS 和安卓APP

Mistral AI发布客户端Le Chat，推出iOS和Android版本。支持实时网络搜索、文档分析、图像生成等功能，提供企业级解决方案，包括代码解释器、OCR和文档处理等。

《麻省理工科技评论》点评中国AI“四剑客”，每家都媲美DeepSeek

DeepSeek凭借低训练成本和高性能的开源模型引发全球关注。《麻省理工科技评论》指出，除DeepSeek外，中国还有四家AI初创公司展现出强大的技术实力，包括阶跃星辰、面壁智能、智谱AI和无问芯穹。分别在基础模型、端侧模型、多模态AI以及AI基础设施领域取得了显著成就，展现了与DeepSeek媲美的竞争力。

谷歌 Magic Editor 集成 SynthID，“火眼金睛”识别 AI 造假

为应对 AI 生成内容带来的虚假信息风险，谷歌将 SynthID 水印技术集成到图像编辑工具 Magic Editor 中。本周使用 Magic Editor 的 AI 生成编辑图像将在 Google Photos 中被 SynthID 标记，部分细微编辑可能无法被检测到。技术通过嵌入数字水印标记内容，不影响视觉质量。

OpenAI 与加州州立大学达成迄今最大的AI教育合作

OpenAI宣布将在加州州立大学23个校区推出ChatGPT，覆盖46万名学生和6.3万名教职员工。是OpenAI在美国高等教育领域的最大规模部署，为学生提供个性化辅导和学习指南，同时帮助教师完成行政工作。

DeepSeek声明：社交平台仅三个账号，一切声称与官方群组有关收费行为均系假冒

DeepSeek官方发布声明：近期，DeepSeek发现部分仿冒账号和不实信息误导公众，DeepSeek的官方账号仅包括微信公众号“DeepSeek”、小红书“@DeepSeek（deepseek_ai）”和X（Twitter）“DeepSeek (@deepseek_ai)”。除这些账号外，其他任何声称与DeepSeek相关的信息均为假冒。

2月6日·周四

OpenAI 放大招：ChatGPT 搜索功能无需注册人人可用，分钟级别解析全网信息

OpenAI 宣布 ChatGPT 搜索功能无需登录账户即可使用，用户可直接获取基于实时网络信息生成的答案，查看信息来源清单。与传统搜索引擎相比，ChatGPT 搜索可实现分钟级解析网络信息，能查看地图和本地景点图片，结果更具可信度和实用性。

谷歌发布Gemini 2.0 Pro，全型号刷榜，原生多模态，编程、物理模拟能力炸裂

谷歌发布 Gemini 2.0 系列模型，包括 Gemini 2.0 Pro、2.0 Flash 和 2.0 Flash-Lite。2.0 Pro 是谷歌最强的编码和复杂提示处理模型，配备 200 万 token 上下文窗口，支持谷歌搜索和代码执行工具。2.0 Flash 是高效主力模型，支持 100 万 token 上下文和多模态输入，适合高容量任务。2.0 Flash-Lite 是最具性价比的模型，性能优于前代 1.5 Flash，成本更低。

前追觅中国区执行总裁郭人杰创业，「乐享科技」宣布完成近2亿元天使轮融资

前追觅中国区执行总裁郭人杰创立的「乐享科技」宣布完成近 2 亿元人民币的天使轮融资，由 IDG 资本领投，Monolith、经纬创投、真格基金等跟投，投后估值约 6 亿元。乐享科技成立于 2024 年，定位为全球科技公司，专注于 AI + 消费硬件市场，首款面向家庭场景的产品正在研发中。

字节跳动推出 OmniHuman 多模态框架：图片+音频 = 逼真动画

字节跳动提出OmniHuman，基于扩散变换器的高保真人类视频生成框架。模型通过单阶段的音频和姿态驱动，能生成高质量的人类视频内容。支持文本、音频、姿态等多种输入信号，可生成从面部特写到全身的各种视频，适应不同风格。

训练成本不到 50 美元，研究人员打造出媲美 OpenAI o1 的推理模型

斯坦福大学和华盛顿大学的研究人员仅花费不到50美元的云计算费用，训练出s1人工智能推理模型。模型在数学和编程能力测试中表现与OpenAI的o1和DeepSeek的r1等顶尖模型相当。s1通过“蒸馏”技术从谷歌的Gemini 2.0 Flash Thinking Experimental模型中提取推理能力，使用监督微调方法，耗时不到30分钟。

2月5日·周三

一场关于DeepSeek的高质量闭门会：比技术更重要的是愿景

拾象创始人李广密组织了一场关于DeepSeek的闭门讨论会，数十位顶尖AI研究员、投资人与从业者参与。会议探讨了DeepSeek的技术细节、组织文化及其影响。DeepSeek凭借高效的资源利用和对智能的专注，展现出强大的技术实力。创始人梁文锋注重技术与智能的推进，而非商业化。

5人创业国产AI搜索火了，小红书Reddit都在推！比Perplexity留存更高

国产AI搜索工具 Hika AI 仅5人团队打造，上线不到1个月，在获取用户注意力方面已超越Perplexity等竞争对手。Hika AI 提供免费的知识获取引擎，核心特点是按段落分割回答，支持用户对感兴趣的部分深入提问，提供图表化的总结表和思维导图。

Adobe Acrobat AI 助手新增合同理解与比对功能，月费 5 美元

Adobe Acrobat AI 助手新增合同理解与比对功能，月费 5 美元（约 36.4 元人民币）。可帮助用户理解复杂合同条款，自动发现不同合同之间的差异，例如新旧合同的变化。Acrobat 应用能自动识别合同文档，提取关键条款，生成摘要，推荐可能的问题。可同时比较多达 10 份合同。

SB OpenAI Japan成立！2025年首个最火AI赛道开打

OpenAI在日本宣布成立合资公司 SB OpenAI Japan，与软银合作，专注于开发和销售新型高级企业AI——“水晶智能（Cristal intelligence）”。合作为日本企业提供定制化的AI解决方案，推动企业工作流程自动化和效率提升。

华为小艺助手接入 DeepSeek，升级纯血鸿蒙 HarmonyOS NEXT 即可体验

华为小艺助手接入 DeepSeek，升级至 HarmonyOS NEXT 后即可体验。小艺助手的智能体广场已上线 DeepSeek-R1 Beta 版，升级小艺助手至 11.2.10.310 版本及以上，可在“发现”栏找到智能体广场，与 DeepSeek 进行对话。

Figure AI与OpenAI“分手”，人形机器人公司与大模型公司重新划定边界

人形机器人公司Figure AI与OpenAI终止合作。Figure AI创始人Brett Adcock表示，公司自主研发的端到端机器人AI取得重大突破，未来30天内将展示新成果。Figure AI与OpenAI合作始于去年初，曾发布多条展示机器人视觉、对话及灵活操作能力的视频。

Ai2推出开源模型Tülu 3 405B，性能超越DeepSeek V3与GPT-4o

美国艾伦人工智能研究所（Ai2）推出新一代开源模型Tülu 3 405B，基于强化学习技术，在多项基准测试中超越了DeepSeek v3和GPT-4o。Tülu 3系列模型基于Llama 3 Base，通过四阶段后训练方法优化，包括精心策划的提示词、监督微调、偏好微调和强化学习。训练数据、代码和方法完全开源。

2月3日·周一

OpenAI 推出 Deep Research 深度研究功能，助力复杂任务高效解决

OpenAI发布ChatGPT的Deep Research功能。通过多步骤推理和互联网信息综合，可在数十分钟内完成复杂的研究任务。Deep Research基于o3模型，针对网页浏览和数据分析进行了优化。能生成专家级的研究报告，适用于金融、科学、政策和工程等领域的知识密集型工作。

秘塔AI接入满血版DeepSeek R1推理模型

秘塔AI宣布接入DeepSeek R1推理模型的满血版。模型结合了秘塔数十亿的全网数据和数千万学术文献，能处理复杂的推理问题，在结合知识和学术文献的推理任务中表现出色。秘塔AI的测试结果显示，R1模型在回答复杂问题时表现突出。

OpenAI 更新 ChatGPT Canvas 工具：上线 o1 模型、支持渲染 HTML / React 代码

OpenAI更新ChatGPT Canvas写作工具，新增了o1模型支持，扩展了代码渲染功能，支持HTML和React代码。Canvas是ChatGPT中的写作与编码工具，用户可以在右侧输入文本，左侧基于模型调整文本长度或联想上下文。订阅了ChatGPT Pro、Plus、Team会员的用户可以使用o1模型，HTML和React代码渲染功能对所有用户开放。

2月1日·周六

OpenAI发布新的推理模型o3-mini，性能提升 24%

OpenAI发布新的推理模型o3-mini，是推理系列中最具成本效益的模型。o3-mini在科学、数学和编程等STEM领域表现出色，保持低延迟和低成本。支持函数调用、结构化输出和开发者消息等高级功能，提供低、中、高三档推理强度供开发者选择。与搜索功能集成，为用户提供最新答案及链接。

阿里云通义千问旗舰版模型Qwen2.5-Max全新升级发布

阿里云通义千问推出旗舰版模型Qwen2.5-Max。是MoE模型的最新探索成果，预训练数据超20万亿tokens，在知识、编程、综合能力等主流权威基准测试中表现卓越，全面超越全球领先的开源MoE模型及最大开源稠密模型。

DeepSeek推出人人可用的开源视觉多模态AI模型Janus-Pro

DeepSeek发布开源多模态AI模型Janus-Pro，包含10亿和70亿参数规模。模型在GenEval和DPG-Bench基准测试中击败了OpenAI的DALL-E 3和Stable Diffusion。Janus-Pro基于DeepSeek-LLM构建，使用SigLIP-L作为视觉编码器，支持多模态理解和生成。

通义开源两大AI模型：支持理解长视频和捕捉事件等能力

通义开源两大AI模型：Qwen2.5-VL和Qwen2.5-1M。Qwen2.5-VL推出3B、7B和72B三个版本，全面超越GPT-4o与Claude3.5。模型支持超1小时的视频理解，无需微调即可操作手机和电脑完成复杂任务。Qwen2.5-1M推出7B和14B版本，处理长文本任务性能卓越，推理速度提升近7倍，首次将上下文扩展到1M长度。

1月27日·周一

开源全模态模型Baichuan-Omni-1.5上线，多项能力跑赢GPT-4o mini

百川智能上线开源全模态模型Baichuan-Omni-1.5。模型支持文本、图像、音频和视频的全模态理解，具备文本和音频的双模态生成能力。在视觉、语音及多模态流式处理等方面，Baichuan-Omni-1.5的表现均优于GPT-4o mini，在多模态医疗应用领域优势突出。

可灵AI创意特效上线啦！好玩儿到停不下来！

可灵AI 上线创意特效功能，支持“快乐惹毛我”“捏捏乐”“万物膨胀”等特效，已上线可灵AI APP和Web端，一起创意发挥，尽情体验，好玩儿到停不下来。

中国电信发布“复杂推理大模型”TeleAI-t1-preview：能解《九章算术》题目

中国电信人工智能研究院发布“复杂推理大模型”TeleAI-t1-preview，即将上线天翼AI开放平台。模型采用强化学习训练方法，引入探索、反思等思考范式，提升逻辑推理和数学推导的准确性。在AIME 2024和MATH500评测中，分别以60分和93.8分的成绩大幅超越OpenAI o1-preview和GPT-4o等标杆模型。模型具备将形象思维与抽象思维结合的能力，能严谨地进行古今单位换算，有效解决复杂问题。

GLM-4V-Plus 大模型能理解长达2小时视频

GLM技术团队推出了GLM-4V-Plus-0111 beta版本，版本引入了原生可变分辨率等技术，显著提升模型对不同视频长度和分辨率的适应能力。新模型支持短视频的精细理解，能处理长达2小时的长视频，自动调整分辨率以平衡时间与空间信息捕捉。

扎克伯格持续建设“AI 帝国”：Meta 今年将投入最多 650 亿美元

Meta首席执行官马克・扎克伯格表示，公司今年计划投入最多650亿美元用于扩展AI基础设施，巩固其在与OpenAI和谷歌竞争中的地位。Meta将增加AI岗位的招聘，建设一座超过2吉瓦的数据中心。作为英伟达的主要客户之一，Meta计划在年底前拥有超过130万块图形处理器，在2025年实现约1吉瓦的计算能力。

1月24日·周五

OpenAI正式发布智能体Operator！能推理、联网自主执行任务

OpenAI推出“Operator”AI代理，Operator依托Computer-Using Agent（CUA）模型，结合GPT-4o的视觉能力和强化学习推理能力，能自动完成多种在线任务，如预订餐厅、旅行规划、购物等。通过屏幕截图“感知”界面，通过虚拟键盘和鼠标操作网页。具备自我纠错能力，遇到敏感信息或复杂任务时会交由用户接管。

百川智能发布深度思考模型，同时具备语言、视觉和搜索三大领域推理能力

百川智能推出两款新模型：Baichuan-M1-preview是国内首个全场景深度思考模型，具备语言、视觉和搜索三大领域推理能力，在医疗循证模式下，能快速精准回答医疗问题，提供深度推理和个性化建议。小尺寸版本Baichuan-M1-14B是行业首个开源医疗增强大模型，医疗能力超越Qwen2.5-72B。

跃问App上新「创意板」功能，零代码实现应用与游戏创作

跃问App上线国内首个「创意板」功能，用户可通过简单指令生成应用、游戏等创意内容，无需代码知识。基于自研多模态大模型Step-1o系列。创意板支持生成海报、游戏、互动网页等，可分享至任意平台。

JetBrains发布AI编程Agent，助力开发者提升代码效率与质量

JetBrains推出全新的AI编程Agent——Junie，以插件形式支持IntelliJ IDEA Ultimate和PyCharm Professional，未来将扩展至WebStorm。Junie在SWE-Bench Verified基准测试中完成53.6%的任务，表现中等偏上。能与JetBrains IDE深度整合，生成代码、运行检查、编写测试并验证结果，显著提升开发效率和代码质量。

1月23日·周四

智谱GLM-PC开放体验：自主操作电脑的多模态Agent再升级

智谱推出电脑智能体GLM-PC，基于智谱CogAgent模型构建，能像人类一样“观察”和“操作”电脑，协助完成各类任务。新增“深度思考”模式、逻辑推理和代码生成功能，支持Windows系统。GLM-PC通过模拟人类左右脑分工，结合代码生成和图形界面理解，实现了逻辑推理与感知认知的深度结合。

字节跳动推出的开源原生 GUI 代理模型

字节跳动发布并开源了UI-TARS大模型，是专门用于操控电脑界面的视觉语言模型，具备感知、推理和操作能力。UI-TARS提供2B、7B和72B三种参数规模版本，支持跨平台操作，能通过自然语言指令完成鼠标点击、键盘输入等任务。在多个基准测试中，UI-TARS表现优于GPT-4和Claude。来源：AI工具集

Step-Video 开年震撼升级：更强大的真实世界模拟器来了

阶跃星辰推出视频生成模型 Step-Video V2版本。新版本在参数量、语义理解、指令遵循能力等方面大幅提升，支持复杂运动、人物美感、基础文字生成和多语言输入等功能。用户可通过跃问网页端申请试用。

Perplexity发布Sonar API，提供实时信息搜索功能

Perplexity发布Sonar API，提供实时信息搜索功能。Sonar API分为基础版和Pro版，基础版支持轻量级实时搜索和简单查询引用，Pro版则支持复杂多步骤任务、更大的上下文窗口和更丰富的引用。

谷歌 Gemini 2.0 Flash Thinking 强化版发布，登上 Chatbot Arena 榜首

谷歌发布Gemini 2.0 Flash Thinking推理模型的加强版，再次登顶Chatbot Arena排行榜。更新引入了1M长上下文处理能力，可对长篇文本进行更深入分析，减少模型思想与答案之间的矛盾。支持长上下文、多模态输入以及推理过程可视化，推理速度极快，在数学和科学能力测试中表现突出，数学成绩较前代提升54%。

字节启动 Seed Edge，加码 AGI 研究

字节跳动正式设立代号为“Seed Edge”的研究项目，专注于通用人工智能（AGI）的前沿研究。项目拟定五大研究方向，包括下一代推理、感知、软硬一体模型设计、新范式探索和Scaling方向研究。Seed Edge旨在探索AI的原创性创新，而非仅追随现有技术。字节跳动创始人张一鸣高度重视AI研究，鼓励团队探索基础课题。

1月22日·周三

豆包大模型1.5正式发布，全面上线火山方舟

字节跳动旗下火山引擎正式发布豆包大模型1.5 Pro。模型在知识、代码、推理、中文等多个权威测评基准上表现优异，综合得分超越GPT-4o、Claude 3.5 Sonnet等业界一流模型。此次更新还推出了豆包·视觉理解模型和实时语音模型，支持多模态数据合成、低时延语音对话等功能。

可灵AI重磅升级，「多图参考」功能上新

可灵 AI 重磅升级，「多图参考」功能全新上线，支持参考单个角色生成视频，不同角色之间的互动，支持上传4张参考图，可以是人物、物品、道具和场景。确保多个镜头中的人物或主体保持一致。与可灵一起制作富有创意的视频。

特朗普联合OpenAI启动5000亿美元“星际之门”AI项目，用于建设AI基础设施

特朗普与OpenAI CEO Sam Altman、软银CEO孙正义等在白宫宣布启动名为“星际之门”的人工智能项目。项目计划未来四年投资5000亿美元，在美国建设新的人工智能基础设施，首期投入1000亿美元。技术合作伙伴包括Arm、微软、英伟达等。推动通用人工智能（AGI）发展，创造数十万就业岗位。

有道子曰-o1推理模型正式发布！消费级显卡即可部署

网易有道正式发布并开源国内首个输出分步式讲解的推理模型“子曰-o1”。作为14B轻量级单模型，子曰-o1支持在消费级显卡上部署，采用思维链技术，能提供细致的解题过程，具备强逻辑推理能力。子曰-o1已应用于“有道小P”，支持“先解析思路、再提供答案”的答疑模式，助力学生自主思考。

1月21日·周二

清影2.0重磅更新，模型能力大幅提升

清影2.0重磅更新，AI视频生成能力大幅提升。新版本在模型结构、训练方法和数据工程上全面升级，图生视频基础模型能力提升38%，支持画面主体进行大幅度运动并保持稳定。指令遵从能力行业领先，可精准实现复杂提示词，涵盖写实、三维动画、二维动画及特殊艺术风格。已上线智谱清言，普通用户可免费用。

k1.5 新模型登场：Kimi 如何做到满血版多模态o1水平

月之暗面推出全新k1.5多模态思考模型。模型在多模态推理和通用推理能力上达到SOTA水平，在short-CoT模式下，数学、代码、视觉多模态能力大幅超越全球短思考SOTA模型，领先550%；在long-CoT模式下，达到OpenAI o1正式版水平，成为全球首个实现该性能的非OpenAI模型。

DeepSeek-R1 发布，性能对标 OpenAI o1 正式版

深度求索发布DeepSeek-R1模型，并开源模型权重。DeepSeek-R1通过强化学习技术大幅提升推理能力，在数学、代码和自然语言推理等任务上性能对标OpenAI o1正式版。DeepSeek还开源了基于R1蒸馏的6个小模型，其中32B和70B模型性能比肩OpenAI o1-mini。DeepSeek-R1已上线API，可通过官网或App调用。

小红书AI翻译功能上线，网友玩转Prompt，背后大模型引关注

小红书上线AI翻译功能，引发了网友的广泛关注和讨论。功能支持多种语言的翻译，能处理颜文字、网络热梗、化学式、摩斯电码等特殊内容。用户还可以通过Prompt提出翻译需求或生成特定内容。

阶跃星辰Step-1o重大升级，多模态视觉双榜夺冠，国内第一

阶跃星辰宣布 Step 系列模型上新第三弹。推出新成员 Step-1o Vision 多模态理解大模型，Step-1o Audio 语音模型能力升级。Step-1o Vision 在视觉识别、推理等任务中表现卓越，位居国内外权威榜单首位。升级后的 Step-1o Audio 情商更高，声音更自然，支持多语种及方言理解，实现更低时延。

书生·浦像超高动态成像算法：AIGC叠加HDR，捕捉细节，平衡曝光

上海人工智能实验室联合香港中文大学、浙江大学团队推出“书生·浦像”超高动态成像算法（浦像HDR，UltraFusion HDR）”，通过AIGC与HDR技术结合，实现超高动态范围成像。算法可在9档曝光差异的极端条件下修复图片细节，生成色彩鲜艳、细节丰富的高质量图像。解决了传统HDR技术在动态场景中的运动伪影问题。

秘塔AI搜索上线“阅读模式”，PDF阅读体验全面升级

秘塔AI搜索推出了全新的“阅读模式”功能。旨在解决PDF文档在移动设备上阅读不便的问题，支持复杂公式识别、智能渲染排版以及全文翻译，可轻松处理多列文字和图表混排的PDF文件。阅读模式支持多端同步，用户可在电脑端添加或上传PDF至书架，通过手机App查看。

1月20日·周一

字节跳动推出全新AI IDE：Trae，基于Claude模型免费使用

字节跳动正式发布全新AI编程IDE——Trae，对标Cursor！支持原生中文，集成Claude 3.5、GPT-4o等顶级AI模型，免费开放使用。具备智能代码生成与优化、AI驱动的Chat和Builder交互模式、便捷的项目预览与调试等功能。

豆包实时语音大模型上线即开放！情商智商双高

字节跳动旗下的豆包大模型团队宣布推出豆包实时语音大模型，在豆包APP全量开放。模型是语音理解和生成一体化的端到端语音系统，主要面向中文语境，支持英语对话但暂不支持多语种。在语音表现力、情绪承接和控制力方面表现出色，整体满意度高于GPT-4o。具备低时延、可随时打断等特性，支持实时联网回答时效性问题。

阶跃星辰语言模型上新：既有文学大师，又有性价比之王

上海阶跃星辰推出Step系列语言模型的两位新成员：Step-2 mini和Step-2文学大师版。Step-2 mini是轻量级模型，仅用3%的参数量保留了Step-2模型80%以上的性能，生成速度快，性价比高。Step-2文学大师版则专注于创作，能生成富有深度和风格的文学作品，已在跃问App上线。

商汤「日日新融合大模型交互版」开放商用，限时免费

商汤科技推出“日日新融合大模型交互版”（SenseNova-5o），正式对外开放实时音视频对话服务，限时免费使用。模型具备强大的实时交互、视觉识别、记忆思考和复杂推理能力，支持超长多模态交互记忆（不少于5分钟），交互延迟低至2秒以内。用户还可根据偏好设置交流风格和音色。

全球首个亿级参数量地震波大模型今年对外开放

全球首个亿级参数量地震波大模型“谛听”在国家超级计算机成都中心发布第三阶段测试版本，已成功应用于西藏定日6.8级地震数据处理。模型由中国地震局地球物理研究所、国家超级计算成都中心和清华大学联合开发，可自动识别震前、震后事件并生成AI地震序列目录。

香港大学携手快手科技推出 GameFactory 框架，突破游戏场景泛化难题

香港大学与快手科技联合推出GameFactory框架，旨在解决游戏视频生成中的场景泛化难题。框架基于在开放域视频数据上预训练的视频扩散模型，可生成多样化游戏场景。通过独特的三阶段训练策略，GameFactory突破了现有方法对特定游戏数据集的依赖，支持自回归动作控制，可生成无限长度的交互式游戏视频。

如何识别AI生成图片？腾讯上线「鉴别工具」

腾讯上线由腾讯混元安全团队朱雀实验室研发的朱雀大模型检测工具，旨在帮助用户识别AI生成的图像和AI生成文本检测系统。通过检测图片中的纹理、语义及隐层特征，快速判断图片是否由AI生成。系统使用140万份正负样本进行训练，涵盖多种场景，测试检出率超过95%。

晚点对话 MiniMax 闫俊杰：创业没有天选之子

《晚点》对话MiniMax创始人闫俊杰，探讨AI创业与技术发展。闫俊杰认为，AI创业不应套用移动互联网逻辑，模型能力提升并非依赖用户规模，而是技术进化。MiniMax最新开源的MiniMax-01模型采用线性注意力机制，首次在大规模模型中实现高效处理400万token的长上下文，助力AI记忆与交互能力提升。

1月17日·周五

智谱清言APP推出“2025克穷暴富”春节活动，赢现金红包庆新年

智谱清言推出2025年春节活动，时间为1月17日至2月5日。用户可通过智谱清言APP参与多种互动活动赢取现金红包。活动包括AI生成视频金币爆爆爆、新春纪念照生成、视频通话互动以及AI帮助群发拜年短信等。用户上传照片可生成新春主题纪念照，与小智视频通话可获得拜年红包，AI助手AutoGLM可自动群发新年祝福。

Luma AI推出Ray2视频生成模型，算力扩大10倍

Luma AI推出最新视频生成模型Luma Ray2，基于新的多模态架构训练，计算能力是前代Ray1的10倍，能在10秒内根据文本提示生成高质量视频，最长时长从5秒延长至1分钟。生成视频动作生动流畅，未来还将推出图像转视频、视频转视频和编辑功能。

马斯克 xAI 再放大招：网页版 Grok 上线，无需 X 账户

埃隆·马斯克旗下xAI公司推出网页版Grok AI聊天机器人，无需X账户即可体验。访问grok.com，提供出生年份即可使用，能实时收集信息、获取答案、生成图像等。输入框下方菜单支持切换不同模式，更好控制响应。登录后可开启“临时模式”，聊天不记录不用于训练模型。

阿里再投具身智能，清华大学孵化的星动纪元完成最新一轮融资

清华大学孵化的人形机器人企业北京星动纪元，近日完成最新一轮融资，新增阿里巴巴旗下公司等为股东，注册资本增至约1095.9万人民币。星动纪元专注于研发高智能通用人形机器人，产品已迭代至第六代——星动STAR 1，具备55个自由度，能在复杂环境中执行多种任务。

1月16日·周四

豆包电脑版和网页版全新上线AI编程新功能，帮你高效解决编程难题

字节跳动豆包电脑版和网页版全新上线新功能AI编程，帮助用户解决编程难题。提供更便捷的导入流程，一键上传多个本地代码文件和实时引入GitHub开源仓库。通过全新的代码编辑器支持沉浸式阅读和精准圈选代码，随时解答疑问，帮助用户生成、解释、修复和优化代码。

智谱Realtime、4V、Air新模型发布，上线bigmodel.cn

智谱发布多款新模型，包括GLM-Realtime、GLM-4V-Plus和GLM-4-Air，这些模型在bigmodel.cn上线。GLM-Realtime模型支持低延迟视频理解和语音交互，具有清唱功能和长达2分钟的记忆能力。GLM-4-Air和GLM-4V-Plus模型提供高性价比的语言和视觉理解解决方案。

阶跃星辰推理模型 Step R-mini 全量上线跃问网页版

2025年1月16日，阶跃星辰推出自研推理模型Step Reasoner mini（简称“Step R-mini”）。模型上线跃问网页端，擅长规划、尝试和反思，通过慢思考和反复验证的逻辑机制，为用户提供准确可靠的回复。Step R-mini在数学、代码、逻辑推理等复杂问题解决上表现出色，同时兼顾文学创作等通用领域。

腾讯会议全新升级，上线AI小助手Pro

腾讯会议推出全新升级功能。用户可从组织通讯录直接拉人入会，日程自动呈现并多渠道提醒，确保参会人准时上会等。上线AI小助手Pro全程监听会议，可回答问题、提供方案建议，支持联网搜索与文件上传提问，提升会议效率。

1月15日·周三

MiniMax-01开源：新架构开启Agent时代

MiniMax于2025年1月15日宣布开源MiniMax-01系列模型，包括基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01。该系列模型参数量达4560亿，单次激活459亿，性能比肩GPT-4o，能高效处理长达400万token的上下文，是GPT-4o的32倍。

OpenAI 推出新功能「Tasks」ChatGPT 变身 AI 私人助理

2025年1月15日，OpenAI推出ChatGPT的新功能「Tasks」，能根据用户的指示自动完成各种任务，包括一次性提醒和重复执行的动作。用户可以在ChatGPT的聊天界面中选择「4o与计划任务」模式，创建最多10个任务，通过网页、桌面和移动设备接收通知。该功能已向Plus、Pro和Teams用户开放Beta测试。

科大讯飞发布星火深度推理模型X1，率先落地真实应用场景

科大讯飞于2025年1月15日发布讯飞星火X1，国内首个基于全国产算力平台训练的深度推理大模型。模型解题方式接近人类“慢思考”，以较少算力达成业界领先效果，中文数学能力国内第一。已在教育、医疗领域落地，提升AI学习机精准度，助力教师助手部署，辅助医生诊断，推动行业发展。

Kimi 多模态图片理解模型 API 发布，1M tokens 定价 12 元起

2025年1月15日月之暗面发布全新多模态图片理解模型moonshot-v1-vision-preview，模型具备强大的图像识别和文字识别理解能力，能精准区分复杂图像细节，准确识别潦草手写内容及图表信息。价格根据选择的模型不同而有所区分。

书生·浦语大模型升级，突破思维密度，4T数据训出高性能模型

上海人工智能实验室宣布书生大模型升级至3.0版本，书生·浦语3.0（InternLM3）。版本通过精炼数据框架，仅用4T训练数据，使InternLM3-8B-Instruct综合性能超同量级开源模型，训练成本降低75%以上。书生·浦语3.0首次在通用模型中融合常规对话与深度思考能力，可应对更多真实场景。

Vidu 2.0全新升级，更快、更强、更稳定

Vidu 2.0正式上线，带来生成速度与画质的双重突破，10秒即可出片。效果升级，视频风格、主体更一致，首尾帧更自然。推出超值套餐，成本低至4分/秒。新增错峰模式，低峰时段不限量、不扣积分，保障创作不停歇。

1月14日·周二

腾讯推出一站式3D内容生产AI创作平台：腾讯混元3D，用AI给游戏装上创作引擎

腾讯旗下混元模型将《王者荣耀》游戏设计迁移到3D生成模型中，推出混元3D AI创作引擎。引擎为普通UGC和游戏等专业场景提供一站式3D内容生产的AI创作平台，支持文生3D和图生3D模式生成3D资产，结合3D风格化、渲染打光、骨骼绑定和动作驱动等编辑工具调整模型效果，支持多种输出格式。

抖音创始成员任利锋的GenAI创意社区：Hitems，完成数千万美元Pre-A轮融资

抖音早期产品负责人任利锋创立的“数美万物”公司旗下创意电商社区Hitems，近日完成数千万美元Pre-A轮融资，美团龙珠领投，锦秋基金跟投，红杉中国、IDG资本继续跟投，公司估值约1.5亿美元。Hitems是集创作者创意生成、生产、销售于一体的跨境电商平台，基于GenAI技术，可通过关键词、图片或手绘稿生成高保真物品图。

加速AI和机器人融入生活空间，「一目科技」完成数亿元D轮融资

“一目科技”近期完成数亿元D轮融资，由赛富投资基金领投，南京市创新投资集团、松霖科技跟投。公司专注于多模态感知+AI计算解决方案，产品已应用于智慧水务、智慧家居、生命科学等领域，并打入TCL、惠而浦等头部白电厂商供应链。在CES 2025上，一目科技的AI洗护机器人首秀亮相并获媒体好评。

英伟达发布 6.3 万亿 Token 大型 AI 训练数据库 Nemotron-CC

英伟达推出名为Nemotron-CC的大型英文AI训练数据库，包含6.3万亿个Token，其中1.9万亿为合成数据。该数据库基于Common Crawl网站数据构建，经过严格处理形成高质量子集Nemotron-CC-HQ。与业界领先的DCLM数据库相比，使用Nemotron-CC-HQ训练的模型在MMLU基准测试中分数提高5.6分。

打造AI时代的超级应用平台，「环界云计算」获阿里云战略投资

珠海环界云计算有限公司完成3750万元Pre-A融资，由阿里云独家投资。核心产品Sealos是基于kubernetes的云操作系统，聚焦已开发应用托管和新应用诞生，助力开发者和B端企业降低成本、提升效率。开源项目Sealos和FastGPT在社区受关注。

1月13日·周一

DeepSeek正式推出手机APP，苹果安卓都支持！

2025年1月11日，DeepSeek正式推出Deepseek APP，支持iOS和安卓系统。此前，DeepSeek仅有网页端和API调用两种使用方式。此次推出的手机app功能与网页端一致，底层默认使用DeepSeek V3模型，开启深度搜索后调用DeepSeek-R1-Lite推理模型。

百川智能落地宁波！注册资本 1.5 亿美元，与高新区共建产业基金

2025年1月13日，百川智能创始人王小川与宁波高新区管委会签订合作协议，百川智能大模型项目落地宁波高新区。王小川表示将立足宁波特色，推进 AI 赋能千行万业。百川智能目前员工约280人，已完成A+轮融资，总融资额约50亿人民币，估值200亿人民币。

阿里妈妈推出淘宝星辰视频生成大模型及图生视频应用

阿里妈妈推出淘宝星辰视频生成大模型及图生视频应用。工具基于自研大模型，海量电商数据和设计经验，具备更懂商品展示手法、更强多语种语义遵循能力、合理物理动作规律、稳定元素保持等优势。用户输入静态图片或文本描述，即可一键生成高质量5秒视频。工具已对淘宝天猫商家开放。

方大特钢与华为开展全面合作，打造钢铁行业大模型

方大特钢与华为签署全面合作协议。双方将在企业数据治理体系与应用、钢铁行业大模型应用、信息安全、数字化人才培养等方面展开合作。方大特钢表示，此次合作有助于推动数字技术与钢铁主业深度融合，加快数字化转型，提升信息化应用水平和市场竞争力。

3D 生成大模型公司影眸科技完成数千万美元 A 轮融资，美团龙珠、字节跳动领投

影眸科技完成数千万美元A轮融资，美团龙珠、字节跳动领投，红杉中国种子基金及奇绩创坛跟投。融资将用于推进3D大模型前沿探索及Hyper3D系列产品商业化。其3D生成大模型Rodin上线45天实现100万美金年经常性收入，已与Amazon等知名客户深度合作，获数百万元B端订单，覆盖多行业。

月之暗面海外产品负责人的AI Coding项目被投资人抢爆了，新一轮估值8000万美元

前月之暗面海外产品Noisee创始人明超平发起的AI Coding项目“新言意码”已完成两轮融资，目前公司估值达8000万美元。该项目吸引了五源资本、高榕资本、真格基金、高瓴创投和IDG资本等多家顶级投资机构。新言意码定位为AI coding应用，瞄准类似美国智能代码生成产品Cursor的市场。

京东健康发布业内首个医疗健康全场景应用大模型产品体系

2025年1月11日，京东健康在年度医生盛典和数智医疗大会上发布了“AI京医”大模型产品体系及业内首个面向医院全场景应用的大模型产品“京东卓医”。“AI京医”包括AI诊疗助手2.0、AI科研助手和AI医生智能体等产品，旨在提升患者就医体验、医生临床科研效率和医院运营效能。

YY直播首个 AI 伴唱服务数字人“灵儿”发布，平均每天服务超100万用户

YY直播近日发布首个AI伴播数字人“灵儿”，在12日YY 2024年度巅峰盛典上首次亮相。依托自研技术，“灵儿”已覆盖6000多个直播间，平均每天服务超100万用户，目前处于公测阶段。上线半年来，互动、发言量提升超30%，部分直播间互动设备数增长670%，付费用户数增长80%。

中文互联网语料 AI 资源平台发布：27 个数据集、总量 2.7T

中国网络空间安全协会发布中文互联网语料资源平台，含27个数据集、总量2.7T。该平台在中央网信办指导下，由协会与国家互联网应急中心等共建，经严格数据处理后，推出中文互联网基础语料2.0，规模120GB，数据3800万条。

1月10日·周五

通义万相2.1模型能力重磅升级，轻松实现文生组图

阿里通义万相2.1模型重磅升级，视频生成能力显著增强。通过自研的高效 VAE 和 DiT 架构，首次实现了中文文字视频生成功能，支持无限长 1080P 视频的高效编解码。在 VBench 视频生成模型评测体系中荣登榜首。还支持文生组图，采用 IC-LoRA 图像生成训练方法，增强文本到图像的上下文能力，轻松实现关联图像间的组合生成。

海螺AI推出全新 S2V-01 主体参考模型，AI视频创作再上新台阶

海螺AI推出全新S2V-01主体参考模型，支持用户通过上传一张参考图片，生成与原图高度一致的角色视频。显著提升AI视频创作的效率和质量，使得每一帧画面都能完美还原参考形象。只需简单三步：上传图片、选择模型、生成视频，即可体验。

商汤推出“日日新”融合大模型，勇夺“双冠王”

2025年1月10日，商汤科技推出“日日新”融合大模型，实现原生融合模态，深度推理与多模态信息处理能力大幅提升。模型在SuperCLUE《中文大模型基准测评2024年度报告》与OpenCompass多模态评测中均获第一，成“双冠王”。

雷蛇推出“AI 游戏伴侣”Project AVA：支持实时指导 + 赛后复盘

在 CES 2025 上，雷蛇发布全新概念产品 Project AVA， AI游戏伴侣，旨在提升玩家的游戏水平。Project AVA 在训练过程中汲取顶尖电竞职业玩家和教练的游戏理解，能为 MOBA 和 FPS 类型游戏提供实时指导，并在赛后给出个性化总结分析，指出操作高光和需改进之处。Project AVA 还能对电脑硬件进行性能调优，提升帧数和优化画面效果。

国家网信办：截至 2024 年末共 302 款生成式人工智能服务完成备案

截至2024年12月31日，国家网信办共完成302款生成式人工智能服务的备案，其中2024年新增238款。2024年还有105款通过API接口或其他方式直接调用已备案模型能力的生成式人工智能应用或功能在地方网信办完成登记。这些备案和登记工作旨在促进生成式人工智能服务的创新发展和规范应用。

开源媒体播放器 VLC 下载破 60 亿次，预览本地 AI 字幕 / 翻译功能

开源媒体播放器 VLC 在 CES 2025 上庆祝累计下载次数突破 60 亿次。VideoLAN 总裁 Jean-Baptiste Kempf 表示，尽管流媒体服务盛行，VLC 的活跃用户数量仍在增长。VideoLAN 在 CES 现场预览了 VLC 即将推出的新功能：基于本地开源 AI 模型的离线字幕生成和翻译功能。功能现已支持多种语言，包括法语、德语、日语和希伯来文。

1月9日·周四

巨量引擎旗下创意生产平台 AIGC工具“即创”正式版上线

巨量引擎旗下创意生产平台 AIGC工具“即创”正式版已上线，具备AI脚本生成、智能成片、数字人、商品卡等多体裁内容生成能力，新增“爆款裂变”“一键过审”等功能。

官宣！通义灵码 AI 程序员全面上线，仅需10分钟完成整个开发过程

阿里云和通义实验室联合推出的通义灵码AI程序员全面上线，成为全球首个同时支持VS Code和JetBrains IDEs的AI编程工具。通义灵码具备代码智能生成、研发问答等功能，通过对话协作方式，能够高效完成业务开发、问题修复和单元测试等任务。累计生成代码达15亿行。

微软开源 140 亿参数小语言 AI 模型 Phi-4，性能比肩 GPT-4o Mini

微软2025年1月8日在Hugging Face平台开源了小语言AI模型Phi-4，其参数量为140亿。Phi-4在多个基准测试中表现优异，超越了参数量更大的Llama 3.3 70B和OpenAI的GPT-4o Mini。出色性能主要得益于高质量数据集的训练。

CES 2025首日观察：AI硬件不再画饼，中国厂商大杀四方

CES 2025首日，AI硬件成为焦点，中国厂商表现亮眼。涂鸦智能展示AI与IoT深度融合的创新应用，如智慧能源管理、AI灯光创作等，AR/AI眼镜大热，雷神、Rokid等厂商推出多款新品，电视领域，海信、TCL、长虹等国产厂商凭借RGB三维控色、Mini LED技术等突破。智能清洁设备也迎来创新，追觅、MOVA、云鲸等品牌带来机械臂、履带式拖布等新技术。

晚点对话李开复丨零一万物部分团队并入阿里，“灵魂拷问来得太快了”

零一万物CEO李开复在晚点对话中透露，公司与阿里云成立产业大模型联合实验室，部分团队将加入该实验室。零一万物将不再追求训练超级大模型，转而专注于训练更快、更便宜的模型，并基于此打造可盈利的应用。

联通开源首个完全在国产昇腾 AI 平台训练和推理的中文原生文生图模型“元景”

联通数据智能宣布开源首个完全在国产昇腾 AI 平台训练和推理的中文原生文生图模型“元景”。模型通过在SDXL架构中融合复合语言编码模块，实现了对中文长文本和特色词汇的精确语义理解，提升图像生成效果。元景模型替换了英文CLIP模型，增强了中文短文本输入的理解能力，支持长文本输入。

智元机器人推出首个机器人4D世界模型

智元机器人团队推出了首个机器人4D世界模型EnerVerse，通过自回归扩散模型结合稀疏记忆机制和自由锚定视角（FAV），在生成未来具身空间的同时，显著提升了机器人动作规划能力。EnerVerse在复杂任务中表现出卓越的未来空间生成能力和动作规划性能，解决了模态对齐和数据稀缺等挑战。

1月8日·周三

英伟达推出生成式世界基础模型平台 Cosmos 构建高保真物理模拟世界

英伟达推出了生成式世界基础模型平台Cosmos，旨在加速自动驾驶和机器人领域的发展。Cosmos能根据文本、图像或视频生成高度仿真的虚拟世界状态，为AI应用提供独特的视频输出。平台集成了生成式模型、高级标记器和加速视频处理管道，帮助开发者生成大量基于物理的合成数据，减少对真实世界数据的依赖。

可灵AI V1.6模型现已开放API，生成质量更稳定

北京快手宣布，自研的视觉生成大模型可灵AI V1.6已开放API。新版本在生成质量、内容效果等方面有显著提升，尤其在广告视频素材生成方面表现出色，能更好地响应运动、时序类动作和运镜等文字描述，提高素材生成成功率。

HeyGen推全新数字人技术，与 Sora 实现集成

HeyGen近日宣布推出全新数字人技术，并与Sora实现集成。此次合作产生的虚拟形象视频在许多情况下表现优于真人演员，且没有长度限制。HeyGen的虚拟形象完全由人工智能生成，非基于真实人物模型，具有更强的可塑性和创造性，可满足不同视频需求。

Anthropic正以600亿美元估值筹集20亿美元，将成为第五大最有价值的美国初创公司

Anthropic 正在与 Lightspeed Venture Partners 谈判，计划以 600 亿美元的估值筹集 20 亿美元。这轮融资将使 Anthropic 的估值达到 600 亿美元，成为继 SpaceX、OpenAI、Stripe 和 Databricks 之后第五大最有价值的美国初创公司。

科大讯飞2025年「首场发布会」，打造每个人的办公新范式

科大讯飞于2025年1月7日在北京中关村国际会议中心举办办公智能体产品升级发布会，推出多款升级产品。此次升级围绕智慧办公新范式，首次联合发布“知识中台、AI搜索、星火人设、虚拟数字人、星辰MaaS与多模交互”六大通用能力，旨在为每个人打造量身定制的AI助手。

阅文旗下AI男友应用筑梦岛获千万美元融资，开启独立运营

阅文集团旗下的“筑梦岛”已开启独立运营，完成新一轮融资，金额超1,000万美元，由商汤国香基金、阅文集团等战略投资方共同投资。筑梦岛定位为“新一代AI虚拟互动娱乐平台”，用户可创造并互动“梦中人”，通过多模态互动建立情感连接。目前，筑梦岛App拥有近五百万注册用户，其中近80%为年轻女性用户，人均日对话轮次超120轮。

年终复盘 2024 AI搜索江湖，三大门派围攻光明顶

2024年，AI搜索赛道竞争激烈，互联网巨头、内容平台和AI创业公司纷纷入局。腾讯、百度、字节跳动等推出多款AI搜索产品，如搜狗输入法的AI搜索、360的纳米搜索、字节跳动的豆包电脑版等，覆盖学习、办公、电商等多个场景。AI搜索产品形态不断进化，多模态大模型的应用使其具备更强大的搜索和创作能力。

用AI大模型重塑服装设计制版，「深服科技」获数千万元Pre-A轮融资

浙江深服人工智能近日完成数千万元Pre-A轮融资，由上海厚毅资本领投。资金将用于模型开发、技术人才引进和市场拓展。深服科技成立于2023年，专注于为服装行业提供AI解决方案，通过AI大模型技术解决设计和制版难题，降低研发成本。产品“画衣衣AI制版”即将发布，可让设计师自主生成CAD制版图。

1月7日·周二

英伟达发布新一代消费级显卡RTX50系列，售价为549美元起

在2025年1月7日的 CES 展会上，英伟达 CEO 黄仁勋发布了 RTX 5090 显卡。显卡采用 Blackwell 架构，拥有 920 亿晶体管，AI 性能达 3352 TOPS，显存为 32 GB GDDR7，功耗为 575W。能通过 AI 提升帧率和图像质量。英伟达还推出了 Cosmos 世界模型平台，旨在推动物理 AI 的发展。

中国信通院发布 MaaS 六大标准，解决 AI 模型落地“最后一公里”难题

中国信通院于2025年1月6日发布MaaS（模型即服务）系列标准，旨在解决大模型落地应用中的质量问题和选型难题。系列标准涵盖模型服务协议、评估方法、平台能力、模型管理及应用开发等方面，为大模型服务商和平台供应商提供能力建设参考，助力MaaS行业健康发展。

腾讯研究院发布《AI图景解码50关键词》浓缩AI领域的基本图景和趋势

腾讯研究院发布《AI图景解码50关键词》，将2024年AI领域的关键信息和趋势浓缩为50个关键词。研究团队基于大量数据和专题研究，筛选出涵盖基础模型、图像处理、视频生成等八大方向的关键词，通过AI生成卡片进行可视化表达。帮助普通人快速了解AI领域的基本图景和未来趋势。

传音控股与阿里云达成合作，通义千问大模型搭载于前者旗下 AI 手机

传音控股与阿里云达成合作，将通义千问大模型搭载于旗下 TECNO 品牌的 AI 手机 PHANTOM V Fold2 中。手机通过特定的 AI 按键，用户可以在离线环境中流畅运行多轮 AI 对话，实现文档及通话摘要等功能。

1月6日·周一

罗永浩 Jarvis 初创项目“J1 Assistant 助理”上线，支持语音与大模型互动

罗永浩旗下的AI初创项目Jarvis在海外上线 J1 Assistant AI智能助手，目前仅提供安卓版本，官网对国内IP进行了限制。J1 Assistant 的特色在于音频输入功能，用户可以通过语音输入，将语音消息发送至谷歌搜索引擎、自家AI模型或ChatGPT进行查询，还可以用于创建备忘录。

「天工大模型4.0」o1版和4o版正式上线天工APP和网页，免费使用

昆仑万维集团宣布，「天工大模型4.0」o1版和4o版于2025年1月6日正式上线天工网页和APP，供用户免费使用。o1版专注于中文逻辑推理，具备强大的数学、代码、逻辑、常识和伦理决策能力，通过多智能体体系和强化学习等技术提升推理性能。4o版为多模态模型，语音对话助手Skyo具有情感表达和多语言切换能力，提供流畅的实时对话体验。

微软计划本财年砸下 800 亿美元，建设符合 AI 工作需求的数据中心

微软计划在2025财年投资800亿美元建设支持人工智能运算的数据中心，其中超过一半的资金将投向美国市场。微软副董事长布拉德·史密斯表示，美国在全球AI竞赛中处于领先地位，得益于私人资本投入和技术创新。微软已向OpenAI投资超过130亿美元，将其AI模型整合到Windows、Teams等产品中。

马斯克称 Grok 3 即将推出：已完成预训练，计算量比 Grok 2 高十倍

马斯克宣布 Grok 3 即将推出，预训练已完成，计算量比 Grok 2 高出十倍。去年 7 月，Grok 3 使用了 10 万块英伟达 H100 芯片进行训练，但未能如期发布。去年 12 月，xAI 向所有 ? 平台用户免费推出了 Grok-2 模型，Premium 用户将优先访问新功能。

阿里通义千问 Qwen 推 CodeElo 基准，OpenAI o1-mini 夺冠超 90% 人类程序员

阿里通义千问 Qwen 推出了 CodeElo 基准测试，利用 Elo 评级系统评估大语言模型（LLM）的编程能力。CodeElo 通过 CodeForces 平台的题目进行测试，确保评估的准确性和全面性。在测试中，OpenAI 的 o1-mini 模型表现最佳，Elo 评分为 1578，超过了 90% 的人类程序员。

上海发布“天工人工智能工业平台”和“工业语料库 1.0 版”

上海市在“人工智能+”行动推进大会上发布了“天工人工智能工业平台”和“工业语料库 1.0 版”。天工平台采用开放架构，兼容主流大模型，提供从底层算力到顶层应用的全面支持，旨在降低工业企业使用 AI 的门槛，提高应用开发效率，助力企业智能化转型。工业语料库则为企业提供精准的决策支持和解决方案。

谷歌 DeepMind 推 CAT4D：普通视频变 3D 大片，单视角视频也能转换多视角了

谷歌 DeepMind 联合哥伦比亚大学和加州大学圣地亚哥分校开发了 CAT4D AI 系统，能够将普通视频转化为动态 3D 场景。系统基于扩散模型，将单视角视频转换为多视角视图，用户可以从不同角度观看视频中的主体。

1月3日·周五

阿里入局 AI 眼镜：与雷鸟达成战略合作，产品将接入通义大模型

雷鸟创新与阿里云达成AI眼镜领域的独家战略合作，阿里云通义大模型将为雷鸟AI眼镜提供技术支持。是国内首次大模型与AI眼镜硬件厂商深度定制合作。双方将共同投入研发资源，围绕云计算、大模型、AI硬件等领域合作。雷鸟计划于1月7日发布雷鸟V3 AI拍摄眼镜。

微软发布新模型 LAM ，可以自己操作Windows程序

微软推出 LAM（Large Action Model）“大型动作模型” ，能够独立操作Windows程序，将用户请求转化为实际行动。是首个专门训练与微软Office产品一起工作的模型。在Word测试中，LAM的成功率达到71%，速度超过GPT-4o。

1月2日·周四

百度增设搜索产品：上线“AI 搜”，通过 @与不同智能体交互

百度近日上线“AI 搜”，基于百度文心大模型的桌面端AI搜索引擎。整合了百度搜索引擎、健康、律临、文库、教育等内容生态，提供话题探索、问题解决等功能。用户可通过@方式与不同智能体交互。

阿里前端第一人AI创业首秀，要做全球内容创作者的GitHub！5k人排队内测

前阿里前端技术专家玉伯，离开蚂蚁集团后创办AI公司思维天空，推出AI工具YouMind，旨在服务全球创作者。YouMind 集成多模态内容，提供网页总结、翻译、ChatBot对话等功能，支持用户将内容分类收藏。目前处于内测阶段，已有近5000人申请，公司估值过亿。

智象未来多模态大模型3.0全球首发

智象未来发布智象多模态生成大模型3.0和智象多模态理解大模型1.0，旨在提升视觉多模态基础模型服务，激发创造力。创始人梅涛院士强调了AI技术在推动科学发展和具身智能方面的重要性，提出了大模型通往AGI的两条路径。

阿里云与零一万物达成战略合作，成立“产业大模型联合实验室”

阿里云与零一万物达成战略合作，共建“产业大模型联合实验室”，旨在加速大模型技术应用落地和产业生态整合。双方将结合研发实力，通过阿里云百炼大模型平台提供服务。进一步深化双方在AI大模型领域的合作。

英伟达新一代显卡领衔，一波AIPC芯片产品有望亮相CES展

英伟达CEO黄仁勋将在CES 2025发表开幕演讲，可能发布新一代GeForce RTX50系列显卡。英特尔和AMD也预计在会上发布AIPC相关产品，推动AI芯片技术迭代。行业已进入用户体验探索阶段，AIPC芯片具备自然语言交互等特点，有望快速渗透PC市场，带动产业链升级。

谷歌前CEO施密特预测：AI 将在今年获得“永久记忆”，2028 美国会耗尽能源储备

谷歌前CEO埃里克·施密特预测，2025年AI将实现三大突破：获得“永久记忆”、智能体从对话到行动的飞跃、文本到行动的编程革命。他强调AI变革将“一切，无处不在，同时发生”，警告美国可能在2028年耗尽能源储备，因数据中心耗电量巨大。

文章版权归作者所有，未经允许请勿转载。

THE END

其他专区