你有没有这种经历:让AI帮忙找一张图片,输入“茶几上放着一杯冒着热气的咖啡,旁边有本翻开的书和一副红色眼镜”的图片,主流AI或许能给你一堆有茶几和咖啡的图,但“冒着热气”、“翻开的书页”和“眼镜的颜色”这些决定成败的细节,它很可能就选择性地忽视了,把你气个半死。
这不是AI笨,而是它眼镜度数不够!给AI提供“眼镜”的底层模型CLIP(对比式语言-图像预训练模型),神经比较大条,拙于“明察秋毫”。
这个短板,也成为阻碍AI在电商、安防、工业质检等领域落地“最后一公里”棘手难题,好比一个近视的人,却无法胜任需要“显微镜级视力”的精密工作。
但现在,有人已经攻克了这个难题:
360人工智能研究院最新开源的FG-CLIP2模型(360视觉语言对齐模型),在涵盖图文检索、目标检测、图像分类等8大类29个公开权威基准测试中,全面超越了行业巨头Google的SigLIP 2和Meta的MetaCLIP 2,在中文和英文任务中均取得了最佳性能,可以说是全球最强图文跨模态VLM模型。这一次,大模型终于对齐了“视觉颗粒度”!
有圈内人评价,这相当于给AI戴上了一副“高精度光学显微镜”,让它从“看得见”进化到了“看得清”。也让我们感慨,让AI“看懂”图片与文字关联的核心赛道上,来自中国的模型首次实现了全方位的领先!
破局:CLIP模型的“近视病”与“生长痛”
回顾CLIP模型诞生之初,是具有革命性意义的,其通过海量图文数据对比学习,让AI获得了前所未有的通用图文理解能力,好比为AI安装了一套标准的“视觉-语言”联通系统。
然而,这套系统有个天生的“分辨率”限制,像个近视眼,短板很明显:
让它找“猫”,没问题;但让它找“一只正在伸懒腰的、尾巴翘起的橘猫”,就犯了难。具体而言,它无法精准描述图片里的细节特征,如衣物纹理、物品材质,无法理解复杂的方位关系,比如“A放在B后面,被C部分遮挡”。更糟心的是,模型也难以有效区分语义相近的文字说明如“奔跑”与“疾驰”,导致理解过于笼统。
特别是由于中文语意的灵活性与复杂性,传统模型更是显得力不从心,难以处理丰富的语境和灵活表达。这背后深层原因是,CLIP模型的训练数据和目标函数更侧重于全局语义的匹配,而缺乏对图像中局部区域、物体属性、空间关系等细节进行精准对齐的强制要求。
这种能力缺失直接制约了AI的上层应用,例如,在电商平台,用户搜索“领口带蓝色条纹的白色衬衫”,传统模型可能只匹配到“白色衬衫”,导致搜索结果不精准,影响转化率;在内容安全领域,模型可能能识别出“刀”,但无法精确判断是“厨具”还是“凶器”,依赖于整体画面氛围,容易误判或漏判。
FG-CLIP2要解决的,正是这些“像素级”对齐的难题,它的目标不是成为一个参数更大的模型,而是成为一个“更精细”的模型。其名称中的“FG”即“细粒度”,让AI应用有望从“可用”走向“好用”和“精准用”。
来看“一只狸花猫和屏幕中的英短对视”图,让你清晰地get到FG-CLIP2的“火眼金睛”:
FG-CLIP2能清晰读懂这张图,所展现的能力是层次递进的。首先,它能够精准分辨猫的种类;其次,在存在视觉遮挡的复杂情况下,它能清晰辨别物体的空间层次,搞清楚屏幕内外,对三维空间关系有深刻理解;此外,模型对猫的毛发属性和状态敏感。
换言之,FG-CLIP2能处理现实中充满遮挡、层次和细节的复杂场景,实现了从“识别物体”到“理解场景”的关键跃升,难怪它能登顶SOTA,超越一系列竞争对手。
那么,背后的底层逻辑是什么?训练过程中,360用了哪些“黑科技”?
登顶SOTA,FG-CLIP2的技术“三重门”
FG-CLIP2带来一套组合拳式的“技术革新”,覆盖了数据、算法和架构三大核心层面。
首先,是数据基石,如果说数据是AI的“粮食”,那么FG-CLIP2吃上的就是精心配比的“营养餐”。团队构建了名为FineHARD的大规模高质量中英双语数据集。这个数据集牛在,它不仅有常规的图片简短描述,还创新性地为每张图片生成了长达150词以上的详细“小作文”,描述场景背景、物体属性和空间关系。这就好比学习时,不仅看章节标题,还精读详细内容,极大提升了模型的全局语义密度。
更重要的是,它实现了真正意义上的“局部细粒度对齐”:数据集包含了高达4000万个bounding box及其对应的区域描述文本。
这意味着,模型不仅看整张图,还会被训练去关注图中每一个重要小区域,像侦探一样扫描每张图像,“地毯式搜索”,精准定位出所有值得关注的目标实体,并为每个小细节都配上了专门的、描述其细节的文本。
通俗点解释,模型学习时,不仅看整张风景照,还会被专门要求去“精读”照片里的树、湖面上的船、远处的山,每个元素都有独立注释。
通过这种方式,模型被强制训练去建立图像局部区域和文本特定词汇之间的精确关联,从而变成细节狂魔!
最绝的是,团队还利用大语言模型“制造”了1000万组“细粒度难负样本”,故意用来“刁难”模型,训练它辨别极其相似表述的“火眼金睛”。这套数据组合拳,为模型的卓越表现打下了坚如磐石的基础。
第二重创新,是算法创新,有了好粮食,还要有科学的“烹饪方法”。FG-CLIP2采用了两阶段训练策略:先让模型通过长短文本学习建立不错的全局感知,再进入“高级进修班”,专门学习区域对齐和细节分辨。
其中的点睛之笔,是独家TIC损失函数,这个函数就像一个极其苛刻的考官,专门盯着那些语义相近、容易混淆的文本描述,如“微笑”和“咧嘴笑”,加大模型区分它们的难度和奖励。这意味着,模型在训练过程中被不断逼着提升“辨微”能力,从而在面对真实世界的复杂描述时,能做出更精准的判断。
第三重创新,是架构优势,FG-CLIP2选择了经典的、图像和文本编码器分离的显式双塔结构。在搜索引擎、广告推荐等需要处理海量请求、对延迟极其敏感的业务中,双塔结构允许预先提取和缓存海量图片和文本的特征,实现毫秒级的匹配响应。
这意味着,FG-CLIP2从设计之初,就不仅仅是为了刷榜,更是为了能够真正落地,承受亿级用户并发考验的。
一双火眼金睛,从“刷榜SOTA”到“赋能千行百业”
基础模型的突破,归根结底是为了应用服务,要在千行百业的广阔天地间彰显价值。FG-CLIP2的“细粒度”能力,正为众多行业带来新的可能。
比如,电商行业,搜索“宝妈夏季纯棉透气连衣裙”,结果将不再是泛泛的“连衣裙”,而是精准匹配材质、受众和季节的商品,这意味着更低的退货率和更高的购买转化;
AIGC内容生成领域,当文生图模型有了FG-CLIP2作为“裁判”,生成的图片细节将更逼真,更能“听懂人话”,你说“生成一张logo在左上角的宣传图”,它就不会给你放到右下角,有效避免“生成偏差”。
而在守护万家灯火的安防监控领域,FG-CLIP2也在“捉贼”赛道立大功,因为它支持用自然语言进行高效精准的视频检索。
例如,调查人员可以直接输入“寻找背着黑色双肩包、穿蓝色T恤的男子”这样的复杂描述,模型能够理解多个细节属性的组合,快速在海量视频数据中定位到目标线索。这种强大的跨模态检索能力降低了对预设结构化标签的依赖,尤其适用于动态复杂环境下的应急响应和案情分析。
不止于此,FG-CLIP2的精密视觉语言对齐能力,也为时下火热的具身智能赛道发展打开了新的空间:
在机器人执行任务时,它能帮助机器更准确地理解细粒度的语言指令。比如,当接收到“拿餐桌上的红色水杯”这样的命令时,机器人需要从多个杯子中识别出指定颜色和目标;在完成“把玩具放进绿色收纳箱”的任务时,需精准区分颜色和容器类型。
相比传统模型,FG-CLIP2更能理解“脏的抹布”、“打开的抽屉”等对物体状态的描述,从而显著提升机器人在家庭服务、仓储物流等真实场景中的感知能力和操作准确性。
FG-CLIP2的成功,也清晰地传递出一个信号:AI基础模型的发展路径,正在从一味追求参数规模的“大力出奇迹”,转向追求精度、效率和实用性的“精益求精”。
那么,360凭什么能在高手林立的行业交出如此亮眼的成绩单?
答案藏在两大核心动因里,首先,是前瞻性的战略“押宝”。作为一家拥有海量用户和丰富产品生态的公司,360比谁都清楚,要想在未来竞争中不掉队,就必须掌握底层的AI基座能力。因此,它很早就开始全力投入AI基础设施的建设。
无论是FG-CLIP系列,还是此前入选ICCV的PlanGEN、LMM-Det等模型,都是360为构建自家“AI基座”播下的种子。
FG-CLIP2的爆发,并非偶然,而是长期布局后水到渠成的结果。
其次,是“回归基础”的行业趋势,正好撞上了360的“技术弹药库”,360人工智能研究院自2021年就开始默默耕耘“视觉-语言跨模态理解”,并同步推进视觉AIGC生成、多模态大模型以及独特的开放世界目标检测研究。
这些积累,在国内几乎是独一份,为今天FG-CLIP2能够“看懂”复杂场景奠定了坚实基础。
换句话说,当行业开始呼吁“回归基础”时,360早已在自己选择的赛道上积累了深厚的“家底”。
日拱一卒无有尽,功不唐捐终入海。在决定未来AI高度的基础模型战场上,360不仅没有缺席,反而已经在其关键细分领域走到了世界前列,其正通过扎实的工程实现和前沿的学术创新,稳步强化其作为中国AI领域重要技术贡献者的“明星标签”。
这一次,是“细粒度”的胜利,也是“长期主义”的胜利。
责任编辑:凌美
24小时热文
流 • 视界
专栏文章更多
- [常话短说] 【解局】广电上市公司各种“花样”?! 2025-11-14
- [常话短说] 【真心话】谢谢你,我的广电姐妹兄弟! 2025-11-13
- [常话短说] 【解局】某广电公司高管集体辞职?! 2025-11-12
- [勾正科技] OTT月报 | 2025年9月智能电视大数据报告 2025-11-11
- [常话短说] 【曝】靴子落地:他被“双开”! 2025-11-11





