在大模型的时代浪潮中,许多人都在思考同一个问题:如何让这些模型真正落地,并发挥实际效用?尽管OpenAI作为聚光灯下的焦点,最近也面临着资金紧张的问题,但它仍在寻求新的融资机会以维持其发展。与此同时,在中国,有一家公司正在以其独特的方式解决这一挑战。
这家名为格灵深瞳的企业,凭借其多模态大模型在多个权威数据集上超越了OpenAI的表现,并通过一系列成功的落地案例展示了大模型不仅限于语言模型,视觉和多模态模型同样拥有巨大的应用潜力。
格灵深瞳曾被誉为“A股AI视觉第一股”,而现在,它正以一种全新的姿态展示自己——大模型应用的先锋。
在银行安防领域,AI算法已经大规模应用于超过10000个银行网点。城市管理方面,交通治理项目已在十个以上的省市启动试点。商业零售方面,智慧案场解决方案已在全国20多个省市的近1000个项目中实施。体育教育方面,相关产品和服务已经在全国多个学校推广,惠及逾十万师生。取得上述成就的背后,是格灵深瞳在大模型技术上的不懈努力:
自主研发的视觉大模型Unicom v2,在多个业务数据集上表现优于OpenAI的CLIP、Meta的DINOv2以及苹果的DFN。基于Unicom的深瞳灵感-7B多模态大模型,在业界同等规模的VLM模型中领先,胜过广泛使用的OpenAI CLIP和谷歌SigLIP。Unicom v2的相关研究成果已被纳入ECCV 2024会议。
尽管通常提到的大模型默认指的是大型语言模型,但格灵深瞳的故事告诉我们,视觉大模型和多模态大模型在视觉AI领域仍然具有广阔的前景。
多模态如何重塑传统视觉AI?
早在2022年,格灵深瞳就开始研发视觉大模型,但在当时推动其落地却面临诸多挑战。
那时,行业主流观点依然是优化卷积神经网络,尽量减小模型体积以便在边缘设备上运行。然而,ChatGPT的出现彻底颠覆了这一局面。
ChatGPT不仅展示了算力与效果之间的关系,还促使硬件厂商主动适应Transformer算法。例如,英伟达在Hopper架构GPU中加入了专用的Transformer引擎。
ChatGPT帮助AI企业完成了市场教育工作,视觉AI也经历了类似于语言模型的转变,从“模块化”过渡到“一体化”。
格灵深瞳的Unicom系列大模型正是这一转变的产物,通过增加数据和计算规模,强化了模型的通用能力,使其能够以统一的方式理解和泛化世界。
例如,在银行安防领域,如何判断监控画面中是否存在打斗行为?以前需要复杂的规则和阈值设计,而现在,结合语言模型,只需描述视频帧,模型即可从语义层面判断是否为打斗。
同样,在工业质检领域,通用视觉大模型结合语言模型,实现了少样本学习和跨场景泛化,AI不仅能识别缺陷,还能提供文字描述,供工作人员参考。
在银行网点解决方案中,格灵深瞳采用了一个总-分-支三层架构,形成了一个不断进化的“中央大脑”,能够灵活应对各种需求。
弱监督学习为视觉AI开启了Scaling Law的新篇章。
格灵深瞳通过开发Unicom视觉基座模型,逐步探索了一种新颖的弱监督学习方式,使得无需标注也能充分利用更多的图像数据。
Unicom v2基于此思路,进一步扩大了数据和参数规模,刷新了多项记录。
通过将视觉理解能力和语言模型结合,格灵深瞳打造了深瞳灵感-7B多模态大模型,展现了在多图推理、图文增量学习等任务上的潜力。
格灵深瞳正在尝试用RWKV方法替代ViT架构,训练出视觉语言模型RWKV-CLIP,并将其开源,推动行业共同进步。
对于视觉AI公司而言,多模态是一种全新的打法。格灵深瞳通过将技术创新与行业经验相结合,成为了多模态大模型应用的先行者。
大模型带来的不仅仅是技术上的革新,更是行业应用的全新范式。只有深入了解行业需求,AI才能在实践中生根发芽。