国内人工智能领域的大模型竞争,已经从单纯的算法比拼演进到了实际应用场景的较量。现在,不再是单纯展示技术实力,而是要看看哪家能够在现实世界中发挥出最大的效用,真正实现效率提升,并且为社会创造实质性的价值。
在9月20日的云栖大会上,浩鲸科技举办了鲸智大模型发布会,其中BI大模型引起了广泛关注。据透露,基于鲸智BI大模型打造的鲸智ChatBI工具在中国信通院可信AI评估中表现出色,跨越了四大智能领域门槛,并通过了20项能力测试,成为首批达到业内最高4+级评级的产品之一,充分展示了其在综合能力和智能技术方面的领先地位。
浩鲸科技的数据智能首席专家吴名朝指出,在BI场景中引入大模型的过程中,知识构建、查询准确性以及模型泛化等方面还存在不少技术难题需要克服。
随着数字化转型步伐加快,企业正面临着数据量激增和业务复杂度上升的双重挑战。为了支持更高效的决策制定,企业的数据架构必须升级,以应对跨部门、跨流程乃至跨系统的复杂数据分析需求。这不仅要求分析人员拥有高水平的数据分析技能,还需要提供集成的数据分析、商业智能及机器学习解决方案,从而确保用户能够获得统一而流畅的数据体验。
传统的方法是采用端到端的Text2SQL模型,它能够理解用户的自然语言请求并转化为可执行的SQL语句来提取所需数据。虽然这种方法取得了一定的成功,但也暴露了一些明显的局限性:
多样化的问法导致容错率低:面对用户多样化和口语化的数据请求,端到端的Text2SQL模型显得不够灵活;知识点分散且逻辑关系复杂:大量的BI知识分布于各种报表、指标元数据、视图和脚本中,缺乏关联性和完整性。为此,浩鲸科技致力于将大模型技术与数据分析工程紧密结合。借助大模型强大的自然语言处理能力和多年来在BI领域的深厚积累,他们实现了对话式的数据检索和快速分析功能,极大地简化了用户获取和理解数据的过程。用户只需简单地表达他们的需求,系统就能迅速生成专业的数据图表。
吴名朝进一步介绍,浩鲸科技的鲸智ChatBI工具围绕“取数、看数、用数”的全过程设计,具备智能意图识别、智能图表生成、智能数据推荐及智能洞察等功能,旨在帮助用户轻松搭建一个易于使用的数据分析助手。企业用户可以通过简单的对话方式提出问题,无需编写复杂的查询语句就能得到所需的数据分析结果。
就技术实现而言,基于语义理解的SQL生成任务要求准确捕捉用户查询中的指标及其相关维度。为了提高数据服务层的精度与效能,浩鲸科技BI大模型团队着力于建立一套完整的BI知识数据管理体系。
这套体系深入涵盖了业务术语、同义词、原子术语、关键指标、多维数据以及库表模型等核心元素的精细化管理。这样的做法旨在弥补基础大模型在特定行业的知识缺口,促进上下文之间的紧密联系,为大数据分析和用户决策提供更加稳固的信息支撑。
通过对行业专属术语库的整理和优化,保证每个业务概念都能得到精确表述。同时,通过创建同义词语管理系统解决自然语言处理中的模糊性问题,使得模型可以更好地适应不同的语言表达方式。此外,针对关键性能指标和多维度数据的精细化管理,浩鲸科技开发了一套高效的数据管理体系,有助于用户深度挖掘数据价值,揭示潜在的趋势和模式。
更为重要的是,通过实施库表模型的数据管理,为大模型提供了强有力的结构化数据支持,这不仅增强了模型对复杂数据关系的理解力,也赋予了它基于先验知识进行推理的能力。这一过程实现了知识数据与大模型的深度融合与相互促进,让机器能够更加精准地把握人类语言背后的深层含义,并在实际应用中展现出更高的准确性和鲁棒性。
在BI问数过程中,经常需要判断用户提及的指标是否涉及多个方面。当遇到用户描述含糊不清或意图不明确的情况时,尤其是提问中包含复杂的句子结构时,通常需要细致拆解这些提问,然后进行准确的识别与合理的重组,以确保全面覆盖用户想要分析的所有指标。处理此类查询时的主要难点包括:
自然语言的不确定性和模糊性:用户可能会以模糊的方式提出问题,没有明确指出所有的指标或条件。在这种情况下,需要利用语言理解技术推断用户的潜在意图,并从中识别出涉及的多个主语、谓语或定语成分。多指标的拆分与组合:当用户的查询涉及到多个指标时,必须先将其拆分,分别确定每个指标的意义。这个过程需要智能分析系统具有良好的语法分析和上下文理解能力,以便正确识别不同成分间的关系,再将这些指标重新组合成搜索条件。相比于许多开源方案,浩鲸科技的鲸智BI大模型采用了知识召回模块和轻度弱化Text2SQL的整体架构,通过一系列高精度、高容错的RAG组件降低了垂直领域下实现复杂场景的难度,同时最大程度上改善了Text2SQL的幻觉问题:
术语识别模块:根据专有术语词典进行专业术语分词,并对含有连接词的短语进行拆分。语义解析模块:针对时间标准化、行政区域、组织机构、排序条件、图表展示、查询目标、对比时段、统计函数(如数学运算)、数值条件(如百分比、金额)等场景构建实体识别任务,以发掘用户提问的关键信息点。术语召回模块:对用户提问中的关键实体进行查询和召回,与元数据进行匹配,并执行一系列召回增强操作。转换融合模块:对召回的多组信息按照特定策略进行融合,重写查询并形成可供大模型推理的标准信息。在BI问数的实际操作中,查询信息往往分布在多个维度表中,每个维度表都代表了数据的不同统计粒度或特征。
浩鲸科技开创性地运用虚拟视图技术,根据BI问数场景特有的数据分布特点,智能化地整合查询所需的各类字段,包括但不限于维度字段、业务指标、度量值及查询条件等,创建了一系列临时视图作为大模型推理的基础依据。
这种“按需创建”的视图策略仅保留了查询所必需的字段,减少了冗余信息,提高了大模型的执行效率和准确性。
浩鲸科技的BI大模型专注于为特定业务领域定制并优化SQL生成模型,通过深刻结合该领域的数据库架构(如库表结构)、业务逻辑中的语义信息以及大量数据资源的核心要素,力求输出最符合行业需求且高效的SQL查询语句。相较于通用的Text2SQL模型,该方案充分利用了大型预训练模型对复杂行业语言模式的强大理解能力,并通过精细化的业务数据资源进行微调,显著提升了将业务需求转化为准确SQL语句的能力,最终将行业相关用语的SQL正确转换率提升至92%的水平。
这一创新不仅是自然语言处理与BI数据库查询优化领域深度融合和技术革新的体现,也在实践中极大地提高了业务系统的数据处理效率和准确性,为企业用户带来了前所未有的数据洞察力和业务决策支持,堪称技术和应用价值兼备的典范。
在发布会结束之际,吴名朝表示,“尽管BI大模型要想完美融入实际场景还有很长的路要走,但我们愿意与业界同仁共同探索,不断攻克更多复杂的应用难题。”