近日,2024 CCKS Archer Text-to-SQL竞赛正式结束,诺谛智能(KnowDee)AI算法组经过与国内知名高校、企业的同台比拼,最终在中英文双语评测任务中均取得第一名。
Text-to-SQL任务旨在将自然语言问题转换为可执行的SQL语句,该任务在学术界和工业界一直受到广泛的关注,用来解决自然语言与数据库复杂数据高效交互的行业难题。基于此,本次取得竞赛第一名的佳绩,也证明了诺谛智能在企业数据资产高效应用方面不断开拓,通过前沿AI技术创新与真实应用场景的融合,实现了企业在数据查询、数据洞察、数据分析、数据决策等方面基础问题查询的低成本实施以及困难问题查询准确率的提升,为高效的知识管理与复用提供赋能。
以AI前沿思路解决行业挑战
一直以来,让自然语言以一种更友好和直观的方式与数据库交互都是一个具有挑战性的工作,其核心就是将自然语言问题转换为可执行的SQL语句。虽然现有方法在当前评估基准上已经取得了较好的效果,但仍然无法满足数学、常识和假设等类型的复杂推理需求。为此,山西大学和爱丁堡大学联合推出了Archer评测基准,其包括数学推理、常识推理和假设推理三种推理类型,由1042个中文问题、1042个英文问题和521个相应的SQL查询组成,涵盖了20个领域的20个不同的数据库,对当下模型和AI技术极具挑战性。
针对本次评测任务,诺谛智能AI算法组采用基于检索增强的SQL生成,该方案核心过程包括行数据检索和基于ReAct机制的SQL生成两个主要阶段。在行数据检索阶段,会根据用户问题从目标数据库中的各个表内检索与用户问题最相关的K行输入作为样例整合到SQL生成的指令,为大模型生成SQL提供最相关的数据输入,从而提升SQL生成的正确率。
行数据检索流程
阶段二则为基于ReAct机制的SQL生成,该阶段利用行数据检索得到的各表最相关行构建SQL生成指令,然后通过大模型生成SQL,并判断生成的SQL是否语法正确且能从数据库中查询到结果,若SQL语法错误或者无法从数据库中查询到结果,则将SQL和对应报错信息,填充到ReAct Prompt中再次生成SQL,实现对困难问题的对齐和纠偏。基于以上实施方案,诺谛智能最终在Archer中英文测试集上均取得了最优成绩。
基于ReAct机制的SQL生成
注重技术落地 为客户真正创造价值
目前,该技术已应用于诺谛智能对话式智能分析平台解决方案,用来辅助企业业务人员高效进行数据洞察与数据分析,提升商业策略迭代效率,并解决企业大量数据带来的数据分析难、服务慢、使用效率低,以及缺乏统一数据共享、数据服务安全管控粗、数据维护运营成本高等问题。
对此,诺谛智能对话式智能分析平台以“支点”行业大模型驱动,建立对话式智能数据服务与分析决策能力,达到多轮自然语言对话即实现查询、分析的效果,高效为用户提供数据报告、商业决策辅助,大幅降低企业知识获取门槛,同时实现可进化的知识库建设与管理,以及知识复用。该方案自实际应用以来,已助力企业业务人员临时性问询效率提升90%以上,企业数据资产沉淀与复用率提升60%以上。
未来,作为联想集团战略孵化的新一代认知与决策人工智能企业,诺谛智能还会进一步探索AI技术边界,在企业数据智能分析方面引入更多行业语义化信息,不断提高基于大模型的数据查询初次使用问询准确率,加速行业落地实施周期,助力更多制造业合作伙伴挖掘数据资产价值,实现智能化升级。