1 引言

电子表格作为三大办公套件(文字、表格、演示)之一,在办公场景中具有同样重要的地位。表格处理作为现代办公和数据分析的重要环节,常常面临操作繁琐、任务复杂和错误成本高等问题。一方面,传统表格处理需要用户具备较强的逻辑能力和熟练的工具操作技能,如函数公式的应用、数据透视表的创建与分析、图表的设计与优化、数据清洗与处理技巧等,具有较高的学习门槛;另一方面,随着数据规模的增长和应用场景的多样化,这些重复且繁琐的细节需要耗费大量时间,传统方法在效率和精准度上愈显不足。

大模型的迅猛发展为AI表格领域带来了从数据处理效率到用户体验的提升的机遇。大模型凭借其强大的自然语言理解能力,能够精准解析用户的意图,在将模糊的自然语言需求转化为清晰的表格操作方向上展现了潜力。此外,大模型的上下文理解能力有可能在表格处理的全过程中提供个性化建议和即时反馈,根据数据特征生成深入的洞察,显著提高用户操作的准确性与工作效率。这些机遇表明,大模型的应用不仅拓展了AI表格工具的功能边界,也推动其向智能化、交互式和全能型的方向快速发展。

然而,与文字处理和演示文稿的AI应用快速发展的现状相比,表格领域的AI创新显得相对滞后,尚未出现杀手级应用。AI技术在文字处理方面已广泛应用于语法纠正、智能摘要和内容生成等功能,而演示文稿则在自动排版、模板推荐和图像生成领域实现了显著突破。相比之下,表格的AI应用大多集中于基础的数据清洗、简单分析和公式自动化,缺乏革命性进展。这一差距不仅反映了表格数据处理的复杂性,也表明该领域尚有巨大的潜力和发展空间。因此,此调研旨在填补当前研究中的以下空白:

RQ1: 探讨AI表格发展较缓慢的原因。尽管AI技术在文本处理和图像生成等领域取得了显著突破,但在表格领域的进展相对滞后,尚需深入分析其背后的技术瓶颈、应用场景的复杂性以及用户需求的差异化因素。

RQ2: 评估AI表格的发展阶段和技术水平。通过对现有产品和技术的系统梳理,明确AI表格在功能完善度、用户体验优化以及智能化程度上的表现,为行业现状提供全面的视角。

RQ3: 识别AI表格未来的发展路径与关键挑战。这包括对潜在技术突破点的预测、市场需求的变化趋势,以及竞品间的差异化竞争策略分析。

本研究旨在通过系统性的分析与总结,提供对AI表格行业的深度洞察,为行业参与者和研究者提供参考依据,助力行业的进一步发展与创新。

2 行业竞品

2.1 总体情况

(1)行业规模

从整个办公类AI应用类别来看,其在2024年6月全球Top100AI应用流量占比仅为 3.5% 。虽然办公类AI应用在用户使用流量方面占据一定份额,但相比如Chatbot等类别占比(44.0%),其流量规模相对较小。然而办公类 AI 应用在全球Top100AI应用数量占比为9%,反映出办公类 AI 应用在市场上有一定的数量基础,但存在场景专业性与用户群体相对集中、使用频率高但流量特性低的困境。

图 1 24年6月全球Top100AI应用流量占比

图 2 24年6月全球Top100AI应用数量占比

整体来看,办公类AI应用目前尚属于一个“小而美”的赛道,办公用户粘性强,且应用场景具有高频刚需的特点。然而,与Chatbot等高交互性、高扩展性的AI应用相比,办公类AI应用的用户增长速度相对缓慢,这可能与其技术创新门槛较高、场景需求较为专业化有关。因此,尽管其流量占比较低,但办公类AI应用凭借精准的用户定位和差异化竞争优势,在效率提升和智能办公解决方案逐渐成为企业与个人用户核心需求的趋势下,仍具备较大的市场潜力。

此外,办公类虽然共有9款应用上榜,但更多聚焦于客服问答、演示文稿、内容创作、PDF对话等方向,尚未出现有关AI表格的杀手级应用。这反映出AI表格领域在办公类AI应用中仍处于发展初期,尚未充分挖掘其潜在价值和市场需求。换句话说,AI表格领域目前虽然有大厂、高校、创业公司在投入研发和生产,但仍产品在洗牌阶段,这为行业参与者提供了巨大的创新空间。未来,如何通过突破技术瓶颈、优化用户体验、强化场景适配性,将是推动AI表格领域实现跨越式发展的关键所在。

表 1 办公类 AI 应用梳理

应用访问量(百万次)排名
Jambot92.779
Sales Force AI88.2910
Miro29.3725
Prezi14.8844
Mailchimp14.6945
Gamma13.9350
Slidesgo9.2570
Zapier8.9274
ChatPDF7.1793

(2)地区差异

国内外AI表格应用的发展也出现较显著的差异。不同于AI绘图、AI幻灯片等场景下国内均出现完成度较高的对标的竞品的情况,AI表格在国内出现了“大厂不重视表格业务、创业公司扎堆在文字流模态应用、科研界却在攻坚克难”的格局。如图3,在内容推流上,国外已经出现了诸多如何用更原生的AI应用提升表格处理的教程,而国内还处在更多推送如何用ChatBot对表格进行交互、学习表格操作技巧的内容的阶段。

图 3 AI表格在YouTube(左)和Bilibili(右)的视频内容对比

(3)企业分布

国内外的大厂纷纷布局AI表格应用领域,这些大厂通常依托其既有的办公软件生态进行功能扩展。例如,微软Office和金山WPS等客户端编辑器通过集成AI功能实现表格处理的智能化,而谷歌Workspace和字节跳动飞书等在线文档平台则利用云端优势,为用户提供协同处理和智能分析的能力。然而,与国外相比,国内在AI表格领域的创业公司投入明显不足。国外如Bricks、Rows等初创企业,专注于构建高效的在线表格AI工具,以创新的功能和用户体验拓展市场;而国内在该领域的创业生态仍几乎处于空白状态,技术创新和产品化尝试主要集中于大厂。

在科研领域,研究重点则聚焦于表格识别、表格数据编码以及针对特定表格任务的模型微调。这些研究通常由业界与高校合作主导,其中微软在该领域的科研探索较为领先,为表格处理的智能化提供了重要的理论和技术支持。

2.2 产品形态

微软提出的AI应用交互形态(Outside、Beside和Inside),为AI在应用中的融合方式提供了清晰的框架。Outside指AI作为外部辅助工具独立运行,与核心应用通过接口协作。Beside强调AI作为辅助模块并行工作,与主应用保持紧密联系但不直接嵌入核心功能。Inside则表示AI能力深度集成到应用内部,成为其核心功能的一部分,用户在操作中无需额外切换或调用即可获得智能支持。

图 4 微软提出的AI应用的交互形态

由于AI表格应用在场景中的嵌入度逐步提升,我们初步将其应用形态按照上述框架进行分类分析,并发现不同形态的AI表格应用在功能定位、技术实现和用户体验上呈现出显著差异。其主要区别如表2所示。

表 2 三种形态的AI表格应用的主要区别

 内嵌于编辑器理解上下文支持多表复杂操作
Outside类形态   
Beside类形态√(插件)√(低) 
Inside类形态√(原生)√(高)

(1)Outside类形态

Outside类AI表格应用的交互主要是通过在编辑器窗口外的应用中,由电子表格智能体将自然语言转化成生成表格的公式、SQL查询或脚本,用户使用这些表格操作的命令和明则和编辑器进行交互,从而完成对数据的处理。这类应用通过自动化生成复杂的公式和分析脚本,帮助用户在没有公式和函数知识储备情况下高效地处理数据。代表的应用如表3所示:

表 3 生成脚本类AI表格应用

应用名称功能优点
GPTEXCEL生成Excel和Google Sheets公式、SQL查询及脚本- 自动化生成复杂计算和分析
- 提供公式解释,便于理解和修改
- 免费和付费版本可选
AI Excel Bot自动化数据分析、预测建模、报告生成- 提高工作效率,减少手动输入错误
- 能处理大规模数据集,快速识别模式
- 提供强大的数据分析功能
Formula Bot将自然语言指令转化为Excel公式- 简单易用,适合初学者和经验丰富的用户
- 准确生成所需公式,提升效率
JuliusAI驱动的数据分析和报告生成工具(具体功能待查)- 提高数据处理速度和准确性
- 提供智能自动化功能

(2)Beside类形态

Beside类AI表格应用相较于Outside类应用的最大区别在于,其以插件形式嵌入到表格编辑器中,能够直接读取和利用表格中的数据作为模型的上下文输入,从而实现更紧密的交互和更丰富的功能。与Outside类仅支持公式生成和简单脚本不同,Beside类应用进一步扩展了内容生成功能,能够为用户提供基于表格内容的个性化智能支持。然而,由于其以插件形式存在,而非深度集成的原生应用,智能化能力仍主要集中于简单表格内容处理,难以完全覆盖复杂任务场景。

以ExcelGPT为例,该应用基于ExcelDna开发,无需依赖复杂的VSTO和VBA环境,具有良好的兼容性,支持Office Excel和WPS。用户只需在单元格中输入=AI()即可快速调用大语言模型进行表格操作和内容生成。此外,ExcelGPT还支持接入本地知识库,通过调用模型生成数据图表和自动化报表,为用户提供直观的数据可视化功能。

图 5 ExcelGPT应用截图

(3)Inside类形态

Inside类AI表格应用的形态可以从产品策划角度分为两种类型:“表格 + AI”和“AI + 表格”。“表格 + AI”指的是在已有成熟表格办公形态的基础上,将AI作为辅助功能嵌入,例如微软Office、金山WPS等客户端编辑器,以及谷歌WorkSpace、字节跳动飞书等在线编辑器。这类产品通常具备丰富的表格编辑能力,AI的加入更多是为了增强已有功能,提供智能化的操作建议和辅助分析。而“AI + 表格”则是基于大语言模型驱动的原生表格办公应用,其设计初衷并非完全延续传统表格编辑器的功能,而是通过AI技术实现创新的表格生成、分析和交互模式。这类应用通常更聚焦于通过AI提升效率,围绕特定使用场景进行功能优化和交互设计。

这两种类型的应用都能够直接读取表格编辑器的上下文信息并拥有深度操作编辑器的权限,其在理解用户指令需求和执行复杂表格操作方面具有显著优势。“表格 + AI”凭借成熟的生态体系和用户基础,为AI的应用提供了广阔的发挥空间;而“AI + 表格”则通过对特定场景的精准定位和功能的深度整合,展现出更强的效率提升潜力和创新能力。在发展路径上,“AI + 表格”更倾向于开辟新兴市场和满足细分需求,而“表格 + AI”则更关注在现有市场中的增量优化和用户体验提升。

表 4 “表格 + AI”类应用

应用名称功能优点
Google Sheets- 智能填充:识别数据模式,自动填充剩余数据。- 提高工作效率,简化复杂操作。
- 公式建议:根据输入提供公式建议。- 适合初学者与高级用户,易于使用。
- 探索工具:生成数据洞察和图表。- 强大的自动化能力。
字节跳动飞书智能表格- 智能伙伴:提供个性化助手,支持会议总结、文档生成等。- 强大的创作和生产力支持,适用于多种业务场景。
- 数据库搭建:自动生成数据表和字段。- 与企业内部系统集成良好,提升效率。
Microsoft Copilot in Excel- 自然语言处理:通过自然语言查询数据并生成分析报告。- 提供直观的用户体验,通过自然语言交互提高可用性。
- 自动化任务:简化重复性任务的执行。- 强大的数据分析能力,适合商业应用。
WPS AI智能表格- 智能分析:快速生成数据分析报告和图表。- 免费版本可用,降低使用门槛。
- 任务自动化:简化常见的Excel操作流程。- 提供多种模板和工具,适合不同需求的用户。

表 5 “AI + 表格”类应用

应用名称功能优点
Aidocmaker生成文档、电子表格和演示文稿,支持AI语音生成。

- 简单易用,适合快速生成各种文档

- 提供免费计划,适合个人用户

- 支持与Google Drive和OneDrive的集成

Equals提供AI助手,支持公式生成、SQL查询、数据可视化等。

- 强大的实时协作功能

- 支持超过100种公式和数据库连接

- 提供版本历史和自动化更新功能

SheetGPT在Google Sheets中使用AI进行内容生成、数据总结等。

- 无需注册,直接在Google Sheets中使用

- 提供多种AI功能,如图像生成和文本翻译

- 免费使用前100,000字的输入输出

BricksAI驱动的报表、图表和项目管理工具。

- 用户友好的界面,适合所有技能水平

- 快速生成报告和可视化数据

- 提供多种模板和协作功能

Matrices专注于矩阵运算和数据分析的工具。

- 强大的数据处理能力,适合复杂计算

- 界面简洁,易于操作

Numberous.ai提供数字分析和可视化工具。

- 强调数据分析和可视化的能力

- 提供多种分析模型和图表选项

(4)产品形态需求

  1. 数学能力:AI 对表格中的数值、公式和数据关系进行分析、计算和推理的能力。
  2. 持续交互:AI 能够根据用户的实时需求调整分析流程,与用户进行多轮对话式互动。
  3. 可解释性:AI 生成的结论或操作过程必须是透明的,用户可以理解和验证。

如图6所示,AI表格产品 Bricks 的交互界面体现了其在数据操作准确性方面的优势。表格类产品的核心需求在于确保数据处理的精确性,因此在执行用户指令时,系统需要以直观、明确的方式反馈具体操作内容和结果,从而最大程度地降低“幻觉”现象的发生,确保生成内容的可靠性。此外,Bricks 通过内置的上下文记忆功能,能够根据用户输入的后续指令动态调整操作流程。这种能力不仅显著增强了交互的连续性与自然性,还为复杂表格任务的多轮操作提供了高效支持,进一步优化了用户体验并提高了任务完成的效率。

图 6 Bricks应用截图

3 任务剖析

本章旨在对AI表格应用中的核心功能进行系统性梳理,构建全面的认知框架。从用户工作流的需求角度出发,深入分析表格任务的本质及其在不同使用场景中的重要性,揭示这些任务如何满足用户在数据处理、分析和表达上的多样化需求。同时,从大语言模型的能力视角切入,探讨各类表格任务所需的技术支持,包括一维能力、二维能力和三维能力,评估当前技术发展的成熟度与局限性。通过梳理功能与能力的匹配关系,探讨AI表格技术在实际应用中的价值与挑战,探索其未来发展的潜在方向和突破点。

3.1 功能梳理

表6总结了由大语言模型驱动的表格任务,同时列出了这些任务的描述、一到两个相关示例、涉及的表格类型。

表格问答(Table QA)和事实验证(Fact Verification)是最传统的表格任务,它们从表格中提取知识以回答自然语言问题(NL)。表格生成文本(Table-to-text)根据表格数据生成自然语言文本。数据清洗(Data Cleaning)识别并纠正表格数据中的错误。列/行/单元格填充(Column/Row/Cell Population)为表格生成可能的列、行或单元格内容。实体链接(Entity Linking)消歧表中提到的特定实体,而列类型注释(Column Type Annotation)从知识库中为表格列分类,这两个任务通常利用外部知识库。

电子表格系统(Spreadsheet Systems)最初是为人类用户设计的,而电子表格操作(Spreadsheet Manipulation)是利用AI自动修改电子表格的任务,AI通过访问电子表格系统的API或公式来完成。自然语言转SQL(NL2SQL)将自然语言问题翻译为SQL查询,可以提高数据分析师编写SQL查询的效率。这个任务已经研究多年,大语言模型显著提升了其准确性。数据分析(Data Analysis)包括特征工程、机器学习等。表格检测(Table Detection)在文档中识别表格,而表格提取(Table Extraction)将表格转换为Markdown、HTML或电子表格等原生表格格式。

上述任务可以大致分为表格(WT)相关任务、电子表格(SS)相关任务、数据库(DB)相关任务和文档(DOC)相关任务。这些任务要求AI模型能够直接理解表格内容、编写代码操作电子表格、编写SQL访问数据库,或从文档中提取表格数据。

表 6 表格任务总表

任务名称表格类型描述
表格问答 (Table QA)WT根据表格回答自然语言问题
表格事实验证 (Table fact verification)WT基于表格验证事实
表格生成文本 (Table-to-text)WT根据表格生成自然语言问题
数据清洗 (Data cleaning)WT/SS/DB修正表格数据中的错误
列/行/单元格填充 (Column/Row/Cell population)WT/SS/DB为表格填充可能的列/行/单元格
实体链接 (Entity linking)WT将选定实体链接到知识库
列类型注释 (Column type annotation)WT选择表格列的类型
电子表格操作 (Spreadsheet manipulation)SS操作电子表格
自然语言转SQL (NL2SQL)DB将自然语言问题翻译为SQL查询
数据分析 (Data analysis)SS/DB数据分析流程,包括特征工程、机器学习等
表格检测 (Table detection)DOC定位文档中的表格
表格提取 (Table extraction)DOC从文档中提取并结构化表格

3.2 工作流需求

普通用户通常需要表格查询和操作功能,而数据工程师则需要数据准备和建模工具。不同的终端用户处于数据生命周期的不同阶段。我们将表格数据生命周期分为以下五个阶段:数据输入(Data Entry)、数据清洗(Data Cleaning)、数据增删查改(Data CRUD)、数据分析(Data Analysis)以及数据可视化(Data Visualization)。表7展示了表格数据处理的五个阶段,并标注了相应的表格任务。

(1)数据输入

数据输入包括两个部分,一是帮助用户创建表格结构,二是通过将非结构化数据格式转换为(半)结构化表格,实现精准的数据输入。在表格创建中,大语言模型(LLMs)可以帮助列出可能的列标题。例如,Google Sheets 提供了一个功能,可生成带有建议列标题和示例数据的新表格。另一种应用场景是将图像或PDF中的表格转换为原生适合表格处理的格式,从而促进后续的表格处理阶段。这一功能需要AI系统具备多模态表格理解能力,例如,ChatGPT-4o现在能够将表格图像转换为结构化格式。

(2)数据清洗

数据清洗通过识别和纠正表格数据集中的错误、不准确性、缺失值和重复值,提高数据的质量和可靠性,以便进行进一步的分析。这一阶段需要识别出错误部分,并填补错误或缺失值,通常采用单元格填充或列类型注释等技术。

(3)数据增删查改

数据增删查改包括以下任务:表格问答(Table QA)、表格事实验证(Table Fact Verification)、自然语言转SQL(NL2SQL)以及电子表格操作。这一阶段涉及查询网络表格知识、将上游数据库表转换为数据仓库或数据湖中的下游表,或通过调用系统API或公式来管理电子表格。在这一阶段,AI系统通常通过自然语言问题或指令,帮助用户高效处理表格。

(4)数据分析

数据分析包括特征工程、异常值检测、机器学习、可视化等任务。这需要更高层次的智能,因为它涉及对表格数据的深刻理解、一定的领域知识以及使用SQL、Python或VBA等工具对表格建模并提供洞见。

(5)数据可视化

数据可视化是提高数据表达力的重要步骤。不同的数据类型与特定的图表类型结合,将呈现出完全不同的表达效果。用户期望AI系统能够自动选择最佳的图表类型并生成图表描述,以提升数据的可视化效果。

表 7 用户工作流中的表格任务

数据输入
(Data Entry)
数据清洗
(Data Cleaning)
数据增删查改
(Data CRUD)
数据分析
(Data Analysis)
数据可视化
(Data Visualization)
列/行/单元格填充
实体链接
列类型注释
表格检测
表格提取
数据清洗
列/行/单元格填充
实体链接
列类型注释
表格问答
表格事实验证
自然语言转SQL
电子表格操作
数据分析电子表格操作
数据分析

3.3 表格能力

如表8所示,根据表格任务所需的能力,可以将其分为一维能力、二维能力和多维能力三种层次。

表 8 AI表格的能力维度

 理解单元格内容理解行和列的字段关系理解多个表格的语义关系示例
一维能力  表格事实验证、数据清洗等
二维能力 列/行/单元格填充、表格问答等
多维能力多个电子表格串联操作、数据分析等

一维能力主要聚焦于理解单元格的内容,要求AI能够正确解析单个单元格的数据类型、格式及其基本语义。例如,在数据清洗任务中,AI需要识别并修正单元格中的错误数据或缺失值,常见的应用场景包括自动填充空白单元格或标准化日期格式。在这种任务中,AI的任务是局限于单个单元格的分析和处理。

二维能力则扩展至行和列之间的关系。AI不仅需要理解单元格的内容,还要能够理解表格中不同行和列之间的关联和结构。在此能力层次下,AI能够执行更复杂的任务,如列类型注释和表格问答。例如,用户可能会询问“某列是否为销售额”,AI需要通过分析列的内容及其与其他列的关联,判断列的性质并提供相应答案。

多维能力则进一步提高了AI对表格数据的理解层次,涉及多个表格之间的语义关系。此类任务要求AI能够跨多个表格进行语义推理和数据整合,提供全局视角的分析。例如,在进行财务报表分析时,AI可能需要同时分析利润表、资产负债表及现金流量表,跨表格关联各项财务数据,生成财务健康状况报告。

根据表格任务所需要的能力,分成一维能力、二维能力、多维能力。一维聚焦于理解单元格内容。二维表格聚焦于理解行和列的关系。多维表格聚焦于理解多个表格之间的语义关系。

目前,少部分经过深度调优的AI表格模型已经初步实现了多维能力,但在跨表推理的准确性和上下文记忆的持久性上仍存在许多不足。而大部分AI表格应用仍处在二维能力的探索阶段,仅能满足单表格范围内的一些简单任务。因此,从能力发展来看,AI表格应用需要进一步突破多维能力的瓶颈,以更好地满足复杂数据处理的需求。

4 功能测评

4.1 测试用例

提供一张水果销量表和一张水果单价表(图7),用自然语言的指令让AI表格执行下列任务,下列图示是Bricks的应用效果。

图 7 原始表格

(1)数据清洗

任务:水果销量表中“产品”字段和“地点”字段混合在同一单元格中,需要转换成两列来表示这两个字段。

指令:新增一列:产品;新增一列:地点。

图 8 数据清洗a                    图 9 数据清洗b

(2)内容生成

任务:已知地点,新增一列生成改地点所在的省份。

指令:在地点后新增一列省份,该列的内容是地点所在的省份。

(3)表格合并

任务:水果销量表中缺少字段“单价”,需要将水果单价表中的同一水果的数据合并到该表中。

指令:在“水果销量”表中新增一列名为“单价”。

图 10 内容生成                    图 11 表格合并

(4)公式计算

任务:计算每行数据的销量*单价。

指令:新增1列计算销售额。

(5)统计数据

任务:将多行数据中的“水果”和“地点”字段分别聚合,统计并排序形成数据透视表。

指令:我想知道每种产品在每个地点的总销量怎么样。

(6)预测建模

任务:统计每个月的销售额,并预测下一个月的销售额。

指令:新建一张表,展示每个月的销售额,并预测下一个月的销售额。

图 12 公式计算                    图 13 统计数据

(7)数据可视化

任务:制作图表从不同维度观测数据,并要求模型从中寻找发现。

指令:新建一个可视化面板,基于数据和图表告诉我销售情况的一些insights。

图 14 预测建模                    图 15 数据可视化

4.2 测评结果

本次使用AI原生应用Bricks,传统办公软件微软Office、金山WPS,以及协作文档飞书对上述任务进行测评,结果如表9所示。

表 9 表格任务测评结果

 BricksMS CopilotWPS AI飞书智能助手
数据清洗××
内容生成××
表格合并××
公式计算×
统计数据××
预测建模×××
数据可视化×

从测评结果来看,与国外大厂和创业公司的产品对比,目前国内的AI表格应用都有较大的差距,主要表现在并不能很好地理解表格上下文的内容,具体如下:

(1)无法识别表头字段的含义,或者不能准确关联表头与其下方数据之间的语义关系。

(2)更多侧重于根据用户输入的指令生成相应的脚本,而非采用端到端的范式来理解和执行任务。

(3)调用模型生成的结果在对话框中,操纵表格的能力有限。

(4)生成式模型仍然面临显著的“幻觉”问题,即生成了大量与表格内容无关或不符合上下文的虚假信息。

(4)解释性仍有待提高。许多应用未能以清晰、结构化的方式向用户展示其执行的步骤及结果。

5 技术挑战

与传统文本相比,由于表格数据的多维特性和复杂结构,AI表格的模型面临着诸多理解方面的挑战。

(1)与语言模型训练语料的形态不同

语言模型主要是在一维的自然语言文本上进行训练,而表格本质上是二维的,这对于模型来说在理解和处理上存在根本差异。文本通常具有单向性,阅读顺序以从左到右为主,词序的交换往往会显著改变句子意义;而表格是二维结构,既需要水平维度的行间关联,也需要垂直维度的列间逻辑,因而对模型的空间理解能力提出了更高要求。

(2)字段名称的完整性十分重要

表格的语义理解依赖于清晰的模式、或列标题,这些信息为数据的意义和逻辑关系提供了基础;如果模型无法正确解析这些头部信息,其在表格数据上的推理能力将大打折扣。

(3)灵活的上下文解析能力

与文本中词序变化直接影响含义不同,表格中的某些操作(如行列置换)可能对表格的语义解读影响较小,这要求模型具备灵活的上下文解析能力。

5.1 表格编码

表格的编码有文本表示和视觉表示两种,均需要考虑语义完整性的问题。文本表示常见方法是将表格线性化为 markdown 格式,也有研究对比了 CSV、JSON 等多种格式,发现 HTML 和带分隔符的自然语言(如 markdown、CSV)较为有效。对于包含合并单元格和分层列的电子表格,简单序列化不足,有研究提出基于锚点的方法并转换为 JSON 字典格式。

视觉嵌入是先将表格转换成图像编码,捕获表格图像中的空间布局信息。LayoutLM 和 TableVLM 将坐标归一化并离散化为 [0, 1000] 内的整数值,用单独的嵌入层表示 x 和 y 轴的二维特征。

微软团队提出了一个叫做SheetCompressor的编码框架,主要包含三大模块:

(1)结构锚点压缩(structural-anchor-based compression)(2)反向索引转换(inverse index translation)(3)数据格式感知聚合(data-format-aware aggregation),能够可以识别并保留表格的关键结构信息,同时去除多余的空单元格和行。

5.2 任务推理

表格处理中的复杂任务通常涉及多层次的数值运算、数据准备以及高阶分析。例如,数值操作任务可能包括数据的比较、聚合与排序;数据准备任务则涵盖列类型注释、缺失值检测与填充;更复杂的分析任务则包括特征工程、异常值检测以及数据可视化等。这些任务对模型的推理能力提出了更高的要求,尤其是需要具备多步骤问题分解的能力和逻辑运算的准确性。在优化推理性能方面,微调和提示工程是两种核心方法。

微调方法主要包括以下三种:第一,通过构建与表格任务相关的指令调优数据集,增强大模型对表格内容和操作的理解能力;第二,从代码生成的角度出发,让模型生成SQL或Python代码以完成表格操作;第三,结合表格指令数据和代码生成数据的混合方法,以提升模型的多样化应用能力。

图 16 表格任务训练过程中性能和泛化能力的关系

由于表格的任务较多且逻辑比较复杂,且对于数据处理逻辑的准确性要求较高,因此需要考虑性能与泛化能力的权衡,如图16所示。(1) 数据集特定微调:模型在某个数据集的基准“训练集”上进行微调,在相应的“测试集”上表现良好,但可能无法泛化到同类任务的其他数据集。(2) 表格任务专用微调:针对每种表格任务(例如数据清洗、数据转换等)微调一个模型,该方法在同类任务的不同数据集上具有良好的泛化能力。(3) 表格通用微调:这种方法微调一个通用模型来处理多种不同的表格任务,具有较好的泛化能力,但在单个任务上的性能较低。

5.3 操作编辑器

在实际应用场景中,人类用户在表格处理任务中高度依赖于诸如微软Excel和金山WPS等专业工具。大语言模型在表格交互中需要具备与这些外部工具无缝集成、调用操作编辑器的能力。同时,大语言模型还应具备对工具上下文的动态感知能力。例如,模型需要能够读取当前活跃的表格数据结构、用户选择的单元格范围,以及相关操作历史,以确保生成的指令或结果与实际需求高度契合。

6 结语

本研究深入探讨了AI表格应用的发展现状、技术水平及其未来发展态势。 当前,国外的AI表格应用在技术完成度上已达到中等偏上水平,能够执行一些复杂的二维和多维任务,例如跨表格数据关联、数据分析及自动化报告生成等。然而,由于数据处理任务对准确性的要求极高,现有的应用在对表格语义的理解上仍存在一定不足,特别是在复杂数据结构和多层次表格分析中的语义推理能力尚待提升。尽管如此,随着大语言模型能力的逐步增强,且其与办公类软件的效率需求契合度越来越高,AI表格应用在技术上的突破正逐渐显现,预计在未来这一领域将迎来显著的增长。

相较之下,国内的AI表格应用仍处于起步阶段,无论是大厂还是创业公司,在该领域的投入尚显不足。尽管语言模型在处理二维表格内容方面的能力已得到国外实践的验证,但国内尚未形成类似的技术积累和应用场景,且相对于文字流AI应用,其对计算资源和技术人才的需求门槛较高。因此未来国内AI表格应用的突破仍将主要依赖于头部大厂的技术投入与创新,随着研发资源的加速投入,短期内这一领域的技术空白有望得到填补。

总体而言,AI表格应用正处于一个充满活力和潜力的阶段。尽管技术上仍面临诸多挑战,但随着大语言模型的不断优化与相关技术的成熟,AI表格将在数据处理、分析和决策支持等领域发挥越来越重要的作用,推动数据科学与自动化办公工具的深度融合,有望在不久的将来迎来更广泛的应用场景,成为智能化办公的重要组成部分。

参考资料

  1. Beside, Inside, Outside: Three A.I. Interaction Models for App Developers | Microsoft Build 2023. https://www.youtube.com/watch?v=h41Uc73xph4
  2. Tian Y, Zhao J, Dong H, et al. SpreadsheetLLM: encoding spreadsheets for large language models[J]. arXiv preprint arXiv:2407.09025, 2024.
  3. Xing J, He Y, Zhou M, et al. Table-LLM-Specialist: Language Model Specialists for Tables using Iterative Generator-Validator Fine-tuning[J]. arXiv preprint arXiv:2410.12164, 2024.
  4. Lu W, Zhang J, Fan J, et al. Large language model for table processing: A survey[J]. Frontiers of Computer Science, 2025, 19(2): 192350.
0
0