信息化时代,数据已经成为了个人和企业的重要资产,分析和提取数据价值的相关技术也成为了大数据时代人们关注的焦点。然而,大量信息以结构化和半结构化的形式存储在数据库中,人们需要使用编程语言(例如 SQL数据库查询语句)与数据库交互来获取和分析数据,这给结构化数据的使用和分析带来了较高的门槛。
为降低结构化数据分析的门槛和成本,提升结构化数据使用的价值和效率,对话式数据分析技术——语义解析技术Text-to-SQL应运而生。
Eg:查询各省份订单总量呈现的饼状示意图
如上图应用示例,用户需求是从数据库中选择指定信息生成报表。这类工作一般需要专业人员针对需求编写SQL查询语句来完成。然而,有这类需求的很多人是不擅长使用SQL语言或者完全不熟悉SQL语言的。即使对于专业人士,想要针对不同应用场景的大量数据库,编写满足不同需求的且质量高的SQL语句,也是费时费力的。
而语义解析(Text-to-SQL)技术正好解决了上述问题,其旨在自动地将用户输入的自然语言问题转成可与数据库交互的SQL查询语句,在数据库上执行该查询语句可得到问题答案。该技术对数据分析工具赋予了人工智能技术与自然语言理解能力,能够有效地辅助人们使用海量数据库进行查询和分析,在降低数据库使用门槛和人力成本的同时将人们从繁重的编程语言学习和编写中解放出来。
Eg:查询订单量排名前十省份的示意图
语义解析(Text-to-SQL)技术已经落地于许多实际应用场景,如信息检索、智能客服、商业智能等,引起了学术界和工业界的广泛关注。近期,国内外研究者还相继发布了多个数据集并举办了相关评测。
但目前的许多技术研发仅关注模型在单一数据集上的效果,自然语言处理技术在大规模产业化的应用中,面临着多领域、多场景等诸多挑战。因此,我们亟需更加全面的数据集合以应对这些挑战。千言数据集计划(luge.ai)则从准确性、泛化性和鲁棒性等多角度对模型效果进行综合评价,极大地推动了该技术的发展。
不管你是刚刚入坑的NLPer,还是混迹江湖已久的开发者,杰立老师这次分享的 《对话式数据分析新技术:带你了解语义解析》 直播,不容错过!
直播时间:2月25日 20:30-21:30
你将收获:
-
语义解析价值探索及应用介绍:语义解析在表格问答、商业智能的落地应用以及国外相关产品
-
国内外主要数据集及评测任务:国内外现有的单轮多领域数据集以及集结了所有中文Text-to-SQL数据集的千言榜单
-
当前主流技术及研究热点:两种主流的解码算法以及两种有效提升模型领域泛化能力的方法
直播地址:
https://live.bilibili.com/22189411
B站关注『百度NLP』账号,第一时间看直播!
千言开发者交流群
长按上方二维码即可进群
已有 3506 位开发者加入
我们希望有更多的数据集作者能够参与共建千言项目,共同推动中文信息处理技术的进步,建设世界范围的中文信息处理影响力。未来3年,我们希望面向20个任务,收集100个中文自然语言处理数据集。
千言链接:
https://www.luge.ai/
百度自然语言处理(Natural Language Processing,NLP)以『理解语言,拥有智能,改变世界』为使命,研发自然语言处理核心技术,打造领先的技术平台和创新产品,服务全球用户,让复杂的世界更简单。