一句话自动产生 SQL 语法,瞄准数据处理的 Numbers Station 获近 4 亿元募资
▼
外包数据清理平台 CrowdFlower 调查指出,资料科学家有 60% 时间花在“清理数据”,而非真正数据分析。就算所有企业都了解“数据驱动”(Data-Driven)的重要性,资料处理仍是无可避免的苦工。
新创Numbers Station把近来火热的“生成式AI”运用于资料处理:使用者只要输入一句话,即可自动产生SQL语法,从庞大资料库捞取数据。如某产品月销量、本季营业额前三产品,还能直接建立AI模型,连不懂程式语言的工作者也能使用,3月刚获1,250万美元A轮募资。
▲ Numbers Station专门解决数据分析上一层工作:数据清理。(Source:Numbers Station)
Numbers Station期望使资料科学家专注“最重要的事”
Numbers Station是由史丹佛大学博士Chris Aberger、Ines Chami、Sen Wu及副教授Chris R共同创办。
“我们看到大多数AI人才专注行销、图片产生功能,鲜少专注处理庞杂数据格式、资料前清理,但这仍是巨大的企业问题和企业需求。”Numbers Station执行长Chris Aberger说。
数据分析之前,如果没有清理干净的数据,就难以产出有正确见解的洞察,也就是常见的“垃圾进、垃圾出”(Garbage in, garbage out),如果大多原始数据(Raw Data)错误、重复或缺失,尚未清理前便建立AI模型,会降低AI模型的准确率。不过因数据庞大、来源多样,使数据清洗一直相当困难。
Chris Aberger指出,数据分析、清理能力需要一定程度门槛,因此数据往往只是部分人掌握,不论初阶数据存取或AI模型,都仰赖这少数人。“我们想让资料科学家花更多时间提供洞察,花更少时间在平凡的数据清理”。
Numbers Station让人人都能写SQL、建立AI模型
2021年Numbers Station成立,专门提供生成式AI服务,为资料科学家省去重复又耗时的数据清理、重复数据删除、正规化(Normalization)等,但目前仅供SQL语言。
Numbers Station的目标简单来说,就是让数据清洗不再困难,也不再限于有专业知识的人。分成三部分:第一是提高效率,让资料科学家专注更重要的工作,如解释数据、制定决策;二是提高数据品质,透过AI自动纠正并辨识问题;三是数据存取权民主化,让所有人皆能数据捞取、建立AI模型。
为了达成上述目标,Numbers Station产品提供三大服务加速数据清洗、存取与使用:
自动生成SQL语言
SQL语言大多用于资料库查询,如客户订单、销售趋势等,藉Numbers Station,使用者不用学SQL语言,只要输入口语化指令,如“在A资料表寻找价格大于1,000的商品”,即可得到一串SQL公式,直接捞取需要的数据。
自动建立AI模型
Numbers Station也能自动建立AI模型,以客户评论为例,使用者只要输入一句话,如“这些顾客最喜欢这产品哪个地方?以一个单字摘要,如价格、尺寸合适度、风格等”,Numbers Station就会自动为资料集贴上标签,接着只需检验标签是否正确,回馈并修正,即可建立AI模型。
▲ Numbers Station可让程式小白直接建立AI模型。(Source:Numbers Station)
自动整并资料库
由于公司多个资料库可能散布不同平台,Numbers Station能直接将SAP、Salesforce、Snowflake等资料合并。
▲ Numbers Station自动整并资料集功能。(Source:Numbers Station)
以Numbers Station某间企业客户来说,拥有两个客户关系管理系统(CRM),各自管理线上与实体门市顾客,两边数据各自独立。为了得知顾客线上、实体消费情形,企业希望两边数据整并,让行销及业务团队关注消费者全面购物过程。
但困难的是,不同实体门市数据杂乱,出现许多缺失值、格式错误,导致数据整并需耗费许多精力,最后使用Numbers Station后,两边数据匹配率98%,工作速度提升10倍,为数据分析团队大幅节省时间成本。
对抗生成式AI热潮,“加入自身专业”才是成功关键
3月Numbers Station刚获1,250万美元A轮募资,由Madrona领投,含Norwest Venture Partners、Factory等其他投资人。
Madrona投资人Tim Porter和Jon Turow说,投资Numbers Station原因是团队成员背景有技术实力,可为更多企业导入AI,降低技术使用门槛,Chris Aberger过去就在美华人工智慧软硬件独角兽SambaNova Systems领导机器学习团队。
资料视觉化企业Tableau的前执行长Mark Nelson也发表看法:“Numbers Station正在解决数据业几十年来挑战,其平台和底层AI技术为现代数据工作带来根本性的转变。”
现行许多公司使用ChatGPT原OpenAI模型打造产品,Chris Aberger也提出相应看法。在他看来,由于ChatGPT仅抓取网络资讯,无法涵括所有知识专业,仅能达到及格水准,因此需要微调才能做到近满分,使产品差异化。“真正重要的是,这些模型哪些地方应用AI专业知识,使它们在特定组织任务表现良好。”
- Numbers Station raises $17.5M to bring AI to your data stack
- Numbers Station Raises $17.5 million for AI-powered Data Stack Automation
- Ep 40: What can generative AI do for data people?
(本文由 创业小聚 授权转载;首图来源:Numbers Station AI)
▼
特别声明 本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。