麻省理工学院研究人员为数据库引入生成式人工智能

一种新工具使数据库用户可以更容易地对表格数据执行复杂的统计分析,而不需要知道幕后发生了什么。 GenSQL是一种用于数据库的生成式人工智能系统,它...

一种新工具使数据库用户可以更容易地对表格数据执行复杂的统计分析,而不需要知道幕后发生了什么。

GenSQL是一种用于数据库的生成式人工智能系统,它可以帮助用户进行预测、检测异常、猜测缺失值、修复错误,或者只需敲击几下键盘就能生成合成数据。

例如,如果该系统用于分析一位一直患有高血压的患者的医疗数据,它可以捕捉到该特定患者的血压读数较低,但在其他情况下则在正常范围内。

GenSQL自动集成了表格数据集和生成概率AI模型,可以考虑不确定性并根据新数据调整决策。

此外,GenSQL可以用来生成和分析模拟数据库中真实数据的合成数据。这在不能共享敏感数据的情况下特别有用,比如患者健康记录,或者真实数据很少。

这个新工具构建在SQL之上,SQL是一种用于创建和操作数据库的编程语言,于20世纪70年代末推出,被全球数百万开发人员使用。

从历史上看,SQL教会了商业世界计算机可以做什么。他们不需要编写自定义程序,他们只需要用高级语言对数据库提出问题。“我们认为,当我们从仅仅查询数据转向询问模型和数据问题时,我们将需要一种类似的语言来教授人们可以向具有数据概率模型的计算机提出的连贯问题,”Vikash Mansinghka说,他是一篇介绍GenSQL的论文的高级作者,也是麻省理工学院脑与认知科学系概率计算项目的首席研究科学家和负责人。

当研究人员将GenSQL与流行的基于人工智能的数据分析方法进行比较时,他们发现它不仅更快,而且产生的结果也更准确。重要的是,GenSQL使用的概率模型是可解释的,因此用户可以阅读和编辑它们。

“仅仅通过使用一些简单的统计规则来查看数据并试图找到一些有意义的模式,可能会错过重要的相互作用。您确实希望捕获模型中变量之间的相关性和依赖性,这可能非常复杂。有了GenSQL,我们希望让大量用户能够查询他们的数据和模型,而不必知道所有的细节,”该研究的主要作者、脑与认知科学系的研究科学家、概率计算项目成员马修·霍特补充道。

麻省理工学院的研究生马丁·加瓦米和亚历山大·卢在论文中加入了他们;研究科学家卡梅隆·弗里尔(Cameron Freer);Digital Garage的Ulrich Schaechtel和Zane Shelby;麻省理工学院电子工程与计算机科学系教授、计算机科学与人工智能实验室(CSAIL)成员Martin Rinard;以及卡内基梅隆大学助理教授费拉斯·萨阿德。这项研究最近在ACM编程语言设计与实现会议上发表。

结合模型和数据库

SQL是结构化查询语言(structured query language)的缩写,是一种用于存储和操作数据库信息的编程语言。在SQL中,人们可以使用关键字询问有关数据的问题,例如对数据库记录进行求和、过滤或分组。

然而,查询模型可以提供更深入的见解,因为模型可以捕获数据对个人意味着什么。例如,一名女性开发人员想知道自己的工资是否过低,她可能更感兴趣的是工资数据对她个人的意义,而不是数据库记录的趋势。

研究人员注意到,SQL并没有提供一种有效的方法来整合概率人工智能模型,但与此同时,使用概率模型进行推断的方法不支持复杂的数据库查询。

他们建立了GenSQL来填补这一空白,使人们能够使用一种简单而强大的正式编程语言来查询数据集和概率模型。

用户上传自己的数据和概率模型,系统自动进行整合。然后,她可以对数据运行查询,这些查询也从后台运行的概率模型中获得输入。这不仅支持更复杂的查询,还可以提供更准确的答案。

例如,GenSQL中的查询可能是这样的,“来自西雅图的开发人员知道编程语言Rust的可能性有多大?”仅仅查看数据库中列之间的相关性可能会错过微妙的依赖关系。结合概率模型可以捕获更复杂的交互。

此外,GenSQL使用的概率模型是可审计的,因此人们可以看到模型用于决策的数据。此外,这些模型提供了校准不确定性的措施,以及每个答案。

例如,有了这种校准的不确定性,如果有人向模型查询来自数据集中代表性不足的少数群体的患者的不同癌症治疗的预测结果,GenSQL会告诉用户它是不确定的,以及它有多不确定,而不是过于自信地倡导错误的治疗。

更快,更准确的结果

为了评估GenSQL,研究人员将他们的系统与使用神经网络的流行基线方法进行了比较。GenSQL比这些方法快1.7到6.8倍,在几毫秒内执行大多数查询,同时提供更准确的结果。

他们还在两个案例研究中应用了GenSQL:一个案例中,该系统识别了错误标记的临床试验数据,另一个案例中,它生成了准确的合成数据,捕捉了基因组学中的复杂关系。

接下来,研究人员希望更广泛地应用GenSQL来进行大规模的人口建模。有了GenSQL,他们可以生成合成数据来推断健康和工资等信息,同时控制在分析中使用的信息。

他们还希望通过向系统中添加新的优化和自动化,使GenSQL更易于使用,功能更强大。从长远来看,研究人员希望用户能够在GenSQL中进行自然语言查询。他们的目标是最终开发出一个类似chatgpt的人工智能专家,人们可以与之谈论任何数据库,它的答案基于GenSQL查询。

这项研究部分由美国国防高级研究计划局(DARPA)、谷歌和西格尔家族基金会资助。

本文来自作者[admin]投稿,不代表xfqse号立场,如若转载,请注明出处:https://www.xfqse.cn/zlan/202506-292.html

(11)

文章推荐

  • 鲸鱼可能会以“声群”的形式移动

    每年1月到5月,格陵兰岛西海岸的一个大海湾QeqertarsuaqTunua充满了浮游生物。须鲸来这里享用大餐,2010年,两只弓头鲸进入海湾大吃一顿。当两人距离彼此不到100公里时,他们在视觉上已经超出了范围,但可能仍然可以听到对方的声音。就在这时,不寻常的事情发

    2025年06月10日
    10
  • 马丁·巴希尔指责“职业嫉妒”导致了Panorama文件伪造的故事

    dent:2em;">新文件显示,马丁•巴希尔表示,他被指控通过欺骗手段获得对戴安娜王妃的采访,是因为他“非白人”,如果他是丁布尔比家族的一员,就不会被指控。去年12月,一名法官下令BBC交出约3000份与该事件有关的文件,随后这名记者在《全景》采访的纪

    2025年06月15日
    12
  • 芝加哥天空如何应对可能爆发的COVID-19 ?安吉尔·里斯最近感到不适

      芝加哥天空队自奥运会结束以来一直表现不佳,五场比赛中只赢了一场,他们很可能在即将到来的比赛中失去他们的头号射手。场均得到17.2分的卡特将缺席周三对阵华盛顿神秘队的比赛。神秘队将前往芝加哥的Wintrust体育馆迎战天空队,后者目前保持着11胜18负的战绩,排名第八。芝加哥天

    2025年06月28日
    8
  • 金融专家称,澳大利亚向无现金社会的过渡是“不可避免的”

    一位金融专家声称,Australia向无现金社会的过渡是不可避免的,可能会在本十年末发生。RMIT金融学副教授钟安杰(AngelZhong)博士表示,不仅在大城市,在澳大利亚偏远地区,向数字钱包和先买后付(BNPL)的转变也很明显。“在澳大利亚

    2025年07月03日
    14
  • 英超联赛和足总杯四分之一决赛:本周末的看点

      年轻的狼在觅食加里·奥尼尔承认他在对阵富勒姆的比赛中首发佩德罗·内托的决定适得其反,葡萄牙边锋由于腿筋伤势加重,将错过周六狼队与考文特里的足总杯比赛。让-里纳-贝勒加德在同一场比赛中膝盖受伤,所以机会可能会给那些处于边缘的人。19岁的前锋内森

    2025年07月04日
    11
  • 马杜罗团队宣布在委内瑞拉总统选举中获胜,等待官方数据

    “我们感谢你。我们不能宣布结果,但我们可以让你看看我们的脸。这是每个人的胜利。这场胜利将帮助我们建设未来。“当然,我们将不得不等待全国选举委员会的结果,因为我们尊重我们国家的法律和委内瑞拉玻利瓦尔共和国的宪法,”现任总统竞选总部负责人、议会议长豪尔赫罗德里格斯(JorgeRodr

    2025年07月10日
    9
  • 黄金海岸奇幻之旅:女训练员遭老虎袭击

    据报道,一名女子在黄金海岸主题公园被老虎袭击后,被迅速送往医院,伤口很深。这名女子是“梦幻世界”的动物饲养员,周一上午9点左右,她正在和老虎一起工作,突然情况变得更糟。由于这次袭击,她身上有几处很深的伤口。昆士兰急救中心的一位发言人说,一名

    2025年07月23日
    14
  • 研制抗裂纳米颗粒基乳胶薄膜

    合成高分子材料,如塑料和橡胶,在我们的日常生活中已经无处不在。因此,确保它们安全、耐用和可持续是至关重要的。合成乳胶薄膜尤其如此,它广泛应用于包装、生物医药和电子领域。但是合成乳胶薄膜到底是什么呢?简单地说,它们是一种基于纳米粒子的

    2025年07月27日
    14
  • 给大家通报一下“十三张必赢的四大定律”分享装挂步骤

    十三张必赢的四大定律是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用户可以加我微下载使用。手机打牌可以一键让你轻松成为“必赢”。其操作方式十分简单,打开这个应用便可以自定义手机打牌系统规律,只需要输入自己想要的开挂功能,一键便可以生成出

    2025年07月28日
    10
  • 特朗普为攻击哈里斯辩护,谈论选举结果并发布医疗记录

      前总统唐纳德·特朗普在独家电视采访中表示,他将公开自己的医疗记录,以便与副总统卡玛拉·哈里斯争夺白宫。现年78岁的特朗普为他多次侮辱哈里斯智商的言论进行了辩护,并表示如果选举是“自由和公平的”,他会接受结果。在民主党全国代表大会召开之际,奥巴马在宾夕法尼亚州接

    2025年07月30日
    11

发表回复

本站作者后才能评论

评论列表(4条)

  • admin
    admin 2025年06月14日

    我是xfqse号的签约作者“admin”!

  • admin
    admin 2025年06月14日

    希望本篇文章《麻省理工学院研究人员为数据库引入生成式人工智能》能对你有所帮助!

  • admin
    admin 2025年06月14日

    本站[xfqse号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

  • admin
    admin 2025年06月14日

    本文概览:一种新工具使数据库用户可以更容易地对表格数据执行复杂的统计分析,而不需要知道幕后发生了什么。 GenSQL是一种用于数据库的生成式人工智能系统,它...

    联系我们

    邮件:xfqse号@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们