好望角:让你的每次点击都有价值:byteclicks.com | 搜索引擎正在被AI污染信息源,中文优质信息越来越少了 |

新型Tuplex数据科学平台加速Python查询

布朗大学和麻省理工学院的研究人员开发了一种新的数据科学框架Tuplex,大大加速Python处理数据。

这个名为 Tuplex 的新框架能够以比 Apache Spark 或 Dask 等行业标准数据系统快 90 倍的速度处理用Python编写的数据查询。该研究小组公布了系统研究,在SIGMOD 2021数据处理会议上,宣称软件免费提供给所有人。

Python 是从事数据科学的人们使用的主要编程语言,但在数据科学方面,Python 会带来巨大的性能负担。

Spark 等平台通过在数据中心的多个处理器内核或机器之间分配任务来执行数据分析。这种并行处理要求用户处理巨大的数据集,这些数据集会导致单台计算机死机。

研究人员设计了 Tuplex 来为特定查询和常见情况输入数据编译高度专业化的程序。这使我们能够简化编译问题,因为我们只需要关心一组数据类型和常见情况假设。这样就可以两全其美:高生产力和快速执行速度。

研究表明,以前10 分钟等待时间可以减少到一秒,所以这确实是性能的重大改进。

研究人员说,除了加快速度之外,Tuplex 还拥有处理异常数据的创新方法。大型数据集通常是混乱的,充满了不遵守约定的损坏记录或数据字段。例如,在房地产数据中,卧室数量可以是数字,也可以是拼写出来的数字。像这样的不一致数据足以使某些数据平台崩溃。但是 Tuplex 会提取这些异常并将它们放在一边以避免崩溃。一旦程序运行,用户就可以选择修复这些异常。

这一研究成果可能会对数据科学家的生产力产生重大影响,该研究得到了美国国家科学基金会 (DGE-2039354, IIS-1453171) 和美国空军 (FA8750-19-2-1000) 的支持。获取更多前沿科技 研究进展 访问:https://byteclicks.com

新的Tuplex数据科学平台加速Python查询

上一篇:

下一篇:


标签