新型数据站项目创建共享数据架构和市场

新型数据站项目创建共享数据架构和市场

在机器学习时代,数据越多越好。基于医疗数据的汇总和运行模型可带来有关遗传学,疾病和治疗的新见解;借助AI也可以帮助科学家更快地发现下一代电池或超导体的新材料。但是,技术,法律和道德方面的许多障碍阻碍了组织或研究小组之间公开数据共享。 

芝加哥大学研究人员的新项目 “数据站 “将试图通过扭转大数据科学的流程来消除这些障碍。研究人员不再需要追踪合适的数据集、获得使用许可、下载数据集并在自己的计算资源上进行工作的艰辛过程,而是可以简单地查询数据站,在数据站中,所有这些步骤都在用户的视野之外自动完成。数据提供者可以控制其数据的使用或组合方式,保护敏感信息和知识产权。

“数据站是一种全新的方法,需要改变人们和组织对数据的思考、访问和使用方式。”芝加哥大学计算机科学系Arthur Holly Compton杰出服务教授、阿贡国家实验室杰出研究员和高级科学家、该项目的主要研究者Ian Foster说。”这个平台将为敏感数据的访问提供便利,协助数据发现和整合,并促进各研究领域的数据治理和合规性。”

这项研究是由美国国家科学基金会(National Science Foundation)提供的100万美元资助的,这是他们的Convergence Accelerator计划的一部分,该计划促进了学术界和行业之间的合作。该项目的其他研究人员包括UChicago计算机科学的Michael J. FranklinRaul Castro Fernandez,以及Booth商学院的Sendhil Mullainathan

数据中立

想象一下,一项大规模的医学研究希望测试COVID-19治疗对不同年龄、合并症状况和种族背景的患者的有效性。一个单一的医院系统可能可以获得数千名患者的数据,但一项全面的研究可能需要数十万或数百万人的数据,这就需要结合多种来源的数据。获取更多前沿科技信息访问:https://byteclicks.com

然而,医疗机构对共享数据的犹豫不决是可以理解的。对未经同意使用私人医疗数据的法律限制、对滥用或泄露健康状况或种族等敏感信息的担忧,甚至是竞争关系,都会给汇集数据进行研究带来难以逾越的障碍。

数据站解决了这一问题,它提供了一个数据共享但密封的 “中立区”,用户无法看到、访问或下载原始数据集,只能查看现有数据的大致目录。用户使用“不知道数据的任务囊”查询收集到的数据,例如,询问患者人群中治疗的有效性,剩下的工作由数据站自动完成:找到合适的数据,将其组合起来或用于训练必要的人工智能模型,并在不披露底层原始数据的情况下向用户提供答案。

数据提供者还可以通过预先设置允许和禁止的内容,或者通过手动检查将利用其数据的请求来精确控制数据集的哪些部分以及哪些任务可以使用。数据站自动跟踪对每个数据集所做的操作,以便提供商可以查看其贡献的使用方式,并且用户可以正确引用其来源。

 Data Stations架构为人们提供了许多不同的机会,使人们可以更好地控制不仅可以使用哪些数据,还可以控制数据的使用方式来发布数据。如果我们想要真正分享数据,让数据发挥价值,而不落入其中存在的诸多陷阱,这就是我们所需要的一个基本环节。

为了顺利实现这些目标,Data Station平台将基于UChicago研究人员创建的软件基础,​​包括用于数据发现的Aurum,用于身份验证的Globus和用于共享机器学习模型的DLHub。

建立数据市场

除了促进数据共享和发现之外,数据站还启用了数据市场的新兴概念,从社交媒体用户到大型研究组织的数据生成器都将获得其数据贡献价值的补偿。例如,数据站能够跟踪哪些数据被用于各种任务,如果一项研究产生了专利或商业机会,就可以适当分配作者权和经济奖励。

此外,数据站还将提供金钱或其他方式的激励措施,以生成和共享新数据集。如果用户提交的查询无法用当前可用的数据回答,则他们可能会悬赏以收集或提供必要的丢失数据。或者,如果无法仅通过自动化流程来完成查询,则可以鼓励数据集提供者或独立专家执行产生答案所需的手动任务。 

数据站项目的最初合作伙伴包括Nightingale,这是一家位于芝加哥布斯应用人工智能中心的非营利组织,该中心与美国多个卫生系统合作共享医学数据以供研究;以伊利诺伊大学香槟分校为中心的计算纳米技术纳米制造节点网络(nanoMFG),全球金融服务公司Morningstar,以及制造商3M。这些合作机构将在自己的运营中提供用例和Data Station的早期版本原型。

第二个Convergence Accelerator赠款授予了包括UChicago  CS的Nick FeamsterUChicago LawLior Strahilevitz在内的团队  ,以研究“人工智能,保护隐私的信息共享,以保护网络基础设施。” 阅读有关NSF Convergence Accelerator 2020项目的更多信息

上一篇:

下一篇:


标签