请选择 进入手机版 | 继续访问电脑版

中国 Cassandra 技术社区
中国 Cassandra 技术社区

查看: 286|回复: 0

Cassandra Exports as a Trivially Parallelizable Problem

[复制链接]

18

主题

18

帖子

122

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
122
发表于 2019-5-20 17:13:46 | 显示全部楼层 |阅读模式


Spotify的Cassandra数据库拥有各种有趣的数据集。 很明显,我们希望我们的数据科学家能够利用这些数据集。

云供应商的最新发展使我们能够以前所未有的方式设计出能够回答这个用例的系统。

在本次演讲中,我们将介绍如何将从Cassandra集群导出数据的过程转变为一个简单的并行化问题。 使用一些基本的云产品,我们已经设法转储包含数兆字节数据的最大集群。


Cassandra databases at Spotify hold all sorts of interesting data sets. Quite obviously, we would like to allow our data scientists tap these data sets.

Recent developments in the offerings of cloud vendors allowed us to engineer systems that answer this use case in an unprecedented way.

In this talk we'll present how we turned the process of exporting data from Cassandra clusters into a trivially parallelizible problem. Using just a few basic cloud products we've managed to dump our largest clusters containing terabytes of data in the order of minutes.


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表