Shared Nothing v.s. Shared Disk
The Shared Nothing Architecture is a relatively old pattern that has had a resurgence of late in data storage technologies, particularly in the NoSQL, Data Warehousing and Big Data spaces. As ar...
The Shared Nothing Architecture is a relatively old pattern that has had a resurgence of late in data storage technologies, particularly in the NoSQL, Data Warehousing and Big Data spaces. As ar...
Kudu是一款基于Raft实现的列式分布式存储系统,可以同时满足低延迟写入和高性能分析两种场景。
结构化数据存储系统在Hadoop生态系统里面,通常分为两类:
通常都是使用二进制存储在HDFS上面,例如Apache Avro,Apache Parquet。这类系统都是为高吞吐连续访问数据这类场景设计...
embeded database也是数据库领域的一个需求,其提供一个链接库,链接到其他进程中运行。当前的SQLite便是embeded database中的一种,只不过其场景是OLTP。在DuckDB之前,针对OLAP场景的embeded database尚未出现。
针对embeded analytical database,有如下几个需求:
读WiscKey论文的时候,了解到SSD的写入具有一定的并行性。遂对SSD做了一些调研,发现果真如此。另外考虑到Pegasus的双WAL架构,以slog写入为准,而slog是单线程写入的。这导致完全利用不上SSD的并行性。因此考虑对slog做移除。
经过深入研究pegasus代码,发现涉及到slog的功能主要有lea...
由于我们未来还要调研StarRocks、Doris或者其他olap系统,所以core模块里采用了可插拔设计,当我们引入一个新的olap引擎时,只需要添加一个OlapEngine...
云技术来临了,传统数仓面临如下挑战:
传统的数仓是在云时代之前创建的,他们被设计为在小型静态集群上运行,其架构完全不适合云。
随着云技术的发展,大量且快速增长的数据来自于不容易控制的外部,而且经常以sche...
当前使用的flink-connector-jdbc仅支持Flink DataStreamAPI的方式向ClickHouse导入数据,TableAPI和FlinkSQL尚不支持。
需要在pom.xml中添加如下依赖,分别为flink connector和clickhouse jdbc驱动<...