Shared Nothing v.s. Shared Disk

2022-09-01

The Shared Nothing Architecture is a relatively old pattern that has had a resurgence of late in data storage technologies, particularly in the NoSQL, Data Warehousing and Big Data spaces. As ar...

Read More

Kudu

2022-08-22

Kudu是一款基于Raft实现的列式分布式存储系统,可以同时满足低延迟写入和高性能分析两种场景。

结构化数据存储系统在Hadoop生态系统里面,通常分为两类:

  • 静态数据

通常都是使用二进制存储在HDFS上面,例如Apache Avro,Apache Parquet。这类系统都是为高吞吐连续访问数据这类场景设计...

Read More

DuckDB

2022-07-31

embeded database也是数据库领域的一个需求,其提供一个链接库,链接到其他进程中运行。当前的SQLite便是embeded database中的一种,只不过其场景是OLTP。在DuckDB之前,针对OLAP场景的embeded database尚未出现。

针对embeded analytical database,有如下几个需求:

    <...
Read More

pegasus dual-WAL架构优化

2022-07-21

读WiscKey论文的时候,了解到SSD的写入具有一定的并行性。遂对SSD做了一些调研,发现果真如此。另外考虑到Pegasus的双WAL架构,以slog写入为准,而slog是单线程写入的。这导致完全利用不上SSD的并行性。因此考虑对slog做移除。

可行性调研

经过深入研究pegasus代码,发现涉及到slog的功能主要有lea...

Read More

olap inspector架构设计

2022-07-19

整体架构图

  • 由于我们未来还要调研StarRocks、Doris或者其他olap系统,所以core模块里采用了可插拔设计,当我们引入一个新的olap引擎时,只需要添加一个OlapEngine...

Read More

Snowflake

2022-05-02

Introduction

云技术来临了,传统数仓面临如下挑战:

  • 传统的数仓是在云时代之前创建的,他们被设计为在小型静态集群上运行,其架构完全不适合云。

  • 随着云技术的发展,大量且快速增长的数据来自于不容易控制的外部,而且经常以sche...

Read More

Flink导入ClickHouse

2022-04-20

说明

当前使用的flink-connector-jdbc仅支持Flink DataStreamAPI的方式向ClickHouse导入数据,TableAPI和FlinkSQL尚不支持。

依赖

需要在pom.xml中添加如下依赖,分别为flink connector和clickhouse jdbc驱动<...

Read More

ClickHouse Centos编译与打包环境

2022-03-15

当前ClickHouse的官方文档中只有Ubuntu的编译环境搭建,没有Centos相关文档。这里根据个人的实际搭建经验,将Centos上搭建ClickHouse编译环境的步骤进行讲解(该教程在centos6和centos7.3上分别进行过实践验证)

编译

更新yum源

Read More