友链朋友圈

时日曷丧,与汝偕亡

从 Hadoop 到云原生,大数据平台如何做存算分离

本文的理论思想来源于 JuiceFs 社区的一篇文章《从 Hadoop 到云原生,大数据平台如何做存算分离》,本文分为理论+实践两个部分,理论部分是对社区文章的总结、实践部分则是对理论的落地探索企业对 hadoop 生态的改造 一、大数据平台如何做存算分离 1.1 hadoop 存算耦合架构回顾 h

王一川

ClickHouse 删除操作

OLAP 数据库设计的宗旨在于分析适合一次插入多次查询的业务场景,市面上成熟的 AP 数据库在更新和删除操作上支持的均不是很好,当然 clickhouse 也不例外。但是不友好不代表不支持,本文主要介绍在 clickhouse 中如何实现数据的删除,以及最新版本中 clickhouse 所做的一些技

王一川

杂谈 | 虚无感的由来

社会基础生存危机解除后,仍然普遍异化个人仅使其成为劳动力,而不给予其实现个人成就的渠道,是现代虚无主义横行的主要原因。 人在摆脱基础的安全恐惧后,有了余力可以思考个人的存在意义,追求人生的价值。但在拥有窄缩趋势的社会生存空间里,对成就的思维逻辑却以一种滑坡效应向下统一成“损失理论”,即: 我原本“会成为什么样的人”,但随着这种生存空间的窄缩,必定无法实现;在其中,一种还未实现的预想,因为广泛的、可...

SaturdayClub

ClickHouse 随心所欲的聚合模型

clickhouse 强大的 MergeTree 系列引擎令人信服,其 ReplacingMergeTree、SummingMergeTree 在数据唯一性和汇总场景中表现非凡。但你是否还有保留最小(大)、平均等预聚合需求,甚至在一个模型中既有唯一性语意也有汇总、最小、最大、平均值语意该如何处理。在

王一川

春天是一只怪兽

一 最近,我总觉得自己是在什么未知的情况下,动了什么组织的利益。 上周四,外出调研时,我在某个小区看到了一只白猫对着我呕,等我回到公司的园区,又发现另一只白猫在我身后匆匆跑过。 如果这还不惊恐,那那天晚上我还遇到了一只小黄鼠狼,它盯了我几秒,然后匆匆跑掉。 这太恐怖了! 所以我决定,周末出门避避风头。 二 南京。 在记忆里散发着檀香味的城市,像春夏之交的午前,陪着我妈打扫完卫生,点上一支卫生香,然...

SaturdayClub

ClickHouse 查询缓存

为了实现最佳性能,数据库需要优化其内部数据存储和处理管道的每一步。但是数据库执行的最好的工作是根本没有完成的工作!缓存是一种特别流行的技术,它通过存储早期计算的结果或远程数据来避免不必要的工作,而访问这些数据的成本往往很高。在今天的博文中,介绍一下 ClickHouse 缓存系列的最新成员——查询缓

王一川

数仓基建-构建 hive 时间维表

众所周知 hive 的时间处理异常繁琐且在一些涉及日期的统计场景中会写较长的 sql,例如:周累计、周环比等;本文将使用维表的形式降低时间处理的复杂度,提前计算好标准时间字符串未来可能需要转换的形式。 一、表设计 结合业务场景常用的时间字符串格式为 yyyyMMdd,因此我们将这种格式字段作为维表的

王一川