FunnyWii's Zone-友链朋友圈

Hive-因精度丢失导致的 join 数据异常

一、问题复现不知你是否遇到过 join 结果明显不匹配的情况，例如on t1.join_key = t2.join_key中两个join_key明显不相等，但 join 的结果却将其匹配在一起。今日博主在通过用户 id 关联获取用户信息时发现一个用户 id 可以在用户维表中匹配出若干条（用户维表不

2024.05.21 王一川

TTL——管理 clickhouse 数据的生命周期

随着时间的推移，clickhouse 中的数据逐步增长。为了查询、存储效率的提升我们可能需要计划性删除、移动或聚合历史数据。针对此类数据生命周期管理，clickhouse 提供了简单且强大的工具——TTL，该工具作用于 DDL 子句中。这篇文章将探索 TTL 以及如何使用它来解决多种数据管理任务。

2024.05.15 王一川

醉意下的真实——十年软件工程师的深夜独白

作为一个在工程领域摸爬滚打十年的工程师，我今晚可能在酒精的作用下，毫无顾忌地分享一些心得体会。以下是我酒后吐真言。我在职业发展上取得的最大进步，是通过跳槽实现的。技术栈并不是真的那么重要，因为在我所在的领域，大约有15种基本的软件工程模式是适用的。我从事的是数据领域的工作，它与网页开发或嵌入式开

2024.05.08 王一川

如何解决全局代理在终端不生效？

本文涉及到的背景、演示环境均为 mac，其它操作系统或环境不保证 100% 兼容，有类似需求可参考 mac 思路或与博主联系今日在浏览大数据前沿技术时，偶然看到一篇推文介绍实时流式 sql 平台 proton 时，其官网的 Quickstart 也贴心的附上了 mac 用户的安装方式 brew t

2024.05.06 王一川

从 Hadoop 到云原生，大数据平台如何做存算分离

本文的理论思想来源于 JuiceFs 社区的一篇文章《从 Hadoop 到云原生，大数据平台如何做存算分离》，本文分为理论+实践两个部分，理论部分是对社区文章的总结、实践部分则是对理论的落地探索企业对 hadoop 生态的改造一、大数据平台如何做存算分离 1.1 hadoop 存算耦合架构回顾 h

2024.04.25 王一川

ClickHouse 删除操作

OLAP 数据库设计的宗旨在于分析适合一次插入多次查询的业务场景，市面上成熟的 AP 数据库在更新和删除操作上支持的均不是很好，当然 clickhouse 也不例外。但是不友好不代表不支持，本文主要介绍在 clickhouse 中如何实现数据的删除，以及最新版本中 clickhouse 所做的一些技

2024.04.25 王一川

ClickHouse 随心所欲的聚合模型

clickhouse 强大的 MergeTree 系列引擎令人信服，其 ReplacingMergeTree、SummingMergeTree 在数据唯一性和汇总场景中表现非凡。但你是否还有保留最小(大)、平均等预聚合需求，甚至在一个模型中既有唯一性语意也有汇总、最小、最大、平均值语意该如何处理。在

2024.04.21 王一川

ClickHouse 查询缓存

为了实现最佳性能，数据库需要优化其内部数据存储和处理管道的每一步。但是数据库执行的最好的工作是根本没有完成的工作！缓存是一种特别流行的技术，它通过存储早期计算的结果或远程数据来避免不必要的工作，而访问这些数据的成本往往很高。在今天的博文中，介绍一下 ClickHouse 缓存系列的最新成员——查询缓

2024.04.01 王一川

Multimodal Variational Autoencoder for Low-cost Cardiac Hemodynamics Instability Detection

2024.03.20 Wenrui Fan's Homepage

MeDSLIP: Medical Dual-Stream Language-Image Pre-training for Fine-grained Alignment

2024.03.15 Wenrui Fan's Homepage