最新文章

200行代码实现基于paxos的kv存储

30 分钟阅读

用200行代码实现一个基于paxos的kv存储, 以最简洁的形式展示paxos如何运行, 作为 paxos的直观解释 这篇教程中的代码示例部分

Erasure-Code-擦除码-3-极限篇

31 分钟阅读

没有人比我更懂EC(特辣脯口气): 从指令集和算法两个方向对擦除码实现深度优化, 硬核但不烧脑

Erasure-Code-擦除码-2-实现篇

56 分钟阅读

本文介绍了如何在计算机有限的数字精度内实现高效的擦除码算法,并通过引入伽罗华域及模运算,详细阐述了从GF(2)扩展到GF(2⁸)并实现EC编码、解码的过程,最后还讨论了不同矩阵的适用性

Erasure-Code-擦除码-1-原理篇

22 分钟阅读

擦除码(EC)通过增加校验块来保证分布式存储的可靠性,允许一定数量的数据块丢失也能恢复。文章以RAID-5、RAID-6为例,解释了k+1、k+2校验策略,并推广到更通用的k+m策略,将其类比为用k个系数定义曲线,并通过曲线上点坐标实现数据冗余

Art of Pull Requests(翻译)

1 分钟阅读

保持 PR 小而快,方便快速审查和合并。 提供清晰的上下文信息,方便审阅者理解代码变更。 积极友好的审查方式,专注于代码逻辑和架构。 团队成员之间彼此信任,并清晰描述代码变更意图。

掐指算算: 你的CDN多花了几百万?

5 分钟阅读

本文分析了内容分发网络 (CDN) 的成本构成,以及 Zipf 定律对成本的影响。CDN 利用边缘机房缓存热门内容,降低回源成本。文章通过量化业务参数、拟合 Zipf 曲线、确定成本数据,找到了使存储和带宽成本总和最小的最佳边缘容量配置。最后,文章展望了 CDN 和源站未来更紧密的协作模式,以实现更高效的内容分发

互联网中对象访问频率的91分布

4 分钟阅读

本文介绍了Zipf定律,该定律描述了互联网内容访问频率分布规律:少数热门内容占据了大部分流量。文章通过数学推导,得到Zipf模型公式,并解释了如何用多项式回归拟合访问日志数据,确定公式参数。最后,文章列举了该定律在缓存配置、日志分析等场景的应用

SlimTrie: 单机百亿文件的极致索引-实现篇

20 分钟阅读

Github: SlimTrie 上一篇 《SlimTrie 设计篇》 中,我们介绍了单机百亿文件的索引设计思路,今天我们来具体介绍下它代码级别的实现。文中我们要解决的问题是: 在一台通用的100TB的存储服务器的内存中, 索引100亿个...