可靠分布式系统-paxos的直观解释
没有paxos的一堆机器, 只能叫做分布式; 有paxos协同才叫分布式系统. 咱得把paxos聊开了聊透了
没有paxos的一堆机器, 只能叫做分布式; 有paxos协同才叫分布式系统. 咱得把paxos聊开了聊透了
来自一个莫得感情的coding万年户
没有人比我更懂EC(特辣脯口气): 从指令集和算法两个方向对擦除码实现深度优化, 硬核但不烧脑
本文介绍了如何在计算机有限的数字精度内实现高效的擦除码算法,并通过引入伽罗华域及模运算,详细阐述了从GF(2)扩展到GF(2⁸)并实现EC编码、解码的过程,最后还讨论了不同矩阵的适用性
擦除码(EC)通过增加校验块来保证分布式存储的可靠性,允许一定数量的数据块丢失也能恢复。文章以RAID-5、RAID-6为例,解释了k+1、k+2校验策略,并推广到更通用的k+m策略,将其类比为用k个系数定义曲线,并通过曲线上点坐标实现数据冗余
保持 PR 小而快,方便快速审查和合并。 提供清晰的上下文信息,方便审阅者理解代码变更。 积极友好的审查方式,专注于代码逻辑和架构。 团队成员之间彼此信任,并清晰描述代码变更意图。
本文分析了内容分发网络 (CDN) 的成本构成,以及 Zipf 定律对成本的影响。CDN 利用边缘机房缓存热门内容,降低回源成本。文章通过量化业务参数、拟合 Zipf 曲线、确定成本数据,找到了使存储和带宽成本总和最小的最佳边缘容量配置。最后,文章展望了 CDN 和源站未来更紧密的协作模式,以实现更高效的内容分发
本文介绍了Zipf定律,该定律描述了互联网内容访问频率分布规律:少数热门内容占据了大部分流量。文章通过数学推导,得到Zipf模型公式,并解释了如何用多项式回归拟合访问日志数据,确定公式参数。最后,文章列举了该定律在缓存配置、日志分析等场景的应用
交流原则强调尊重和包容, 反馈机制倡导建设性沟通
SlimTrie的代码级实现详解:通过Trie裁剪去除单分支节点将空间从O(n*k)降至O(n),再用compacted array压缩存储,最终每条索引仅需约6字节(加4字节value共10字节)。实测内存开销约为B-Tree的13%,查询速度约为其2.6倍。
单机100TB存储如何索引百亿小文件?经典的hash map和B-Tree索引的内存开销为O(k*n),无法全部放入内存。SlimTrie基于Trie裁剪和压缩,将空间复杂度降至O(n),实现每条索引仅约10字节,在1GB内存中即可建立100TB数据量的索引。