阿里P9李运华：想成为架构师，你必须知道CAP理论

2024-11-05 作者:钓虾网 46

CAP定理，亦被称为布鲁尔定理，是计算机科学家埃里克·布鲁尔在ACM PODC会议上提出的一个理论猜想。这一猜想在分布式计算领域具有极其重要的地位，并由麻省理工学院的赛斯·吉尔伯特和南希·林奇于2002年得以证明。对于致力于设计分布式系统架构的专家们来说，掌握CAP理论是不可或缺的基础。

当布鲁尔首次提出CAP猜想时，他并未详细阐述Consistency（强一致性）、Availability（可用性）以及Partition Tolerance（分区容忍性）的具体定义。对于初学者来说，查询CAP的定义可能会有些困惑，因为不同资料在细节上可能存在微妙的差异。以下是三个概念的明确解释：

一致性（Consistency）：所有节点在同一时间看到相同的数据。这是CAP理论中对一致性的普遍理解。但在罗伯特·格雷纳的文章中，一致性被定义为每一次读取操作都能获得最近一次写入的最新数据，否则返回一个错误。这种理解对于CAP理论的实际应用有着非常重要的影响。

可用性（Availability）：每一个请求都能收到一个响应，无论是否包含最新的写入信息。这意味着系统承诺对所有请求作出回应，但不保证回应的内容是最新的数据。这一特性在分布式系统中非常重要，因为它保证了系统在面对高并发请求时依然能够保持服务的能力。

分区容忍性（Partition tolerance）：即使系统中的任意部分丢失或失效，系统依然能够继续运行。这是分布式系统必须面对的问题，因为网络分区是常态而非例外。这种特性保证了分布式系统在面临网络故障等异常情况时的稳定性和可靠性。

罗伯特·格雷纳对于CAP理论的理解经历了一个过程，他在两篇文章中分别阐述了不同时期的理解。有趣的是，尽管他的早期文章（被标记为“outdated”）在一些中文翻译文章中被引用，但他后期的解释更加深入和准确，有助于读者更深入地理解CAP理论。通过对比他前后两篇解释的差异点，我们可以更全面地把握CAP理论的内涵和外延。

为了更好地理解CAP理论的实际应用和实现方式，可以深入阅读相关文献和资料，如布鲁尔、吉尔伯特和林奇等人的论文以及相关博客文章和教程。这些资源将为我们提供更深入的见解和丰富的实践案例。CAP理论解析

初版阐述：

在分布式系统中，无法同时保障一致性（Consistency）、可用性（Availability）和分区容错性（Partition Tolerance）的三重约束。

（源自：

深化解读：

分布式系统（指互相连接并共享数据的节点的集合）在进行读写操作时，三者只能取其二，即一致性、可用性和分区容错性不能同时得到保障。

（源自：

对比两个版本的描述，存在几个关键差异点：

第二版的定义更深入地描述了CAP理论所探讨的分布式系统的特性，强调了系统的互联性和数据的共享，因为并非所有分布式系统都会互联和共享数据。例如，Memcache集群并不进行数据共享和互联，因此不属于CAP理论的讨论范畴；而像MySQL集群则进行数据复制，属于CAP理论的重要研究对象。

第二版更加明确了CAP理论关注的是数据的读写操作，而非分布式系统的所有功能。例如，ZooKeeper的选举机制并不在CAP的讨论范围内。尽管第二版的定义更为严谨，但其内容相对复杂，因此大部分技术人员在谈论CAP理论时，更倾向于使用第一版的简洁定义。

接下来，详细解读一下一致性的概念：

初版解释：所有节点在同一时刻都能看到相同的数据。

深化解读：对于某个指定的客户端来说，读操作保证能够返回最新的写操作结果。

两个版本的主要差异在于描述角度。第一版从节点的视角描述，而第二版从客户端的视角出发。实际上，第二版的描述更加贴近我们观察和评估系统的方式。节点拥有数据而非“看到”数据，因此使用have更为准确。第二版并没有强调“同一时刻拥有相同数据”，这意味着节点在同一时刻可能拥有不同的数据，这与我们通常理解的一致性存在差异。这种改动反映了更深入的系统理解和更严谨的学术态度。系统一致性解析

在一个系统中，当事务从开始的一个一致状态启动并结束于一致状态时，我们说这个系统具有一致性。在此过程中，系统可能会暂时进入不一致的状态，但如果在任何阶段出现错误，整个事务都会被回滚，从而确保系统的最终一致性。

关于数据节点的一致性问题，需要明确的是，在事务执行过程中，不同节点的数据可能并不完全一致。原先的解释“所有节点在同一时间看到相同的数据”并不严谨。第二版解释则强调了client在读取操作时的行为。当client进行读操作时，只要事务已经提交，client就能获取到最新的写结果。在事务未提交期间，client是无法读取到未提交的数据的。这确保了client在读取数据时，总是获取到的是已经经过系统确认并可以提交的数据。

关于可用性

第一版的解释是：每个请求都能得到成功或者失败的响应。但这种表述过于宽泛，因为成功的响应并不一定代表结果的正确性。例如，预期返回值为100，但实际返回值为90，虽然系统给出了响应，但这个响应并不准确。而第二版的解释则更为严谨：非故障的节点会在合理的时间内给出一个合理的响应，这个响应不会以错误或超时的方式呈现。这种解释明确了可用性不仅要求节点能够响应，还要求响应的结果必须合理，这完全符合我们对CAP理论中的A（Availability）的期望。

关于分区容忍性

第一版的解释是：在消息丢失或分区错误的情况下，系统可以继续运行。而第二版的解释更为直接：在网络分区发生时，系统可以继续履行职责。第一版的解释中，“work”一词的使用较为宽泛，只要系统没有宕机就可以说系统在运行。而第二版的“function”则更强调系统在网络分区的情况下仍然能够发挥作用或履行职责。第二版的解释直接指出了网络分区这一核心问题，使得解释更为明确和具体。揭开CAP理论的神秘面纱

让我们先来深入了解并对比两个不同版本的解释。第一版的解释直截了当地指出了原因，也就是message loss导致了分区现象。我们注意到其中提到的message loss定义略显狭隘，因为在实际的网络故障中，它仅仅是其中的一种情况。第二版则更注重现象的描述，即无论原因如何——无论是丢包、连接中断还是拥塞，只要导致了网络分区，都归纳为此现象之内。

接下来，让我们走进CAP应用的探讨。CAP理论似乎简单直白地告诉我们：在三个核心要素中我们只能选择两个。但若置于分布式环境的背景下，我们会发现必须拥抱P（分区容忍）要素。因为网络无法做到百分之百的可靠，故障的出现成为常态，分区现象因此成为必然。想象一下，如果我们选择了CA而放弃P，那么在遭遇分区现象时，为了保证一致性C，系统可能会选择禁止写入操作。当面对写入请求时，系统只能无奈地返回错误。这一举措却与可用性A的要求相冲突，因为A强调的是无错误和无超时响应。理论上，分布式系统无法选择CA架构，只能在CP和AP之间作出抉择。

深入探究CP架构，我们可以发现一个典型的场景：为了保证数据的一致性，当发生分区现象后，比如N1节点上的数据已经更新为y。但由于N1和N2之间的复制通道中断，数据y无法同步到N2，这时N2节点上的数据仍然是x。这时，如果客户端C访问N2，N2会返回错误提示系统出错。这种处理方式虽然保证了系统的分区容忍性P和一致性C，但却牺牲了可用性A的要求。在这种情境下，我们只能满足CP。

转向AP架构的理解，同样地，在发生分区现象后，为了保证可用性A，即使N1节点的数据已经更新为y，而N2的数据仍然是x的情况下，客户端C访问N2时，N2会直接返回它当前的数据x。这样做虽然满足了可用性A的要求，但却不能保证一致性C。值得注意的是，返回的x虽然是旧数据，但并不是一个错乱的值，只是不是最新的数据而已。在这种情况下，我们只能满足AP。

小结一下今天的分享，我们深入探讨了CAP理论的核心定义和两种架构的特点。希望这些内容能为你带来启发和帮助。最后留一道思考题：基于Paxos算法构建的分布式系统属于CAP架构中的哪一种？期待你的分析和理解。

文章来自《钓虾网小编|www.jnqjk.cn》整理于网络，文章内容不代表本站立场，转载请注明出处。

本文链接：https://www.jnqjk.cn/quanzi/164421.html

上一篇：前端开发学习：初学者的进阶指南
下一篇：Vue3公共组件资料：快速入门与实战指南