传统数据中心架构

TIA/EIA-942数据中心标准将数据中心看成是一个建筑物,或建筑物的一个部分,主要功能为容纳一个计算机房及其维护区域。计算机房是数据机房的重要部分,放置核心的数据处理设备。典型的数据中心电信空间包括:

  • 进入场所(ENTRANCE ROOM)

数据中心结构化布线系统与园区布线系统及访问服务供应商布线系统之间接口的地方。通常,在接入室设置交叉连接阵列的配线架,形成“室外”与“室内”的电缆“分界线”,标准要求接入室设置在计算机房的外面主要是出于管理和安全的考虑;这个接入室可位于计算机房的内部或外部,如果在内部,可以与主分布区MDA组合在一起。对于大型的数据中心可能需要多个接入室。

  • 主配线区域(MDA)

MDA是整个数据中心的核心,也是数据中心结构化布线系统的中心分布点;总配线区配备核心以太网交换机与路由器、核心存储区域网络(SAN)交换设备、PBX 设备、网络管理设备以及接入设备。总配线区还包括主交叉连接(MC),用于在主干线缆和核心交换机与路由器之间建立连接,或者水平交叉连接(HC)用于连接就近设备配线区(EDA)的设备。

  • 水平配线区域(HDA)

类似于TIA/EIA-568B中定义的楼层电信间,主要包括水平跳接及安装与EDA区域设备相连的LAN, SAN交换机和KVM。

根据ITA/EIA-942标准,MDA和HAD需要为光纤和铜缆提供单独的配线机架或机柜,以达到高性能、高密度和高管理性的要求。一个水平配线区(HDA)一般来说可以连接的设备数量在2000 个之内。

  • 区域配线区(ZDA)

在HDA-EDA的水平布线中可以包含一个可选的连接点–ZDA,ZDA为频繁变动的EDA终端提供了灵活性,较适于地板系统或不方便在系统机柜中安装快接式配线架的场合下使用,ZDA以区域插座或集合点形式表现,在配置上不能有跳接和有源设备;一个区域配线区(ZDA)允许在水平线缆连接288 个结点。

  • 设备配线区域(EDA)

EDA是分配给终端设备的空间,可以包括计算机和通信设备,交换机和刀片服务器或服务器和外围设备。水平布线在EDA侧,通常是采用机柜/机架式安装的配线架进行端接。标准建议EDA区至少两个出口,为一些应用(如无线接入点,IP摄像机和自动控制系统等)考虑的线缆也要规划并在此端接好。同时在EDA中,应该将机架和机柜按热通道/冷通道配置。

  • 电信间(TR)

数据中心还可能包括一个位于计算机房外的电信间,用于支持其他空间的水平布线,出于安全考虑,电信间应部署在计算机室外,如员工办公室、业务中心、电气间、机械间,及其他位于计算机房外的数据中心空间。

考虑冗余的基本数据中心数据中心结构图如下:

png

传统大三层架构

在数据中心的网络架构中,通常服务器上行端口采用 TCP/IP 的协议进行数据传输,上行的整体网络层可能会包括接入层交换、汇聚层交换、核心层交换、路由等,对于这部分全部采用 TCP/IP协议进行数据传输的网络层我们可以统称为 LAN 网络。

在传统的大型数据中心,网络通常是三层结构。Cisco称之为:分级的互连网络模型(hierarchical inter-networking model)。这个模型包含了以下三层:

  • Access Layer(接入层)

有时也称为Edge Layer。接入交换机通常位于机架顶部,所以它们也被称为ToR(Top of Rack)交换机,它们物理连接服务器。

  • Aggregation Layer(汇聚层)

有时候也称为Distribution Layer。汇聚交换机连接Access交换机,同时提供其他的服务,例如防火墙,SSL offload,入侵检测,网络分析等。

  • Core Layer(核心层)

核心交换机为进出数据中心的包提供高速的转发,为多个汇聚层提供连接性,核心交换机为通常为整个网络提供一个弹性的L3路由网络。

典型的数据中心三层lan网络层如下:

png

通常情况下,汇聚交换机是L2和L3网络的分界点,汇聚交换机以下的是L2网络,以上是L3网络。每组汇聚交换机管理一个POD(Point Of Delivery),每个POD内都是独立的VLAN网络。服务器在POD内迁移不必修改IP地址和默认网关,因为一个POD对应一个L2广播域。

汇聚交换机和接入交换机之间通常使用STP(Spanning Tree Protocol)。STP使得对于一个VLAN网络只有一个汇聚层交换机可用,其他的汇聚层交换机在出现故障时才被使用(上图中的虚线)。也就是说汇聚层是一个active-passive的HA模式。这样在汇聚层,做不到水平扩展,因为就算加入多个汇聚层交换机,仍然只有一个在工作。

随着云计算数据中心采用的大量虚拟化技术后,LAN 网络层也有新的架构出现,虚拟化I/O 技术发展,有助于较好的改善网络节点的延时。低延时的网络是云计算的数据中心发展的基本要求,根据这样的要求越来越多的数据中心采用了 Fabric 类型的网络架构,从而也促使网络架构从传统的三层网络架构减为二层网络架构,而各网络设备之间的连接关系将会变得更加复杂。

随着云计算的发展,计算资源被池化,为了使得计算资源可以任意分配,需要一个大二层的网络架构。即整个数据中心网络都是一个L2广播域,这样,服务器可以在任意地点创建,迁移,而不需要对IP地址或者默认网关做修改。大二层网络架构,L2/L3分界在核心交换机,核心交换机以下,也就是整个数据中心,是L2网络(当然,可以包含多个VLAN,VLAN之间通过核心交换机做路由进行连通)。大二层的网络架构如下图所示:

png

大二层网络架构虽然使得虚机网络能够灵活创建,但是带来的问题也是明显的。共享的L2广播域带来的BUM(Broadcast·,Unknown Unicast,Multicast)风暴随着网络规模的增加而明显增加,最终将影响正常的网络流量。

  • ToR

(Top of Rack)接入方式就是在服务器机柜的最上面安装接入交换机。

png

  • EoR

(End of Row)接入交换机集中安装在一列机柜端部的机柜内,通过水平缆线以永久链路方式连接设备柜内的主机/服务器/小型机设备。EoR 对设备机柜需要敷设大量的水平缆线连接到交换机。

png

LAN/SAN/网络拓扑与布线系统构成对应关系

SAN:光纤存储区域网络

一个典型数据中心的网络架构通常由几个元素构成:

  • 设置一个或多个的进线间,采用冗余设计引入线路与通信业务联接至路由设备层,安全设备层(如防火墙等安全设备)
  • 下联核心交换层,直至汇聚层和接入层交换机设备;交换机设备接入主机/服务器/小型机设备,便构成了数据中心的LAN网络。

对于存储网络SAN来说,构成的元素较为简单:主要由主机/服务器/小型机设备、SAN交换设备及存储设备构成。主机/服务器/小型机设备下联SAN交换机设备,之后进一步下联存储设备。

对于数据中心LAN和SAN共存的网络,布线的规划可以采用两种方案 :

  • 方案一:为LAN与SAN组建各自的主配线区域

这种方式配线管理清晰,但是服务器的布线系统需要采用两个路由,布线数量需要事先规划。

  • 方案二:SAN与LAN网络共用一个主配线区域

主机/服务器/小型机设备所在的设备配线区向一个主配线区布线,设备配线区的布线连接至SAN和LAN的数量可以相互调配,可以提高布线利用率,但布线的管理没有方案一那么清晰。

工程中采用的组网方案要根据数据中心规模加以比较后选择。如果数据中心主机/服务器/小型机设备数量较大,如大于25台以上的规模时,建议为SAN建立单独的主配线区。在上述设备数量很少的情况下,则可以采用SAN与LAN布线合并主配线区的方案。

SAN和LAN合用主配线区的方案构成图,如图所示:

png

主干系统

数据中心的主干系统,指的是主配线区(MDA)到水平配线区(HDA),多个主配线区之间的骨干布线系统。如果数据中心包含中间配线区(IDA),则主配线区到中间配线区,中间配线区到水平配线区之间的布线系统也被定义为主干系统。主干系统好比数据中心的大动脉,对整个数据中心来说至关重要。从某种程度上决定了数据中心的规模和扩容的能力。所以主干系统一般在设计之初就需要留有一定的余量,不论是系统的容量还是系统占用的空间都要给将来升级留足空间。这样将来数据中心升级的时候才能保证最大限度的平滑升级。

主配线区被认为是数据中心的核心,一般设置在计算机房的中心或者比较靠近核心位置,这样能够尽量减少到各水平配线区之间的距离。

在设计之初,主配线区就需要留有足够的设备与缆线安装空间,一般建议至少保留50%以上的空间做为将来升级的空间。避免将来升级的时候遇到空间不足的困扰。推荐光/电的配线架分放在不同的机柜内。在主配线区推荐采用高密度的配线产品,尽可能的减少对空间的占用。在某些应用场合还需要考虑机柜的走线和理线空间能够满足容量的要求。

技术发展对网络架构的影响

数据中心是为了数据服务。随着技术的发展,数据的内容和形式也发生了变化。

  • 虚拟化的流行

传统的数据中心中,服务器的利用率并不高,采用三层网络架构配合一定的超占比(oversubion),能够有效的共享利用核心交换机和一些其他网络设备的性能。但是虚拟化的流行使得服务器的利用率变高,一个物理服务器可以虚拟出多个虚拟机,分别运行各自的任务,走自己的网络路径。因此,高的服务器利用率要求更小的超占比。

  • 软件架构的解耦

传统的软件架构,采用专用模式进行部署,软件系统通常跑在一个物理服务器,与其他的系统做物理隔离。但是,模块化,分层的软件架构设计已经成为了现在的主流。一个系统的多个组件通常分布在多个虚机/容器中。最典型的就是三层WEB应用,包含了Client/Application/DB。一次请求,不再是由一个虚机/物理机完成,而是由多个服务器协同完成。这对网络的影响是,东西向流量变多了。

  • 新的应用的兴起

传统数据中心是为.com应用设计的,这些流量大多是客户端和服务器之间的通信。而分布式计算,大数据渐渐兴起,这些应用会在数据中心的服务器之间产生大量的流量。例如Hadoop,将数据分布在数据中心中成百上千个服务器中,进行并行计算。

  • 软件定义数据中心(SDDC,Software Defined Data Center)的提出

SDDC提出软件定义的数据中心,这要求数据中心的计算存储网络都是可以软件定义的。对应于网络,就是SDN。传统的三层网络架构在设计之初并没有考虑SDN。

总的来说,技术发展要求新的数据中心有更小的超占比,甚至没有超占比;更高的东西向流量带宽;支持SDN

数据中心的流量总的来说可以分为以下几种:

  • 南北向流量:数据中心之外的客户端到数据中心服务器之间的流量,或者数据中心服务器访问互联网的流量。

  • 东西向流量:数据中心内的服务器之间的流量。

  • 跨数据中心流量:跨数据中心的流量,例如数据中心之间的灾备,私有云和公有云之间的通讯。

在这些需求里面,更高的东西向流量支持尤为重要。根据Cisco Global Cloud Index: Forecast and Methodology, 2015–2020,到2020年77%的数据中心流量将会是数据中心内部的流量,也就是东西向流量。

但是,传统三层网络架构的诞生是在.com时代,主要是也为了南北向流量设计的。并非不支持东西向流量,主要有以下几种形式:

东西向的L2流量,如果源和目的主机都在同一个接入层交换机下,那么可以达到全速,因为接入交换机就能完成转发。

如果需要跨机架,但仍然是在一个汇聚层POD内,则需要通过汇聚层交换机进行转发,带宽取决于汇聚层交换机的转发速率,端口带宽和同时有多少个接入层交换机共享汇聚层交换机。前面说过汇聚层和接入层之间一般使用STP,这使得一个汇聚层POD只能有一个汇聚层交换机在工作。为了满足跨机架的L2转发,汇聚层交换机的性能,例如带宽,转发速率必然要大于接入层交换机。

如果L2流量需要跨汇聚层POD(大二层架构),那必须经过核心交换机。同样的问题仍然存在,对核心交换机的要求会更高。

东西向的L3流量,不论是不是在一个接入层交换机下,都需要走到具有L3功能的核心交换机才能完成转发。

总的来说,为了保证任意的东西向流量带宽,势必 需要更高性能的汇聚层交换机和核心交换机。另一方面,也可以小心的进行设计,尽量将有东西向流量的服务器置于同一个接入交换机下。不管怎么样,这都 增加了成本,降低了可用性

传统的三层网络架构必然不会在短期内消失,但是由于技术和市场的发展,其短板也越来越明显。基于现有网络架构的改进显得非常有必要,新的网络架构最好是: 由相对较小规模的交换机构成,可以方便的水平扩展,较好的支持HA(active-active模式),支持全速的东西向流量,不采购高性能的核心交换机也能去除超占比,支持SDN等等

随着云计算和大数据应用的发展,当前有如下主流的数据中心架构:

Clos 架构

Clos架构,诞生于1952年,是由一位叫Charles Clos的人提出的,所以它并不是一个新的概念。

这个架构主要描述了一种多级电路交换网络的结构。通过Clos架构可以提供无阻塞的网络,它要求在两个位置之间使用多个非阻断交换路径。这种多路径设计可以启用之前阻断的端口,从而增加更大的容量。Clos网络当时是为了给公共交换电话网络增加更大的容量。在上世纪90年代,Clos的概念经过调整之后集成到了交换跨机架背板,从而大大提升单个交换机之中的端口间带宽。

现在,Clos设计已经扩展到LAN中,从而在数据中心内部形成一种网状无阻断互联结构。这个概念可以大大提升东西向流量容量,也能在数据中心资源之间实现更为可控的通信。这就是现在大多数网络供应商销售部门所指的叶脊架构。

png

Fabric架构和Spine/Leaf架构都属于Clos架构。

”Fabric”以太网架构

典型的数据网络通常是一种分级汇聚的层次型结构,越是处在网络的上层,对设备的处理能力要求就越高。过去一直是思科、Juniper等公司垄断着汇聚层、骨干层的设备。这些设备往往价格昂贵,而且扩展能力(相对)有限,一旦网络流量增长到一定地步,唯有整机替换为下一代新设备才能支撑。而在Facebook的数据中心之间的流量是一个庞大的数字,其规模是Facebook流出流量的1000倍!所以传统架构之下需要很多昂贵的网络设备才能支撑这种规模的流量。

为此,Facebook位于阿尔图纳的新数据中心则采用了一种新型的网络结构、利用廉价的架顶交换机以模块化的方式解决了传统网络公司无法解决的大规模计算网络问题。

png

Facebook的这种数据中心网络结构叫做“Data Center Fabric(数据中心网络)”。它放弃了传统的分层结构以及昂贵的网络设备,而是在整个网络全面部署廉价的架顶交换机,利用一种全新的路由方式极大地改进数据中心的通信效率。在这个数据网络中,其基本单位是一个个的Pod,每个Pod包括48台10G带宽的架顶交换机以及4台光纤交换机,每台架顶交换机分别以一条40G的上行链路与光纤交换机互联,向下则接入底层的服务器。

此外,为了实现全网的连通性,Facebook还设计了四个独立的骨干交换机平面(plane),一个平面均可扩展至48台设备。而每个pod的每一台光纤交换机都会与所在平面的每一台骨干交换机互联。于是这些pod和plane就构成了一个模块化的网络拓扑,从而可以容纳几十万台10G带宽的服务器,整个数据网络的对分带宽最高可扩展至几个PB。而且这个数据中心网络从网络到服务器全网均采用3层协议(TCP/IP中的网络层),这样的话数据路由可以更加灵活方便,而在网络中间层不在需要昂贵的交换机去处理负载。

Facebook这种以大量小型交换机替代少量大型交换机可以降低复杂性并提高可伸缩性,而且小型交换机竞争激烈的市场也使得网络建设成本大为降低,从而使得数据中心网络不仅更加高效,成本也显著降低。

Spine/Leaf架构

Spine/Leaf网络架构中,L2/L3的分隔通常在Leaf交换机。也就是说每个Leaf交换机下面都是个独立的L2广播域。如果说两个Leaf交换机下的服务器需要通讯,需要通过L3路由,经由Spine交换机转发。

png

  • leaf switch

相当于传统三层架构中的接入交换机,作为TOR(Top Of Rack)直接连接物理服务器。与接入交换机的区别在于,L2/L3网络的分界点现在在leaf交换机上了。leaf交换机之上是三层网络。

  • spine switch

相当于核心交换机。spine和leaf交换机之间通过ECMP(Equal Cost Multi Path)动态选择多条路径。区别在于,spine交换机现在只是为leaf交换机提供一个弹性的L3路由网络,数据中心的南北流量可以不用直接从spine交换机发出,一般来说,南北流量可以从与leaf交换机并行的交换机(edge switch)再接到WAN router出去。

与传统三层网络架构类似,这样的设计,能分隔L2广播域,适用的网络规模更大。但是对应的问题就是,服务器的部署不能在数据中心的任意位置。传统的三层网络架构是垂直的结构,而spine/leaf网络架构是扁平的结构,从结构上看,spine/leaf架构更易于水平扩展。

一个叶脊拓扑网络主机可以通过叶支交换机(leaf)和另一个叶支交换机上的主机进行通信,而且是独立的通道。这种叶脊拓扑网络可以大大提高网络的效率,特别是高性能计算集群或高频流量通信设备。

叶脊拓扑网络结构提供了解决横向网络连接的传输瓶颈,而且叶脊拓扑网络提供了高度的扩展性,叶脊拓扑网络几乎能适应所有大中小型数据中心。

叶脊拓扑网络不是完美的。其中一个缺点就是,叶脊拓扑网络交换机的增多使得网络规模变大。叶脊拓扑网络的数据中心需要按客户端的数量,叶脊拓扑网络相应比例的增加交换机和网络设备。随着主机的增加,需要大量的叶交换机(leaf)上行连接到脊交换机(spine)。。

采用Clos架构的数据中心网络架构的优势:

  • 弹性可扩展

数据中心可以以POD为单位构建,随着规模的增加,增加相应的POD即可。在Spine交换机端口数可承受的范围内,增删POD并不需要修改网络架构。

  • 模块化设计

不论是POD,Spine Plane还是Edge Plane,都是一个个相同的模块,在水平扩展的时候,不需要新的设计,只是将原有的结构复制一份即可。

  • 灵活

当对网络带宽要求不高的时候,Spine交换机和Edge交换机可以适当减少。例如Facebook表示,在数据中心的初期,只提供4:1的东西向流量超占比,这样每个Spine Plane只需要12个Spine交换机。当需要更多带宽时,再增加相应的Spine交换机即可。同样的模式也适用于Edge交换机。这符合“小规模启动,最终适用大规模”的思想。

  • 硬件依赖性小

传统三层网络架构中,大的网络规模意味着高端的核心汇聚交换机。但是在Fabric架构中,交换机都是中等交换机,例如所有的fabric交换机只需要96个端口,中等规模的交换机简单,稳定,成本低,并且大多数网络厂商都能制造。

  • 高度高可用

传统三层网络架构中,尽管汇聚层和核心层都做了高可用,但是汇聚层的高可用由于是基于STP(Spanning Tree Protocol),并不能充分利用多个交换机的性能,并且,如果所有的汇聚层交换机(一般是两个)都出现故障,那么整个汇聚层POD网络就瘫痪。但是在Fabric架构中,跨POD的两个服务器之间有多条通道(4*48=192),除非192条通道都出现故障,否则网络能一直保持连通。

Overlay网络

Overlay网络是在现有的网络(Underlay网络)基础上构建的一个虚拟网络。所谓的现有网络,就是之前的交换机所在的网络,只要是IP网络就行。而新构建的Overlay网络,用来作为服务器通讯的网络。Overlay网络是一个在L3之上的L2网络。也就是说,只要L3网络能覆盖的地方,那Overlay的L2网络也能覆盖。例如下图中,原有的交换机网络不变,服务器之间通过Overlay网络实现了跨Leaf交换机的L2网络。这样,在Overlay网络中,服务器可以任意部署,而不用考虑现有网络的架构。

png

以VXLAN为代表的Overlay技术解决的是提供了一个不受物理网络限制的,可软件定义的网络环境。在SDDC(Software Defined Data Center)架构或者SDN中,这种Overlay更是非常重要的一个部分。

一个完整的Spine/Leaf网络架构配合VXLAN示意图如下所示:

png

这个图里面以虚拟服务器(VM)为例说明,但是实际上并不局限于虚拟的服务器。对于VM来说,并不知道什么VXLAN,VM只是把Ethernet Frame发出来。Leaf交换机将VM的Ethernet Frame封装成VXLAN(也就是一个UDP包),在原有的Spine/Leaf的Underlay网络传输。因为是一个UDP包,所以可以在原有的L3网络中任意传输。

版权声明:本文为博主原创文章,转载请注明出处。 旭日酒馆