2016年11月17日星期四

大型网站架构演化发展历程

大型网站架构演化发展历程
1.初始阶段的网站架构
应用程序、数据库、文件等所有的资源都在一台服务器上。
通常使用Linux+HPH+Apache+MaSQL(LHAM)

2.应用服务和数据服务分离
问题:用户访问的增加,性能变差、存储空间不足
三台服务器:应用服务器、文件服务器、数据库服务器。
应用服务器:强大的CPU
数据库服务器:更快的磁盘检索和数据缓存,因此需要更快的硬盘和更大的内存。
文件服务器:存储大量用户上传的文件,因此需要更大的硬盘。

3.使用缓存改善网站性能
问题:用户量增加,数据库压力太大导致访问延迟。
二八定律:80%的业务访问集中在20%的数据上
两种缓存:缓存在应用服务器上的本地缓存和缓存在专门的分布式缓存服务器上的远程缓存。
本地缓存:访问速度更快,但是受应用服务器内存限制,其缓存数据量有限,而且会出现和应用程序争用内存的情况。
远程分布式缓存:可以使用集群的方式,部署大内存的服务器作为专门的缓存服务器,理论上做到不受内存容量限制的缓存服务。


4.使用应用服务器集群改善网站的并发处理能力
问题:单一应用服务器处理请求连接有限,在网站高峰期,应用服务器成为网站的瓶颈
使用集群式网站解决高并发、海量数据问题的常用手段。
对网站架构而言,只要能通过增加一台服务器的方式改善负载压力,就可以以同样的方式持续增加服务器不断改善系统性能,
从而实现系统的可伸缩性。

5.数据库读写分离
问题:网站使用缓存后,使绝大部分数据读操作访问都可以不通过数据库就能完成,
但是仍然有一部分读操作(缓存访问不命中、缓存过期)和全部的写操作需要访问数据库,
在网站的用户达到一定规模后,数据库因为负载压力过高而成为网站的瓶颈。
数据库的主从热备功能实现读写分离,可以改善数据库负载压力。
为了便于应用程序访问读写分离后的数据库,通常在应用服务器端使用专门的数据访问模块,使数据库读写分离对应用透明。

6.使用反向代理和CDN加速网站响应
问题:用户量增大,网络环境的速度差别大。
CDN和反向代理的原理都是缓存,
区别在于CDN部署在网络提供商的机房,使用户请求网站服务时,就近从网络提供商机房获取数据;
反向代理则部署在网站的中心机房,当用户请求到中心机房后,首先访问的服务器是反向代理服务器,
如果反向代理服务器中缓存着用户请求的资源,就直接返回给用户。

7.使用分布式文件系统和分布式数据库系统
问题:任何强大的单一服务器都满足不了持续增长的业务需求。
分布式数据库是网站数据库拆分的最后手段,只有在单表数据规模非常庞大的时候才使用。
网站更常用的数据库拆分手段是业务分库,将不同的业务的数据库部署在不同的物理服务器上。

8.使用NoSQL和搜索引擎
问题:随着业务的复杂,对数据存储和检索的需求也变得复杂,网站需要采用一些非关系数据库技术如NoSQL和
非数据库查询技术如搜索引擎。

9.业务拆分
问题:业务场景的日益复杂。
通过分而治之的手段将整个网站业务分成不同的产品线。
例如大型购物网站将会将首页、商铺、订单、买家、卖家等拆成不同的产品线,分归不同的业务团队负责。
具体到技术上,会根据产品线的划分,将网站拆分成许多不同的应用,每个应用独立部署维护。
应用之间可以通过一个超链接建立关系,也可以通过消息队列进行数据分发,
当然最多的还是通过访问同一个数据存储系统来构成一个关联的完整系统

10.分布式服务
问题:随着业务拆分越来越小,存储系统越来越大,应用系统的整体复杂程度呈指数增加,部署维护越来越困难。
由于所有应用要和所有数据库系统连接,在数万台服务器规模的网站中,会导致存储数据库资源不足,拒绝服务。
既然每一个应用系统都需要执行相同的业务操作,比如用户管理,商品管理等,那么可以将这些公用的业务提取处理,
独立部署。由这些可复用的业务连接数据库,提供公用业务服务,而应用系统只需要管理用户界面,
通过分布式服务调用公用业务服务完成具体业务操作。