每天产生这么多的视频,头条的存储服务器得多大空间?会不会有存储极限?

泰山数码小李


早在1988年就已经出现了弹性存储的超级计算机。而现在都2019年了,对于存储来说,从技术来讲简直就是小儿科。普通用户只要花点钱都能马上搭建自己的云存储服务器。更别说像头条这样人才济济的科技公司了。头条有自己的服务器集群,在全国各地都有部署节点。有专门的工程师维护。只要头条砸钱,存储就不会有瓶颈。头条这么大的用户量每天都会产生海量的数据,肯定用上最新的存储解决方案,各种弹性存储,分布式存储都会用上。所以存储空间是不会有上限的。一直砸钱,一直收钱,头条生生不息。

现在都是云存储,云计算时代了。国内这么多云服务提供商。假如头条的服务器全部满了,头条的工程师全部跑路了,也能通过云服务商提供存储服务。砸钱就行。

所以这个问题不是你该考虑的,只要头条还有钱,存储就不会有问题。你还是多考虑一下下个月的花呗如何还吧。


狮大仙


我用实验来回答这个问题。

一个视频有多大?

以头条系的西瓜视频为例,这里,我就用我自己发的一个小视频为例,时长58s。

我们先来看看这个视频有多大?用Chrome浏览器打开视频链接(防止平台判定为广告,我就不放链接了),按F12出现调试模式,可以看到整个页面里图片、js、css等各种元素文件的加载情况,包括这个元素所在的服务器IP地址、域名、类型、以及我们所关注的文件大小。如下图,瞅见没?(有问题私聊我)

如上图所示,文件类型为media,大小为1.5MB。

至此,我们得到答案,50s的视频,大小为1.5MB。(实际上,受码率和时长影响可能会有波动,这里暂且算是个平均值)


接下来看第2个问题。

视频有多少个?

在正式回答这个问题之前,先来了解一下视频的热度。

视频有冷热之分,遵循“28”定律,即20%的热门视频吸引80%的用户流量。

很显然,热门视频是视频网站方关注的重点(像我举的这个例子,点击量就很惨,妥妥的冷门资源)。

为了照顾用户的访问感知,网站方一般会把热门视频复制多个副本,存放在多个服务器上。想象一下,最近有个热门电视剧《庆余年》,如果没有副本全国只有一个服务器,上亿的用户都来访问这个资源,大声地告诉我,这个视频卡不卡顿?答案是,不仅是卡,网站肯定瘫痪,拒绝访问。

这里就有个关键点,即:热门视频会复制多份,冷门视频可能只有1份。

那视频所占的空间应该是:单个视频大小*副本份数。

那这个视频有几个副本呢?同样实验走起:

点击对应视频资源,查看header信息,如上图所示,这个资源的域名是v1- ,所在的服务器IP是223.111.19.3。

看不懂?别急。简单普及下,域名和IP存在对应关系,这种对应关系由DNS来完成(我的其他文章里有普及过)。网站方的调度都是通过域名来调度的,而不是通过IP地址。为啥呢,一是IP多难记啊,一串数字;二是IP经常变,而域名稳定。

总之,记住一句话,域名是网站方调度的最小单位

那我们来看看这个域名对应几个服务器?记住一个命令nslookup:

这里我测试的网络环境是江苏移动的网络,所以dns服务器是移动的dns地址,数一下有多少个IP?一共13个。

至此,得出一个结论:我这个视频在江苏移动网络内有13个副本。同样电信可能也会有13个,大家可以自行测试。

这里,我只想阐述一个副本数量的概念。具体容量大家可以自行估算一下。


很自然,会有第3个问题:

这些视频存放在哪儿?

同样实验走起,我们看看这个Chrome抓包上能发现点啥?

看见没,有个jiangsuyidong Cdn字样(我理解是,江苏移动CDN)。

没错,视频是放在CDN网络上承载的。

这里涉及一个CDN的概念,简单来讲就是,网站方会把视频内容复制多个副本,放在多个CDN网络节点中,在南京放一份,在苏州也放一份。这样一来,南京的用户就访问南京的节点,苏州的用户就访问苏州的节点,互不干扰,确保用户访问离自己最近的网络服务器,这样就保证了视频不卡。


除了上面提到的江苏移动CDN,国内还有网宿、华为、七牛云、金山云等CDN厂家。


通过我的抓包分析,今日头条视频(含抖音、西瓜视频),分布在中国移动、网宿、金山云、白山云、阿里云等CDN网络承载。


写在最后

其实在我看来,储存技术的发展,容量大小已不是关键问题(看看各个网盘厂家动不动就送几个T);带宽问题是影响网站方成本投入的重要因素。另外,最关键技术是网站方的视频内容如何与CDN厂家的承载网络协同和调度。


诚邀您关注,随手一关注,一起聊聊互联网那些事。


一腚温柔


很多朋友可能对于像阿里巴巴,腾讯,百度以及字节跳动这样的公司,这些公司每天存储的数据量非常庞大,可以达到TB级别。但是他们给我们的感觉是,无论我们在这些平台中产生什么样的内容,多大的数据量,他们都能够装得进去,好像他们的服务器容量是无限的。这是为什么呢?


其实对于技术感兴趣的朋友可能会了解到,像这些公司他们一定使用的是一种叫做分布式存储的技术方案。


分布式存储

分布式存储的技术思想其实在10多年前就已经有了,这是因为当时的谷歌也面临着存储海量网页的问题,当时他们在内部试行了一套系统,后来被证实是可用的。于是他们在2010年,公开发表了三篇论文,分别是Google big table、Google file system以及Google mapreduce。那么这其中的Google file system就是现如今各种分布式存储方案的核心思想。


这张图就展示了HDFS的一个版本,它就是一个分布式的文件存储系统。我们可以看到,中间的每个namenode都有三个箭头指向最下一层的datanode,这是什么意思呢?NameNode其实并不直接存储数据,直接存储数据的是下面的三个datenote,也就是数据分片。而且我们要查询数据的时候,也是从这些数据分片上把数据提取出来,然后进行整合反馈给我们这些用户,就这样形成了一个闭环。


简单来说就是在存储数据的时候,不管是视频、图片还是文本内容等等这些数据,我们都可以把这些海量的数据,将其进行切分,然后放在不同的服务器中去存储。因为每一个datenode就代表一台服务器,而且因为整个分布式的架构又是高可用的,它可以横向的无限拓展,那么也就意味着datanote可以拓展无限个。就这样,通过分布式的一个思想,我们从技术层面解决了海量数据的存储问题。

字节跳动海量数据的存储

字节跳动这家公司,其实在18年,它的服务器数量已经达到了17万台,这些服务器可能分布在全国各个地方。那么发展到现在,我估计至少也有20多万台,正是由于这20对万台服务器的不断拓展,才支撑起今日头条、抖音、西瓜视频、火山小视频、悟空问答等流行社交媒体产品线上的海量数据存储。而对于我们用户来说,我们每天发视频,每天写文章上传到字节跳动的服务器,我们并没有什么感觉,原因就在这儿。


所以,只要服务器能够不断的横向拓展,理论上来说,存储是可以没有上限的。


赠人点赞,手留余香。我是小强Talk,欢迎大家关注我,和我一起共同成长进步!


小强Talk


问题:每天产生这么多的视频,头条的存储服务器得多大空间?会不会有存储极限?

回答:今日头条系的服务器,2018年的时候已经超过了17万台了,2019年或者是2020年肯定是更加高。


庞大的数据中心

大型的互联网企业例如阿里、腾讯、今日头条等企业都是采用分布式的数据中心。这些数据中心可以分布在不同的城市。例如阿里就在贵州等不同的城市都有数据中心的分布。

而且,越是大型的企业就会购买越多的服务器,并且兴起更多的数据中心,第一个是因为他们需求很多的数据中心来满足企业和用户的需求;第二个是因为他们还会做备份和后备的,一旦一个数据中心出现问题就会在几毫秒之内自动切换到另外一个数据中心,保持企业运转。

所以,他们有数十万甚至更多的服务器也是正常的。

分布式的设计

理论上即使是分布式的设计,都会存在极限的。但是这个极限非常大,几乎没有可能达到。

你要知道,他们采用分布式的数据中心设计,可以根据需求,兴建数据中心,然后购买服务器并且重新它的数据中心,能够大规模的横向增加服务器,只有成本能够承受得起就不用担心服务器不够用的问题。

甚至有一些企业,例如百度、阿里、腾讯、华为这些甚至还会卖云服务,他们拥有大量的云资源可以给小企业使用。


太平洋电脑网


说到云服务器最早是亚马逊为了应对全球的业务,采购了大量的云服务器基本上不是所有的服务器都能满负荷的运转,于是亚马逊就产生了如何剩余的机器以及机器运行负荷不是很高的情况下获取一定的利益,这是最初云服务器最原始的需求,现在的云计算已经成为了一种核心技术,由于亚马逊这个事情做的比较早,所以在这个行业的积累最长,从全球云计算的市场份额就可以看出来,亚马逊几乎是压倒性的优势占据着市场的主导地位。

微软自从盖茨离开之后一直处于不温不火的状态,自从涉足了云计算的业务直接把这个老牌企业拉到市值第一的位置,可见云计算在未来全球科技中占据多么重要的作用,谷歌也在云计算领域投入了大量的资源,国内的阿里云依靠亚太市场整体的市场份额已经能够占据到全球前三的位置,而且排名在前三的云计算都是使用的完全自主研发的技术,所以跟进速度特别的快。

回到头条的存储服务器,可能和真正的云计算服务器还是存在一定的差距,依据头条的实力未来也不排除在这方面发力,头条的存储服务器在2018年的时候已经达到了17万台,听起来就是一个非常恐怖的数字,而且这个数字还在一直增长,随着头条业务不断的拓展未来在云上一定储备一定的技术,未来的头条的设想不但但是信息流以及短视频这么简单的事情,而且未来还将成为腾讯公司最大的竞争对手,目前的腾讯公司是国内的最大的流量企业毕竟像QQ和微信用户使用量极其的巨大。

当然在实际存储过程中还会采用分布式的技术,因为不可能把所有的数据都集中在一个服务器,想要配套相应的备份服务器,虽然服务器的数量已经非常巨大,但是也需要大量的备份服务器,一个地方的服务器数据丢失了,还能继续使用别的区域的服务器,早期的头条公司经常出现服务器宕机的情况,其中很大一个原因是服务器数量不够,很快就达到负载极限,加上早期头条公司研发能力不像现在这么强大,也代表一个企业在飞速的发展。

一般配置的服务器都是超标配置,如果因为数据空间不足,影响到用户的体验就会显得特别被动,所以头条在经历了快速发展期之后就开始大规模的部署服务器,当然也包括很多存储服务器,而且很多存储服务器部署在分布式已经被分割起来,最终哪天头条搞出来头条云也不要太过于惊讶,毕竟如此巨量的服务器一直放在那边,可以资源最大化的利用这应该是头条未来的一个重要的一个战略点,目前主要精力在于在全球范围内推广自己的头条产品矩阵,而且抖音的出海非常成功,未来科技企业战略点还是在于核心技术的积累,头条未来想要发展壮大必然也要走上这条道路,希望能帮到你。


大学生编程指南


这个问题问的太笨了,连阿里、腾讯都还没有叫喊存储服务器的存储极限,头条比他们俩互联网大佬晚成立很多年,这么点视频文件,距离“极限”还早着呢。

你是不是以为头条有视频原创频道,因为都是网友自制视频上传,所以皇帝不急太监急,开始替头条担心服务器存储不够用?那么视频网站怎么玩的?谷歌旗下的 YouTube也基本上都是网友上传的视频,它成立于2005年,迄今已经十四年了, YouTube也没有担心存储服务器会不够用啊。中国也有好几个成立很早的视频网站,优酷、六间房、腾讯视频、爱奇艺等,优酷算是其中最早的大佬,成立于2006年,今天的它是和土豆网合并的规模,虽然它有购买影视剧,但网友自制上传的视频应该是占比最大的,这么多年它也没有叫喊存储服务器有极限——

回到问题上来,头条创建于2012年,迄今才七年,它的用户规模实力真正开始进入到可以叫板腾讯,可能只有三、四年,所以我想你暂时是不需要为头条拥有的存储空间担心的,至于未来,网站存储和我们电脑存储一样,可以扩展啊,我以前只是电脑一个硬盘,最大1T、2T,可现在我购买了一个外置硬盘柜,插了四个硬盘,我现在总共有将近十个T的存储空间。网站也可以如此,可以扩展,所谓网站的数据中心,像谷歌那样的世界级互联网公司,是在全世界各地建造数据中心,尤其在北欧那里,那里寒冷,数据中心可以依靠自然界的气温进行降温,成本节省不少。中国的贵州有一阵子报道很多公司都在那里建立数据中心,据说也是那里的自然条件适合建造数据中心。所以,大体上可以这样下结论,无论个人玩电脑还是互联网公司玩网站,钞票可能有极限,存储空间不存在极限,前者靠赚,不容易,所以有极限,后者靠钞票去投入,只要有钱,你可以无限制的扩展你的数据中心。


天淞子



理论上有极限,实际上不会轻易触及


因为有硬件设备的限制,所以任何服务器都是有极限的,但是作为互联网企业的命根子,企业绝对不会让自己的服务器触及到这个极限,实际上一个业务做得大的互联网企业,自然在服务器数据管理方面也需要做得比较好,不然业务是没办法正常开展的。

比如谷歌,它的接入的是全球的数据,毫无疑问每天产生的数据量异常大,但是也也没听过其到达服务器承载量上限的说法,那是因为它在全国各地分布有数据中心,其中仅位于洛华州康斯尔布拉夫斯市的数据中心面积空间就超过115000平方英尺。

这样一对比下来,似乎头条在数据的处理方面就显得没那么艰难了。实际上,作为字节跳动旗下的重要产品,今日头条、抖音等接受着字节跳动超17万台服务器的硬实力支撑,这个体量在国内甚至国际上也是相当大的。


分布式数据中心

和谷歌的数据中心类似,字节跳动等大型互联网企业的网络一般可以分为数据中心内部网络和WAN网,它们的数据中心会分布在全国各个城市,甚至是海外各个城市,各个数据中心又分别和运营商的网络进行对接,这样就避免了所有的业务积压在同一个数据中心,有效分摊了巨大的数据压力。

企业也可以根据业务的扩张,更加灵活地发展各地的数据服务分中心,所以从这个角度看,今日头条的数据中心也可以说是没有存储极限的。


根据流量的方向,我们又可以将WAN网分为内网和外网。

内网是各个数据中心之间互联的网络,用来连接互联网企业在地理上分布的多个数据中心,我们可以通俗地理解为各个数据中心互联的专属网络。而外网则是面向互联网用户访问的网络,用来提供面向用户的各种云服务,比如搜索、视频、文字资讯、下载支持等等。

字节跳动的数据中心扩张速度很快从2017年年初的2、3万台,到截至去年年底的17万台,这样的速度和规模确实非常让人惊讶。系列新技术的应用也为字节跳动取得了多个国内“首个”的头衔,国内首个大规模分布式全预制、国内首个大平层预制框架结构、国内首个整体电源模块预制、国内首个间接蒸发自然冷却模块、国内首个计算模块一体化预制……


这些硬核的实力便是今日头条得以有效处理每日产生的巨大的数据信息的秘密。


强大的数据分析处理能力


当然了,数据储存只是数据服务中心的重要作用之一,字节跳动的数据处理能力在众多互联网企业里面也是名列前茅的。推荐系统和审核系统是使字节跳动在众多资讯平台中脱颖而出的关键,这个关键让其不再只是简单的新媒体资讯平台,而是为其融入了更多的AI含义,这一切得益于数据中心先进的处理分析技术。


字节跳动取得的成绩,从小的方面说,丰富了我们的精神娱乐生活,从大的方面说,展现了中国互联网发展市场的潜力,同时也意味着中国数据中心技术的进步。


赵广亚


有没有这种可能,就像英文26个字母,分布26台服务器,访问时电脑自动提取组合,这样不就永远装不满了,以现在电脑数亿次计算能力,组个数据不是毫秒的事。



来193619392


    淘宝、今日头条等这些互联网公司,大部分采用了分布式存储方案,存储空间可以弹性增加,自由扩展,可以说没有存储的极限。在介绍分布式存储之前,首先说一说集中存储。


    集中存储

    一个中小型公司,大部分采用了集中存储方式,也就是整个存储集中到一个系统中,为了增加系统的可靠性,可能采用了两地三中心的备份方案。集中存储并不是一个独立的设备,而是集中到一套系统中的多个设备。


    集中存储的架构

    集中存储包含了很多组件,比如控制器、磁盘阵列、交换机等,还有管理设备等辅助设备,下图显示了一个集中式存储的基本逻辑图。

    集中存储的核心部件是机头,包含了两个控制器,互为备份,避免硬件故障导致整个存储系统不可用。控制器分为前端端口和后端端口,前端端口为服务器提供存储服务,后端端口用户扩充存储容量,后端端口连接存储设备,形成一个非常大的存储资源池。


    简单来说,集中式存储最大的特点就是有一个统一的入口,所有的数据都要经过整个入口,对应存储系统的机头。


    分布式存储

    分布式存储最早由谷歌提出,目的是通过廉价的服务器提供大规模、高并发场景下的应用。下图显示了谷歌分布式存储的简化模型,整个系统将服务器分为两种类型:namenode存储管理数据(元数据),datanode负责实际数据的存储。

    读取过程为,首先从namenode中获取该文件的位置,然后从datanode中获取具体数据。通过横向扩展datanode的数量,就可以增加承载容量,实现了动态横向扩展的能力。


    无中心架构的分布式存储

    谷歌的分布式存储架构,仍然有中心节点,即负责管理元数据的namenode节点。

    Ceph存储架构的分布式存储,完全没有中心节点,客户端通过一个设备映射关系计算写入数据的位置,客户端直接与存储节点通信。Ceph存储架构如下图所示。

    在Ceph存储架构中,有Mon服务、OSD服务、MDS服务等。客户端访问存储设备的流程为:首先从Mon服务中读取存储资源布局信息,然后计算出期望的数据位置,包括物理服务器信息和磁盘信息,然后直接通信,读取或者写入数据。


    以上就是集中式存储和分布式存储的区别,大型的互联网公司通常采用了去中心化的分布式存储技术,对存储容量可以横向扩展,技术上来说“永远存不满”。

如果觉得对你有帮助,可以多多点赞哦,也可以随手点个关注哦,谢谢。

Geek视界


头条和抖音产生最多的文件为视频,图片,这些传到服务器后一般不会经常修改,被称为静态文件,静态文件如视频、图片、音频等的存储一般使用对象存储,公有云如aws s3,阿里云的OSS,私有云如openstack,不确定头条具体是使用公有云还是自己搭建的私有云,也有可能是混合云。。



分享到:


相關文章: