区块链分布式存储革命:IPFS+IPSE能挑战小发猫+Google吗?

时间:2019-08-22 来源:www.toryburchsora.com

随着云计算和金融技术的发展,文件系统架构的设计不断加强。常见的分布式文件系统包括GFS,HDFS等,以及新兴的基于区块链的IPFS/Filecoin。有些是广泛使用的,有些是开始挑战,有些是封闭源,有些是开源。它们都在不同领域和计算机开发的不同阶段的数据存储中发挥作用。那么这些分布式文件系统的优点和缺点是什么?基于区块链技术的解决方案能否调整像谷歌这样的技术巨头?

说到分布式文件系统,你必须谈谈HDFS。 Hadoop分布式文件系统(HDFS)是一种分布式,可扩展的Hadoop框架,具有高容错性和低成本部署优势。 HDFS为具有大型数据集的应用程序提供对应用程序数据的高吞吐量访问。 HDFS最初是作为Apache Nutch Web搜索引擎项目的基础结构构建的,现在是Apache Hadoop子项目。

t01a12695d6a35d441f.jpg

最初,雅虎推出了Hadoop分布式文件系统,以增强其广告服务和搜索引擎功能。由于其明显的优势,Facebook,eBay,LinkedIn和Twitter都使用它来处理不断增长的应用程序数据,而纽约时报则用于大规模图像转换。 2006年,Hadoop的创始人将HDFS交给了Apache Software Foundation。 2009年6月,雅虎为开源社区提供了Hadoop开源源代码。截至2013年,Hadoop应用程序已经变得非常普遍且非常成功:超过一半的财富50强公司使用Hadoop。

实际上,HDFS主节点的“数据分块”属性借鉴了Google文件系统(GFS)和小发猫的GPFS的设计。尽管谷歌的算法遭到攻击,但雅虎已经破坏了搜索。但是HDFS已经逃脱了攻击并成为最着名的分布式文件系统解决方案之一。从搜索业务来看,雅虎“失败”而且无能为力,但从计算机数据处理和全球商业设施的角度来看,软件开源的价值是非常宝贵的。

可以说,由于开源,HDFS起源于谷歌,最后是雅虎。这是一次荣幸和成功的完美谢幕。

您可能不知道HDFS最初的灵感来自于2003年10月发布的Google文件系统论文。可以看出,Google对分布式文件系统的研究不仅早期而且行业领先。

GFS(Google文件系统),也称为Google文件系统,是一种分布?轿募低场? GFS节点分为两类:主节点和大量Chunkservers。块服务器存储数据文件,这些文件被分成固定大小的块,如公共文件系统中的簇或扇区(这也是名称的来源)。

t01b7f46f4600ea959c.jpg

过程分析:

GFS使用中央服务器模型,其中主服务器管理分布式文件系统中的所有元数据。这些文件被分为Chunk进行存储。对于Master,每个Chunk Server只是一个存储空间。客户端启动的所有操作都需要由主服务器执行。

Google的核心要求是数据存储和使用。最初的GFS主要用于搜索引擎服务,最终成为云计算战略的一部分。如果你想评估GFS,可以毫不夸张地说出任何美丽的话,因为GFS从概念和设计两个方面都是划时代的。

随着谷歌的发展,它通过搜索,流媒体和云服务接管了数据。渐渐地,GFS的单点损害和效率严重限制了谷歌的下一步措施。

2013年,谷歌宣布将Colossus(字面意思是“巨人”)项目作为下一代Google文件系统。它的使命只有一个:效率。其最重要的功能之一是元数据层的自动分段。

2017年,Google国际并行数据系统研讨会(PDSW),高级软件工程师Denis

●一台机器不足以进行大型文件存储

●元数据操作中的单一瓶颈

●容错性不够高

●延迟问题(虽然可以预见)

因此,GFS主节点只能由Colossus替换。 Colossus存储效率对于优化Google的产品非常有用,它体现在:

●元数据扩展可以阻止资源

●能够组合不同大小的磁盘和各种类型的工作负载

●平衡和热分布和冷数据的新分布

Colossus是一个进化版本,而不是一个全新的版本。 Colossus重新平衡旧的冷数据并在磁盘上分发新数据。通过这种方式,像Youtube这样的视频平台,大量的数据存储和回放要求,将在分布式系统中以最快的方式传达给用户。

温馨提示:什么是冷数据?热门数据?

数据冷热管理是一个非常重要的部分。例如,小发猫将开发一种解决方案来衡量数据的“温度”,并协助开发包含数据的运营和业务决策。

热数据:是指经常访问的数据,它们通常存储在快速存储器中。

温度数据:指以较低频率访问的数据,它们存储在相对较慢的存储器中。

冷数据:很少访问的数据,它们存储在企业中最慢的内存中。

小发猫通用并行文件系统(GPFS)是一种面向企业的文件系统,它取代了HDFS。

t0180950e3083e4c711.jpg

根据小发猫的官方描述,GPFS支持数千个节点和数PB的存储,并且数据在多个节点上复制,因此没有单点故障。这位官员并没有忘记处理HDFS的单点故障。小发猫单点故障的解决方案是在节点发生故障时将更改复制到其他节点,GPFS将快速确定要恢复和恢复的块。节点崩溃时发生的更改还会将复制还原到上一个节点,以便节点与群集已创建的其他节点同步。

与传统阵列相比,小发猫还使用新的阵列技术(GPFS Native RAID)将损坏数据的重建和资源消耗减少了三到四倍。由于GPFS是跨群集管理的,因此整体系统性能较少依赖于为单个节点重建存储阵列的速度。这使得规模磁盘管理,镜像,基于策略的自动化和灾难恢复成为GPFS的一个关键特性。

GPFS专为大规模高性能计算和大规模存储环境而设计,可跨多个服务器分发和管理数据。 GPFS集群之间的共享文件系统更高效,提高了系统性能和文件一致性,提高了数据可用性和系统灵活性,并简化了存储管理。

2015年,小发猫将其名称更改为GPFS为Spectrum Scale,并成为小发猫Spectrum Storage的一部分。下图显示了小发猫的官方架构:

t010f7547064f3177d0.jpg

小发猫Spectrum Scale是一种高级存储管理系统,适用于云计算,大数据,数据,对象等非结构化数据,具有许多功能:高可扩展性,高吞吐量,低延迟,数据感知和智能管理,全局协作使用身份验证和加密以确保数据完整性和安全性。在官方网站上,小发猫表示“企业组织的底层存储必须支持大数据和人工智能工作负载以及传统应用程序的新时代,同时确保安全性,可靠性和高性能。”小发猫Spectrum Scale作为高性能大规模数据管理解决方案诞生于此。

它也可以在Amazon Web Services上使用。可以看出,小发猫不愿意成为仅存储文件的文件系统,而是将数据存储为基础设施的数据经济系统。降低存储成本不再是首要任务。全球管理,全球共享和人工智能都是小发猫数据经济转型的良好前景。

IPFS(行星际文件系统)是一种点对点分布式存储和超媒体传输协议,它使用内容寻址进行数据分发。 IPFS依靠分布式全球网络节点来形成分布式系统,使网络更加安全和高效。 IPFS是一个开源项目。创始人是斯坦福大学的Juan Benet。他建立了协议实验室协议实验室,并领导了IPFS,Filecoin和其他协议的开发。

t01976de32db388abe8.jpg

IPFS旨在将全球计算设备连接到同一文件系统,并且是分布式和结构化的。 IPFS提供高吞吐量,内容可寻址的块存储模型,对于IPFS和不需要相互信任的节点没有单点故障。为了激励更多的节点,IPFS正式发布了一个由加密数字货币驱动的分布式存储网络 - Filecoin建立在IPFS协议上,这是IPFS的激励层。

Filecoin正在建立一个分散的存储市场,客户支付FIL来存储数据,矿工(存储节点)提供硬盘空间来存储FIL奖励的数据。这是它的基本经济模式。

t01f3364503e831d604.jpg

Filecoin的DSN市场

Filecoin文件通过散列算法安全地存储在分布式节点上,并通过点对点传输。存储节点不知道存储的数据副本是什么,因为Filecoin使用端到端加密。由于分布式散列路由,IPFS也具有高度容错能力,如上面的HDFSGPFS系统。

但关于Filecoin最突出的是它是区块链技术中的分布式文件系统,这意味着它是一个分散的架构。没有集中的服务器控制,没有单点故障(这并不意味着它不会发生,但是有一个特殊的修复机制),不需要中间人,节点之间不需要第三方来保证信任。 Filecoin是一个透明,开发和可信赖的网络。区块链是它的信任链。在链中,数据交易都是可用的。基于Filecoin的文件版本控制机制,文件是可追踪的,并解决了大量重复的存储和冗余问题。

作为一个分散的存储网络,设计了一个共识的存储证明,以及Filecoin和Sia等网络。但是,Filecoin设计了一种名为PoRep(复制证明)的新证明机制来证明机器存储了数据。还有PoST(时间和空间证明),用于锚定存储的数据和时间戳,证明矿工一次存储数据。依靠两种算法机制有效地防止数据欺诈,欺骗和诸如女巫攻击等其他行为。 Filecoin存储网络的最大特点是安全性。

截至2019年8月,Filecoin的主要网络不在线。根据官方路线图,预计在线时间为2019年第三季度/第四季度,代码冻结将(必填)并在网上申请美国审核。从一个角度来看,Filecoin还没有真正进入全球云存储市场,但其设计将为分布式文件系统带来新的解决方案。

Filecoin是官方IPFS激励层。同样在IPFS生态系统中,IPSE负责IPFS应用程序搜索层。 Filecoin重新存储,IPSE重新搜索。但这并不意味着Filecoin网络没有搜索。事实上,搜索市场也是其数据验证的关键部分。将IPSE归类为分布式搜索也是不可能的,因为它还具有底层存储方案。

t0148b1a97436b32398.jpg

IPSE的分布式存储结构和共识机制

为了使分布式节点数据达到最快速度,IPSE采用效率优先原则。基于区块链共识机制PoST(生命证明)和数据保持证明PDP,数据被安全地存储在磁盘介质上。但是,为了实现更好的存储安全性,IPSE数据以多个副本存储并分布在多个节点中。如果矿工无法为受质疑的数据切片完成PDP拥有证书,则将受到惩罚。对于陈旧数据,IPSE使用智能嗅探和定期任务分配来同步数据保留与机器硬件寿命。

为了访问数据,依靠强大的搜索引擎,IPSE数据索引可以在分布式节点网络上获取数据。从数据源 - 数据存储 - 数据检索 - 数据访问,构建了完整的数据生命过程。

总结IPFS/IPSE分布式架构的优势:

●分权

●分布式节点网络,无单点问题

●加密技术可保护数据完整性和安全性

●存储成本和传输成本远低于集中式系统

●认证奖励

除上述网络外,分布式文件系统解决方案还包括:Sia和Sotrj。它们都创建了一个存储空间,用于租用和支付通行证,分散,数据是私有的,存储是加密的。目前,Sia已经上市,Storj仍处于Alpha 4开发阶段。

分布式文件系统最初设计用于响应不断增加的数据大小,并且出现了不同的解决方案。有一些由谷歌和小发猫设计的系统,例如传统技术公司,以及开源并由公众使用的系统。

他们都希望实现满足PB级存储,高吞吐量,最低访问延迟,快速部署和低成本应用程序的目标。

它们都使用相同或相似的技术架构和思想:集群系统,节点管理系统,可扩展结构,复制备份,容错管理。

一致的事务处理,通信资源消耗,复杂的数据访问结构,数据安全性和机密性。

因此,只要商店存在,机遇与挑战并存。

毫无疑问,与通用文件系统相比,分布式文件系统非常适合大规模数据集应用,为企业组织的业务部署带来成本和管理优势。但是,如果追求效率,那么就必须牺牲数据丢失和安全性。如果您注重安全,效率会受到影响。如果问,哪个分布式文件系统最好?封闭源或开源?如何选择集权和分权?

找到分布式文件系统的最佳答案并不如查看计算机网络开发的三个主要阶段。

t01dd77402a846d04a5.jpg

第一阶段,集中式网络。这是第一个计算机网络。它们由主计算机(服务器)代表,并且还有许多其他计算机连接到它。结果,如果主计算机上的信息被擦除或丢失,则数据从整个网络中消失。

第二阶段,分散网络。这意味着有多个主服务器连接到多个辅助服务器。因此,其中一个服务器的问题不会影响整个网络。缺点是控制主服务器控制相关数据。

第三阶段,分布式网络。我们目前正在目睹新的革命性计算机网络的兴起,其中分布式网络节点中的所有计算机都作为对等体存在并且是互连的。如果其中一个节点出现故障或崩溃,则数据信息仍将在网络中的其余计算机节点上可用(直到最后一个节点关闭)。

传统的分布式文件系统(无论是Google的闭源GFS还是开源HDFS)在效率和应用方面都具有实际优势。但他们都摆脱了集中式结构。结果,出现了安全和信任问题。随着计算机网络进入新阶段,分布式存储文件系统的技术要求将更高,同时在开发难度和易用性之间取得平衡,并且在部署中具有更好的成本优势。这意味着新老替代品的革命是不可避免的。基于区块链技术的分布式文件系统(如IPFS/Filecoin/IPSE/Sia)提供了一个透明且可信赖的网络,可以演示不同的数据模式。尽管这些网络仍处于大规模商业规模的探索和初步实践阶段,但他们敢于挑战谷歌和小发猫等传统技术公司,不仅是云存储,还有整个互联网和离线数据模型。这个行业将不可避免地洗牌。

参考

●HDFS简介

●《GFS谷歌文件系统论文(2003)》

●Google高级工程师Denis Serenyi《Cluster-Level Storage at Google,How we use Colossus to improve storage efficiency?》

●小发猫Spectrum Scale 5.0.0:管理指南

●《小发猫红皮书:小发猫Spectrum Scale (formerly GPFS)》

●IPFS星际文件系统技术文档

●IPSE技术黄皮书

●Sia白皮书

●Filecoin白皮书