数据可靠性:存储系统的基石

Grace Wang
Fog Works Inc.
Published in
Jan 19, 2024

本文摘自Fog Works于2024年1月16日主办的Web3咖啡屋聊天,聚焦于2024年不容错过的DePIN去中心化存储领军者 — DMC。

在讨论中,Felicia (VP of Fog Works)引发了关于数据可靠性和可访问性的深入对话。她提出了一个问题:“在当前数据安全受到黑客攻击和恶意行为威胁的环境中,用户如何确保自己的数据安全?对于对数据检索、分发和访问有着高要求的用户,例如摄影师,我们作为新一代的存储领军者能做出什么贡献?”

刘智聪(DMC联合创始人,原迅雷首席工程师)在回答这个问题时分享了他的过往经验:“我想谈谈关于数据可访问性的主题,以及在我2013年和2014年参与的一个我们称之为Decentralized Internet或Web3的项目中的一些经历。那时,虽然我们没有特别强调去中心化的必要性,但我在迅雷的工作让我对此有了深刻的理解。迅雷利用P2P节点运营了流量巨大的‘迅雷看看’视频网站,那个时候邹胜龙经常很引以为傲的说,如果说比烧钱的话,谁都不是我们的对手,因为迅雷看看本身的很多流量来源于P2P。

当时我们觉得这个东西我们自己用的这么开心,我们是不是也可以说打包给别人用,所以说其实我们当时的初心就是说要把迅雷的 P2P的节点组成一个网络,这个网络的话可以去把它上面的闲置带宽就卖给这种同样非常扣成本的其他的视频网站,但是当时的出发点其实蛮纯粹的。

现如今,当我们谈论存储系统时,很多人倾向于把存储和数据可访问性混淆。实际上,所有存储项目的核心都是在解决数据可靠性问题,也就是确保数据不丢失。你知道这个数据存在是非常重要的,但你说我这个数据存在,我是不是能够很快的访问,那是不一定的。我们从技术人员角度来讲,其实你去用来做数据备份用的介质和流程,跟你说我这个数据我要去日常使用,它的介质和流程其实并不相同,比如说我现在自己电脑的一个典型组成。我个人的电脑配置了8TB的SSD和30TB的HDD。现在游戏很大,日常游戏软件我会存储在SSD上,而重要数据则存储在HDD上,因为我知道机械硬盘其实它完全损坏的概率其实是要小过SSD的。

其实我们今天做存储项目,我们做DMC也是一样,就我们做驱动存储也是这样。首先我们如果说不能去解决数据的去中心的可靠性问题,你在这个上面去谈它的可访问性问题,其实是一个雾里看花,就说优先级不能搞反,我们必须得先把可靠性问题解决好,只有世界上有足够多的人愿意在自己的设备或介质上保存数据,我们才能进一步讨论数据的可访问性,去谈是否说这个数据能够有很好的访问速度,我们可以给你更多的这些激励。其实这两个事情对用户来讲都很重要,但他有些我的观点是他得有先后关系,我们必须得把副本的分布性,副本的可靠性问题先解决好,然后再去解决副本的可访问性问题。

技术上,我们首先需要实现的是副本证明或存储证明,然后是传输证明。其实今天所有做存储项目的就在我的观点来看,如果说你不能够去区分这两个事情,而是说在一个项目里面同时把这两个事情解决好,通常来讲我觉得你没有做过存储,真正你做过会知道这两个系统它的 Id txt是完全不一样,所以你没有办法说用同样的技术架构或者同样的基金模型去支持这两个两个完全不同构的事情,它们之间区别就像HDD和SSD是一样的。

所以回答你的问题,一旦我们解决了文件的多副本问题或副本可靠性问题,我们就可以轻松地过渡到解决副本的可访问性问题。我们只需要加入传输证明,那些已经存储数据的节点就会自然选择如何分配他们的带宽,以优化最有价值的传输。这是我之前做过的一个经验。 ”

--

--