:很容易描述(但不太容易做到)。 现在,存储和利用大数据这一巨大数据积累的方式可以是多种多样的。 传统上,公司存储数据的方式之一是所谓的数据仓库。 然而,近年来,一种更接近大数据概念的新数据存储方式正在赢得追随者:我们将其称为数据湖。 什么是数据湖? 但什么是数据湖? 数据湖是一个数据存储库,其中数据以“原始”方式存储,几乎不进行任何处理,以便稍后在认为合适的时候使用
继续我们的石油类比,我们可以说,在数据湖中,数据是“原始”存储的,就像它们 手机号码数据 “从地下出来”一样,没有“提炼”。 数据湖由各种类型的数据提供,具有不同的结构(它们也容纳结构化数据)并且来自异构源。 关键概念是“存储”; 这个想法是保存数据,以便在必要时可以处理和使用它们。 现在,并不是所有事情都像把它们 扔进容器那么简单
个标识符和扩展元数据标签,以便可以轻松识别和检索。 然而,正如我们将在下面看到的,这种处理比数据仓库中使用的数据所接收的处理要基本得多。 数据湖与数据仓库有何不同? 可以说,主要区别在于数据的数量和“提炼”。 在数据仓库中,数据将根据其用途进行结构化或区分; 只有我们将用于试图实现的特定目标的数据才会有一席之地。 此外,它们将被预先处理,以便系统可以使用它们并提取有用的信息。
|