克服大数据集群的挑战-白红宇

数据存储曾经是大数据的最大挑战。由于云计算基础设施的进步，存储数据不再是关键问题。如今，数据科学家所面临的最大问题是数据收集。

集群化使得大数据分析更容易。然而，集群也给数据工程师带来了必须解决的问题。

什么是数据集群?

数据集群的概念可追溯到至少20年前。美国俄亥俄州立大学计算机科学和工程系教授Anil Kumar Jain博士在他的白皮书之一中对这一术语进行了很好的描述：

“集群是模式(观察，数据项或特征向量)到组(集群)的无监督分类。集群问题在许多领域和许多学科的研究人员那里都得到了解决;这反映了其广泛的吸引力和实用性，作为探索性数据分析的步骤之一。然而，集群的组合是一个困难的问题，不同社区的假设和背景差异使得有用的通用概念和方法的传递变得缓慢。“

换句话说，数据工程师使用集群来识别原始数据中的趋势和模式。他们需要将其分解成群集。

数据集群的主要挑战是什么?

自从大数据的概念诞生以来，集群一直是一个挑战。这个问题源于数据量和处理限制。拉巴特大学列出了大数据集群的首要关注点。

(1) 数量

大多数网络上存储的数据量呈指数级增长。随着数据量的增加，提取数据变得更加困难。备份数据也可能放大这些问题。

(2) 速度

数据生成的速度是数据科学家面临的另一个集群挑战。这个问题不仅限于网络上的数据量。当网络以前所未有的速度生成新数据时，他们将很难实时地提取它。

造成的问题是双重的：

新的模式将不断地从已知的数据集涌现。数据分析师可能认为他们很难从数据中得出准确的结论，而事实上，他们的分析更能代表他们所建模的问题。他们可能不知道什么时候分析他们现有的数据集，以及何时等待收集更多的数据。

随着网络使用物联网(IoT)从更多的设备收集数据，他们能够以更快的速度收集数据，问题将会越来越严重。

(3) 品种

集群数据存储在许多不同的表单中，这使得很难进行精确的比较。有些数据以结构化格式存储，而其他数据集可能是完全非结构化的。

如何解决这些问题?

有各种各样的工具和策略可以简化抽取和分析集群数据的过程。

(1) K均值集群

K均值集群方法是一种基于分组的解决方案，需要网络将对象分配给一个集群。这消除了单个对象可能通过出现在多个数据集中而偏离分析的担心。

(2) 无监督分类算法

无监督分类算法是基于预定义参数合并非常大的数据集的数据挖掘工具。这是处理日益增长的数据量的一个很好的解决方案，特别是使用强大的Hadoop工具。

(3) COALA

COALA使用实例级约束来避免类似分组引起的问题。不需要满足100%的约束条件。

(4) 降低维度

每个数据有两个维度：

随着变量数量的增加，总数据量呈指数增长。可以通过使用降低维度策略(也就是所谓的降维变换)来缓解问题。

确定数据集群挑战的新解决方案

数据集群是解决存储大量结构化和非结构化数据所带来的许多问题的解决方案。然而，这不是一个可靠的解决方案，因为数据仍然需要尽可能快速准确地被访问和分析。幸运的是，有一些很好的工具和方法可以简化流程。

本文作者：Ryan Kh

来源：51CTO