博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
克服大数据集群的挑战
阅读量:5778 次
发布时间:2019-06-18

本文共 1322 字,大约阅读时间需要 4 分钟。

数据存储曾经是大数据的最大挑战。由于云计算基础设施的进步,存储数据不再是关键问题。如今,数据科学家所面临的最大问题是数据收集。

集群化使得大数据分析更容易。然而,集群也给数据工程师带来了必须解决的问题。

什么是数据集群?

数据集群的概念可追溯到至少20年前。美国俄亥俄州立大学计算机科学和工程系教授Anil Kumar Jain博士在他的白皮书之一中对这一术语进行了很好的描述:

“集群是模式(观察,数据项或特征向量)到组(集群)的无监督分类。集群问题在许多领域和许多学科的研究人员那里都得到了解决;这反映了其广泛的吸引力和实用性,作为探索性数据分析的步骤之一。然而,集群的组合是一个困难的问题,不同社区的假设和背景差异使得有用的通用概念和方法的传递变得缓慢。“

换句话说,数据工程师使用集群来识别原始数据中的趋势和模式。他们需要将其分解成群集。

数据集群的主要挑战是什么?

自从大数据的概念诞生以来,集群一直是一个挑战。这个问题源于数据量和处理限制。拉巴特大学列出了大数据集群的首要关注点。

(1) 数量

大多数网络上存储的数据量呈指数级增长。随着数据量的增加,提取数据变得更加困难。备份数据也可能放大这些问题。

(2) 速度

数据生成的速度是数据科学家面临的另一个集群挑战。这个问题不仅限于网络上的数据量。当网络以前所未有的速度生成新数据时,他们将很难实时地提取它。

造成的问题是双重的:

  • 新的模式将不断地从已知的数据集涌现。数据分析师可能认为他们很难从数据中得出准确的结论,而事实上,他们的分析更能代表他们所建模的问题。他们可能不知道什么时候分析他们现有的数据集,以及何时等待收集更多的数据。
  • 如果数据的创建速度比提取的它速度快,那么当他们试图收集数据时,趋势可能会发生变化。

随着网络使用物联网(IoT)从更多的设备收集数据,他们能够以更快的速度收集数据,问题将会越来越严重。

(3) 品种

集群数据存储在许多不同的表单中,这使得很难进行精确的比较。有些数据以结构化格式存储,而其他数据集可能是完全非结构化的。

如何解决这些问题?

有各种各样的工具和策略可以简化抽取和分析集群数据的过程。

(1) K均值集群

K均值集群方法是一种基于分组的解决方案,需要网络将对象分配给一个集群。这消除了单个对象可能通过出现在多个数据集中而偏离分析的担心。

(2) 无监督分类算法

无监督分类算法是基于预定义参数合并非常大的数据集的数据挖掘工具。这是处理日益增长的数据量的一个很好的解决方案,特别是使用强大的Hadoop工具。

(3) COALA

COALA使用实例级约束来避免类似分组引起的问题。不需要满足100%的约束条件。

(4) 降低维度

每个数据有两个维度:

  • 变量
  • 实例

随着变量数量的增加,总数据量呈指数增长。可以通过使用降低维度策略(也就是所谓的降维变换)来缓解问题。

确定数据集群挑战的新解决方案

数据集群是解决存储大量结构化和非结构化数据所带来的许多问题的解决方案。然而,这不是一个可靠的解决方案,因为数据仍然需要尽可能快速准确地被访问和分析。幸运的是,有一些很好的工具和方法可以简化流程。 

本文作者:Ryan Kh

来源:51CTO

转载地址:http://ldyyx.baihongyu.com/

你可能感兴趣的文章
Linux-grep命令
查看>>
exgcd、二元一次不定方程学习笔记
查看>>
经典sql
查看>>
CSS3边框会动的信封
查看>>
JavaWeb实例设计思路(订单管理系统)
查看>>
source insight中的快捷键总结
查看>>
PC-IIS因为端口问题报错的解决方法
查看>>
java四种线程池简介,使用
查看>>
一般处理程序(.ashx)中session的使用方法
查看>>
EasyUI笔记(二)Layout布局
查看>>
ios View之间的切换 屏幕旋转
查看>>
typedef BOOL(WINAPI *MYFUNC) (HWND,COLORREF,BYTE,DWORD);语句的理解
查看>>
jsp 特殊标签
查看>>
[BZOJ] 1012 [JSOI2008]最大数maxnumber
查看>>
gauss消元
查看>>
多线程-ReentrantLock
查看>>
数据结构之链表与哈希表
查看>>
IIS7/8下提示 HTTP 错误 404.13 - Not Found 请求筛选模块被配置为拒绝超过请求内容长度的请求...
查看>>
http返回状态码含义
查看>>
响应式网站对百度友好关键
查看>>