2019年大数据的10大发展趋势

2019-02-13 06:03:20

点击上方“蓝色字体”，选择 “设为星标”

[原文来自：www.ii77.com]

关键讯息，D1时间送达！

[好文分享：www.ii77.com]

如今，人们寻求获得更多的数据有着充分的理由，因为数据分析推动了数字创新。然而，将这些庞大的数据集转化为可操作的洞察力仍然是一个难题。而那些获得应对强大数据挑战的解决方案的组织将能够更好地从数字创新的成果中获得经济利益。

2019年大数据的10大发展趋势

考虑到这个基本前提，以下是组织在2019年应该关注的大数据的10个发展趋势：

1.数据管理仍然很难

大数据分析有着相当明确的重要思想：找到隐藏在大量数据中的信息模式，训练机器学习模型以发现这些模式，并将这些模型实施到生产中以自动对其进行操作。需要清理数据，并在必要时进行重复。

然而，将这些数据投入生产的现实要比看上去困难得多。对于初学者来说，收集来自不同孤岛的数据很困难，需要提取、转换和加载(ETL)和数据库技能。清理和标记机器学习..的数据也需要花费大量的时间和费用，特别是在使用深度学习技术时。此外，以安全可靠的方式将这样的系统大规模投入生产需要另外一套技能。

出于这些原因，数据管理仍然是一个巨大的挑战，数据工程师将继续成为大数据团队中最受欢迎的角色之一。

2.数据孤岛继续激增

这个预测并不困难。在五年前的Hadoop开发热潮中，人们认为可以将所有数据(包括分析和事务工作负载)整合到一个..上。

出于各种原因，这个想法从未真正实现过。其面临的最大挑战是不同的数据类型具有不同的存储要求。关系数据库、图形数据库、时间序列数据库、HDF和对象存储都有各自的优缺点。如果开发人员将所有数据塞进一个适合所有数据的数据湖中，他们就无法最大限度地发挥其优势。

在某些情况下，将大量数据集中到一个地方确实有意义。例如，像S3这样的云数据存储库为企业提供了灵活且经济高效的存储，而Hadoop仍然是非结构化数据存储和分析的经济高效的存储。但对于大多数公司而言，这些只是必须管理的额外孤岛。当然，它们是重要的孤岛，但它们不是唯一的。

而在缺乏强大集权的情况下，数据仓库将会继续激增。

3. 流媒体分析的突破性的一年

组织处理新数据越快，业务发展就会越好。这是实时分析或流式分析背后的推动力。但组织一直面临的挑战是要真正做到这一点非常困难，而且成本也很高，但随着组织的分析团队的成熟和技术的进步，这种情况正在发生变化。

NewSQL数据库、内存数据网格和专用流分析..围绕通用功能进行融合，这需要对输入数据进行超快处理，通常使用机器学习模型来自动化决策。

将它与Kafka、Spark和Flink等开源流式框架中的SQL功能相结合，组织就可以在2019年获得真正的进步。

4.数据治理不善将带来风险

有些人将数据称之为“新石油”，也被称为“新货币”。无论是什么样的比喻，大家都认为数据具有价值，并且如果对此不重视将会带来更大的风险。

欧盟通过去年颁布的GDPR法规阐明了数据治理不善的财务后果。虽然美国还没有类似的法律，但美国公司仍然必须遵守由美国联邦、各州等创建的80个不同的数据制授权法规。

数据泄露正在引发问题。根据Harris Poll公司进行的一项在线调查，2018年有近6000万美国人受到身份盗窃的影响。这比2017年增长了300%，当时只有1500万人表示受到了影响。

大多数组织已经意识到无序发展的大数据时代即将结束。而很多国家和地区的政府对数据滥用或隐私泄露行为不再容忍。

5.随着技术的发展，技能也在转变

人力资源通常是大数据项目中的最大成本，因为工作人员最终构建并运行大数据项目，并使其发挥作用。无论使用何种技术，找到具有合适技能的人员对于将数据转化为洞察力至关重要。

而随着技术的进步，技能组合也是如此。在2019年，人们可以看到企业对于神经网络专业人才的巨大需求。在数据科学家(而不是人工智能专家)的技能中，Python仍然在语言中占主导地位，尽管对于R、SAS、Matlab、Scala、Java和C等语言还有很多工作要做。

随着数据治理计划的启动，对数据管理人员的需求将会增加。能够使用核心工具(数据库、Spark、Airflow等)的数据工程师将继续看到他们的机会增长。人们还可以看到企业对机器学习工程师的需求加速增长。

然而，由于自动化数据科学..的进步和发展，组织的一些工作可以通过数据分析师或“公民数据科学家”来完成，因为众所周知，数据和业务的知识和技能可能会让组织在大数据道路上走得更远，而不是统计和编程。

6.深度学习变得更加深入

深度学习的发展为人工智能的应用提供了更多的动力，在2019年没有任何减缓的迹象。组织将继续尝试深度学习框架，如TensorFlow、Caffe、Keras、PyTorch和MXnet，以期将大量数据集实现货币化。

组织将扩展深度学习，超越其最初的用例，如计算机视觉和自然语言处理(NLP)，并找到实现强大技术的新的和创造性的方法。大型金融机构已经发现神经网络算法比“传统”机器学习方法更能发现欺诈行为，并且将在2019年继续探索新的用例。

这也将支持对GPU的需求，GPU是..深度学习模型的首选处理器。目前还不清楚是否有新的处理器类型，包括ASIC、TPU和FPGA。但是，显然还需要更快的..和推理。

然而，深度学习生态系统将保持相对年轻，缺乏通用..将使其成为真正专家的领域。

7.“Special K”扩大了足迹

软件需要运行一些东西。用于提供通用基础的操作系统，但现在开发人员的目标要低一点：Kubernetes。

Kubernetes由Google公司开发，用于管理和协调云中的虚拟化Linux容器，在IT行业中，它已成为大数据生态系统中最热门的技术之一。随着多云和混合部署变得越来越普遍，Kubernetes就是将它们整合在一起的粘合剂。

以前编写Hadoop上运行的软件的大数据软件供应商现在正在编写Kubernetes上运行的软件，这至少让他们进入了前台。支持Kubernetes软件已经成为软件供应商(包括Hadoop供应商)的首要需求。

8. 难以忽视的云计算

云计算的规模越来越大。2018年，全球三大公共云供应商的业务增长率接近50%。云计算供应商提供了一系列大数据工具和技术，更不用说用于存储所有数据的廉价存储，因此用户很难抵御云计算的诱惑。