web3.0时代的到来:大数据是web3.0革命技术,大数据如何改变生活
大数据是组织收集的结构化、半结构化和非结构化数据的组合,可以挖掘信息并用于机器学习项目、预测建模和其他高级分析应用程序。
处理和存储大数据的系统与支持大数据分析使用的工具相结合,已成为组织中数据管理架构的常见组件。大数据通常具有三个 V 's的特征:
-
在众多环境中有大规模的数据量;
-
在大数据系统中存储了广泛的数据类型;
-
生成、收集和处理大部分数据的速度。
2001 年,时任咨询公司 (Meta Group Inc. )的分析师 Doug Laney 首次发现了上述这些特征。Gartner 在 2005 年收购 Meta Group 后进一步普及了它们。最近,其他几个 V被添加到大数据的不同描述中,包括真实性、价值和可变性。
尽管大数据不等同于任何特定的数据量,但大数据部署通常涉及随着时间的推移创建和收集的 TB、PB 甚至 EB 级数据。
大数据的重要性
公司在其系统中使用大数据来改进运营、提供更好的客户服务、创建个性化营销活动并采取其他最终可以增加收入和利润的行动。有效地使用它的企业比那些不使用它的企业拥有潜在的竞争优势,因为他们能够做出更快、更明智的业务决策。
例如,大数据提供了对客户的宝贵洞察,公司可以使用这些洞察来完善其营销、广告和促销活动,以提高客户参与度和转化率。可以分析历史数据和实时数据,以评估消费者或企业买家不断变化的偏好,使企业能够更加响应客户的需求。
医学研究人员还使用大数据来识别疾病迹象和风险因素,并被医生用来帮助诊断患者的疾病和医疗状况。此外,来自电子健康记录、社交媒体网站、网络和其他来源的数据组合为医疗保健组织和政府机构提供了有关传染病威胁或爆发的最新信息。
以下是企业如何使用大数据的更多示例:
-
在能源行业,大数据帮助石油和天然气公司识别潜在的钻井位置并监控管道运营;同样,公用事业公司使用它来跟踪电网。
-
金融服务公司使用大数据系统进行风险管理和市场数据的实时分析。
-
制造商和运输公司依靠大数据来管理他们的供应链和优化交付路线。
-
其他政府用途包括应急响应、预防犯罪和智慧城市计划。
大数据示例
大数据来自无数来源——一些例子是交易处理系统、客户数据库、文档、电子邮件、医疗记录、互联网点击流日志、移动应用程序和社交网络。它还包括机器生成的数据,例如网络和服务器日志文件以及来自制造机器、工业设备和物联网设备上的传感器的数据。
除了来自内部系统的数据外,大数据环境通常还包含有关消费者、金融市场、天气和交通状况、地理信息、科学研究等的外部数据。图像、视频和音频文件也是大数据的形式,许多大数据应用涉及不断处理和收集的流数据。
打破大数据的V's
体积是大数据最常被引用的特征。大数据环境不必包含大量数据,但大多数数据环境都必须包含大量数据,这是因为收集和存储在其中的数据的性质。点击流、系统日志和流处理系统是通常持续产生大量数据的来源。
大数据还包含多种数据类型,包括:
-
结构化数据,例如交易和财务记录;
-
非结构化数据,例如文本、文档和多媒体文件;
-
半结构化数据,例如 Web 服务器日志和来自传感器的流数据。
各种数据类型可能需要在大数据系统中一起存储和管理。此外,大数据应用程序通常包括多个可能未预先集成的数据集。例如,一个大数据分析项目可能试图通过关联过去的销售、退货、在线评论和客户服务电话的数据来预测产品的销售。
速度是指数据生成以及必须被处理和分析的速度。在许多情况下,大数据集是实时或接近实时更新的,而不是在许多传统数据仓库中每天、每周或每月更新。随着大数据分析进一步扩展到机器学习和人工智能 ( AI ),管理数据速度也很重要,其中分析过程会自动发现数据中的模式并使用它们来生成洞察力。
更多大数据特性
除了最初的三个 V 's之外,以下是一些现在经常与大数据相关的其他一些的详细信息:
-
真实性是指数据集的准确性以及它们的可信度。从各种来源收集的原始数据可能会导致难以确定的数据质量问题。如果不通过数据清理流程修复它们,不良数据会导致分析错误,从而破坏业务分析计划的价值。数据管理和分析团队还需要确保他们有足够准确的数据来产生有效的结果。
-
一些数据科学家和顾问也为大数据的特征列表增加了价值。并非所有收集的数据都具有真正的商业价值或收益。因此,组织需要在将数据用于大数据分析项目之前确认数据与相关业务问题相关。
-
可变性通常也适用于大数据集,这些数据集可能具有多种含义,或者在不同的数据源中具有不同的格式——这些因素使大数据管理和分析进一步复杂化。
有些人将更多的 V's 归因于大数据;已经创建了 7 到 10 个列表。
大数据如何存储和处理
大数据通常存储在数据湖中。虽然数据仓库通常建立在关系数据库上并且仅包含结构化数据,但数据湖可以支持各种数据类型,并且通常基于Hadoop集群、云对象存储服务、NoSQL数据库或其他大数据平台。
许多大数据环境在分布式架构中结合了多个系统;例如,中央数据湖可能与其他平台集成,包括关系数据库或数据仓库。大数据系统中的数据可能会保留其原始形式,然后根据特定分析用途的需要进行过滤和组织。在其他情况下,它使用数据挖掘工具和数据准备软件进行预处理,以便为定期运行的应用程序做好准备。
大数据处理对底层计算基础设施提出了很高的要求。所需的计算能力通常由集群系统提供,这些系统使用 Hadoop 和 Spark 处理引擎等技术将处理工作负载分布在成百上千台商用服务器上。
以具有成本效益的方式获得这种处理能力是一项挑战。因此,云是大数据系统的流行位置。组织可以部署自己的基于云的系统或使用来自云提供商的托管大数据即服务产品。云用户可以在足够长的时间内扩展所需数量的服务器以完成大数据分析项目。企业只需为其使用的存储和计算时间付费,并且可以关闭云实例,直到再次需要它们。
大数据分析的工作原理
为了从大数据分析应用程序中获得有效且相关的结果,数据科学家和其他数据分析师必须详细了解可用数据并了解他们在其中寻找什么。这使得数据准备(包括数据集的分析、清理、验证和转换)成为分析过程中至关重要的第一步。
一旦收集了数据并准备好进行分析,就可以使用提供大数据分析特性和功能的工具,应用各种数据科学和高级分析学科来运行不同的应用程序。这些学科包括机器学习及其深度学习分支、预测建模、数据挖掘、统计分析、流分析、文本挖掘等。
以客户数据为例,可以使用大数据集完成的不同分析分支包括:
-
对比分析。这会检查客户行为指标和实时客户参与度,以便将公司的产品、服务和品牌与其竞争对手的产品、服务和品牌进行比较。
-
社交媒体分析。这会分析人们在社交媒体上对企业或产品的看法,这有助于识别潜在问题并确定营销活动的目标受众。
-
营销分析。这提供了可用于改进产品、服务和业务计划的营销活动和促销优惠的信息。
-
情绪分析。可以分析收集到的所有客户数据,以揭示他们对公司或品牌的看法、客户满意度、潜在问题以及如何改进客户服务。
大数据管理技术
Hadoop 是 2006 年发布的开源分布式处理框架,最初是大多数大数据架构的中心。Spark 和其他处理引擎的发展将MapReduce(Hadoop 内置的引擎)推到了一边。结果是一个大数据技术生态系统,可用于不同的应用程序,但通常一起部署。
IT 供应商提供的大数据平台和托管服务将许多这些技术结合在一个包中,主要用于云中。目前,这包括这些产品,按字母顺序列出:
-
Amazon EMR(以前称为 Elastic MapReduce)
-
Cloudera 数据平台
-
谷歌云数据处理
-
HPE Ezmeral Data Fabric(以前称为 MapR 数据平台)
-
微软 Azure HDInsight
对于想要自行在内部或云端部署大数据系统的组织,除了Hadoop 和 Spark之外,他们可用的技术包括以下类别的工具:
-
存储库,例如 Hadoop 分布式文件系统 ( HDFS ) 和云对象存储服务,包括 Amazon Simple Storage Service ( S3 )、Google Cloud Storage 和 Azure Blob Storage;
-
集群管理框架,如 Kubernetes、Mesos 和YARN,Hadoop 的内置资源管理器和作业调度器,代表 Yet Another Resource Negotiator,但通常仅以其首字母缩写词而闻名;
-
流处理引擎,例如 Flink、Hudi、Kafka、Samza、Storm 和 Spark 内置的 Spark Streaming 和 Structured Streaming 模块;
-
NoSQL 数据库,包括 Cassandra、Couchbase、CouchDB、HBase、MarkLogic Data Hub、MongoDB、Neo4j、Redis 和各种其他技术;
-
数据湖和数据仓库平台,其中包括 Amazon Redshift、Delta Lake、Google BigQuery、Kylin 和 Snowflake;和
-
SQL 查询引擎,如 Drill、Hive、Impala、Presto 和 Trino。
大数据挑战
结合处理能力问题,设计大数据架构是用户面临的共同挑战。大数据系统必须根据组织的特定需求进行定制,这是一项 DIY 任务,需要 IT 和数据管理团队将一组定制的技术和工具拼凑在一起。与专注于关系软件的数据库管理员和开发人员通常拥有的技能相比,部署和管理大数据系统还需要新技能。
使用托管云服务可以缓解这两个问题,但 IT 经理需要密切关注云使用情况,以确保成本不会失控。此外,将本地数据集和处理工作负载迁移到云通常是一个复杂的过程。
管理大数据系统的其他挑战包括让数据科学家和分析师可以访问数据,尤其是在混合了不同平台和数据存储的分布式环境中。为了帮助分析师找到相关数据,数据管理和分析团队越来越多地构建包含元数据管理和数据沿袭功能的数据目录。集成大数据集的过程通常也很复杂,特别是当数据的多样性和速度是因素时。
有效大数据战略的关键
在组织中,制定大数据战略需要了解业务目标和当前可用的数据,以及评估是否需要额外数据来帮助实现目标。接下来要采取的步骤包括:
-
优先考虑计划的用例和应用程序;
-
确定所需的新系统和工具;
-
创建部署路线图;
-
评估内部技能,看看是否需要再培训或招聘。
为确保大数据集干净、一致和正确使用,数据治理计划和相关的数据质量管理流程也必须成为优先事项。管理和分析大数据的其他最佳实践包括关注业务对信息的需求而不是可用技术,以及使用数据可视化来帮助数据发现和分析。
大数据收集实践和法规
随着大数据收集和使用的增加,数据滥用的可能性也在增加。公众对数据泄露和其他个人隐私侵犯行为的强烈抗议导致欧盟批准了通用数据保护条例 ( GDPR ),这是一项于 2018 年 5 月生效的数据隐私法。 GDPR 限制了组织可以收集并要求选择的数据类型- 征得个人同意或遵守其他收集个人数据的特定理由。它还包括一个被遗忘权的条款,允许欧盟居民要求公司删除他们的数据。
虽然美国没有类似的联邦法律,但加州消费者隐私法案 ( CCPA ) 旨在让加州居民更好地控制在该州开展业务的公司对其个人信息的收集和使用。CCPA于2018年签署成为法律,并于2020年1月1日生效。
为确保遵守此类法律,企业需要谨慎管理收集大数据的过程。必须采取控制措施来识别受监管的数据并防止未经授权的员工访问这些数据。
大数据管理和分析的人性化一面
归根结底,大数据计划的商业价值和收益取决于负责管理和分析数据的员工。一些大数据工具使技术含量较低的用户能够运行预测分析应用程序或帮助企业为大数据项目部署合适的基础设施,同时最大限度地减少对硬件和分布式软件专业知识的需求。
大数据可以与小数据形成对比,小数据有时用于描述可轻松用于自助 BI 和分析的数据集。一个普遍引用的公理是,“大数据是给机器的,小数据是给人的。”
来源:区块新看点
- 免责声明
- 世链财经作为开放的信息发布平台,所有资讯仅代表作者个人观点,与世链财经无关。如文章、图片、音频或视频出现侵权、违规及其他不当言论,请提供相关材料,发送到:2785592653@qq.com。
- 风险提示:本站所提供的资讯不代表任何投资暗示。投资有风险,入市须谨慎。
- 世链粉丝群:提供最新热点新闻,空投糖果、红包等福利,微信:juu3644。

币老爷



