Skip to content

Latest commit

 

History

History
373 lines (131 loc) · 9.1 KB

大的数据就是大数据?.md

File metadata and controls

373 lines (131 loc) · 9.1 KB

大的数据就是大数据?

本文作者:程序员鱼皮

本站地址:https://codefather.cn

大的数据就叫大数据?

鱼小皮

哥,我被老师批评了。

怎么肥四?

老百

鱼小皮

老师让我们做一个大数据的应用,我就用你教的前端技术写了个词典网站。

我看看,这不挺好的么?就是页面加载有点慢。

老百

鱼小皮

对呀,我搜集了整整 100MB 的词典数据放在网站里呢!结果老师说我辣鸡,同学们也都嘲笑我。

小皮呀,让你平时不听课,你这根本不是大数据呀!

老百

鱼小皮

是我的词典数据还不够大么?我再去整它 1 个 G!

你给我回来,看见我得给你补补课了!

老百

什么是大数据?

大数据是高科技信息化时代的产物。本身是一个抽象的概念,通常是指数据量大、数据类型复杂、且无法在一定时间范围内用传统的软件工具和方法进行收集、存储、管理和处理的数据集合,是需要使用新的处理模式才能激发利用其价值的信息资产。

鱼小皮

说了这么多,数据大一点多一点不就是大数据了么?

这么说可不准确,大数据具有很多特征,体量大只是其中一个最明显的特征。

老百

大数据的特征

公认的大数据特征可以用 4V 来概括:

\1. 体量大(Volume):**数据采集、存储和计算量都很大。**大数据的计量单位通常是PB(1000 TB)、EB(1000 PB),甚至是 ZB(1000 EB)。

\2. 多样性(Variety):**数据种类和来源多样。**包括结构化、半结构化和非结构化数据,比如网络日志、音视频、图片、地理位置信息等。通常需要对不同的数据分类处理,对数据的处理能力要求很高。

\3. 高速性(Velocity):数据增长速度快,时效性要求高,经常需要对数据高速(实时)处理。比如我们打开 App 浏览了某条信息,系统会实时为我们推荐相似的信息。这是大数据区别于传统数据的显著特征。

\4. 价值(Value):**虽然数据量大,但是数据的价值密度相对较低。**就像我们每天都会接受大量的信息,但真正对我们有帮助的内容很少。如何利用强大的算法来挖掘数据价值,是大数据时代最需要解决的问题。

随着大数据技术的发展,不断有人提出大数据的新特征,从 4V 到 5V、6V、7V、8V,比如:

\5. 准确性(Veracity):数据的质量会影响到大数据分析的结果,因此必须想办法过滤掉无用、恶意的信息,提高数据的准确性

\6. 可视化(Visualization):将数据以图表等更易于理解的方式进行展示,便于提升分析的效率。

\7. 合法性(Validity):数据的采集和应用必须合法,比如合理使用个人隐私数据。

\8. 可变性(Variability):数据是可变化的,就像英语,相同的数据在不同的上下文中可能具有不同的含义。因此必须结合上下文进行数据分析,对算法提出了挑战。

鱼小皮

ZB!这么大量级的数据,是怎么收集和管理的呢?我整理个词典都要累死了。

好问题,这就要从大数据的处理流程开始讲起了,让我们一起参加一场大数据之旅~

老百

大数据之旅

数据从诞生到被应用,需要经历漫长的旅途。包括数据收集、数据预处理、数据存储、数据处理与分析、数据展示、数据应用等站点。

1. 数据收集

第一站,利用软硬件技术,将分散、多样、海量的数据进行采集。比如通过无线和传感器采集,从数据库、网络 API、文件采集等。

2. 数据预处理

在进行数据存储分析之前,先对采集到的原始数据进行清洗、填补、去噪、转换、合并、规格化、一致性检验等一系列操作,以提高数据的质量。

3. 数据存储

将采集到的数据进行持久化存储,由于数据海量且多样,通常将数据存储在分布式文件系统或数据仓库等便于扩展的存储系统中,并且通过数据副本进行备份。

4. 数据分析处理

数据分析处理的目的是从杂乱无章的大量数据中找出有用的信息和规律,可以结合数据挖掘、人工智能算法,以激发利用数据的价值。从实时性的角度,可分为离线分析、实时分析和流式数据分析,需要选用不同的技术架构实现。

5. 数据可视化或数据应用

将数据的分析结果进行可视化地展示,或者应用到其他的系统中。

至此,大数据之旅还没有完全的结束,还需要进行数据治理、持续改进等等。

鱼小皮

没想到在应用大数据之前,要经过那么复杂的流程!想要自己搭一套大数据系统一定麻烦到爆炸吧?

莫慌,大数据的生态可是相当齐全的,基本每个流程都有现成的框架和系统,开箱即用,十分方便!

老百

大数据技术生态

大数据的技术生态体系真的是太庞大了,有多庞大呢?见下图:

2020 大数据 & AI 全景图

列举其中一些知名的技术:

数据同步:Sqoop

日志收集:Flume、Scribe、Logstash、Kibana

消息系统:Kafka、StormMQ、ZeroMQ

数据存储:HDFS、HBase、Redis

离线计算:MapReduce、Spark

流式计算:Storm、Spark Streaming

资源管理:YARN、Mesos

查询分析:Hive、Impala、Pig、Presto、Phoenix、SparkSQL、Drill、Flink、Kylin、Druid

集群管理与监控:Ambari、Cloudera Manager

任务调度:Oozie

数据挖掘、机器学习:Mahout、Spark MLlib

鱼小皮

竟然有那么多的技术!那现在有哪些落地的大数据应用呢?

大数据被广泛应用在互联网、金融、电商、零售、医疗、生物、制造、智慧城市等各行各业。比如在浏览淘宝时商品内容的推荐、针对性广告投放、信贷风险分析、疾病预测、优化生产过程能耗、智能规划交通、为用户提供定制生活服务等。

老百

鱼小皮

厉害了,我们的生活已经离不开大数据了。大数据未来的发展怎么样,值得去学习么?

就像上面提到的,近年来,大数据技术生态不断完善,初步形成了较为完整的产业链,更多的大数据应用落地,创造价值。大数据在持续推动科技领域的发展的同时,也在赋能传统产业,助力产业互联网的发展。未来可期!

老百

鱼小皮

爽死了,我现在就去学大数据!

先给你的“大词典”改个名吧,怪丢人的~

老百