用最诙谐的语言提升你对大数据的认知

99 篇文章 288 订阅
订阅专栏

写在前面

本文隶属于专栏《100个问题搞定大数据理论体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!

本专栏目录结构和参考文献请见 100个问题搞定大数据理论体系

引子

小明又来了~

image.png

小明接过大明给的考卷:

想转行大数据?这66个问题你搞懂了没?

看到第一题:

1.  你能谈谈你对大数据的认知吗?大数据到底是什么?

“我要是知道什么是大数据,我还担心转行干嘛,直接就干啊!”

“算了,还是猜吧”

image.png

“怎么突然想到了一句歌词。。草,又走神了”

小明答到:

大数据应该就是很大的数据吧。。

大明看到这里:

“就这?”

小明苦笑:

“还能咋滴?我一个搞Java后端的,大数据也是从手机电视上知道的,只能这么猜啊。。”

image.png

大明看了小明半晌,叹了口气:

“诶,要不是你妈和我妈是铁闺蜜,要不是我妈和我唠叨了好几天,我才懒得搭理你呢。”

“我来跟你简单概括一下大数据,你好好听着,当然,丑话说在前头,我干大数据也没几年,我就简单跟你谈谈我对大数据的认知。”

正文

  1. 大数据是围绕着庞大数据所构建的一种技术生态体系
  2. 大数据本质上是一种技术手段
  3. 大数据的核心就是数据
  4. 大数据最核心的价值就是利用廉价的机器进行大规模数据的处理分析

大明继续解释到:

大数据,本质上就是围绕了庞大的数据(Volumn) 所构建的一种技术生态体系,包括数据的采集、传输、计算、分析、调度、存储等。

这个数据量级早期还只有GB级别,伴随着技术的发展,已经逐渐上升到TB,PB的级别。

更为关键的是,数据的来源多种多样(Variety)。

一般来说,大数据的数据来源于四大源头:

  1. 互联网,包括手机电脑等
  2. 企业数据
  3. 物联网,这也是未来的科技核心之一
  4. 科学研究

形式也是千变万化,比如文本,音频,视频等等。

这么庞大的数据量,使用传统的单机根本无法存储下来,但是超级计算机太贵(亿元为单位),不利于大数据的普及与发展,故历史的潮流推动着大数据朝着“更多节点”的方向发展,只有更多的廉价机器(万元为单位)才能存储这么庞大的数据量,才能满足大多数公司的需求,但是想要将这么庞大的机器数目统一成一个综合对外提供服务的集群,也不是一件容易的事情。

此外,人们也逐渐的意识到大数据中蕴藏的无限价值Value)。举个简单的例子,头条你也用过对吧,头条能够发展起来,大数据功不可没,因为头条公司是最早一批发现大数据中存在无限价值的公司,所以头条成功了。头条也把他们吸取的经验应用到了抖音上面,所以抖音也成功了。

而且,随着越来越多的企业投入到大数据的开发,以及越来越多的场景亟待大数据来支撑,数据处理的速度和时效性(Velocity)要求也会更高。因为很多数据是有时效要求的,比如你走路,走到一个地方,如果数据不及时处理,等你走到另一个地方再去给你推送附近的店铺,这可就太迟了。再比如一个更典型时效要求更高的场景——实时防欺诈,支付的时长就那么长,用户最多等你几秒钟,你几秒钟之内除了完成基本的支付逻辑外,不能实时的进行诈骗检测,等用户把钱汇过去就太晚了。

事实证明,很多数据的价值随着时间的流逝在慢慢变低,而且存储历史数据会带来更高的存储成本,所以支持更快处理速度的实时流处理技术越来越受到企业的青睐。

其实我上面提到的 4V:

  1. Volume
  2. Variety
  3. Value
  4. Velocity

就是大数据最典型的四大特征

说到这里,你基本上对大数据有了一个基础的认知了吧。

小明:

点头.gif

大明:

邪魅一笑.gif

“爽!被我装到了!嘿嘿,突然有点喜欢小明了。”

听说Chat gpt能一秒钟给您带来全新认知的视角?
04-29
随着人工智能技术的发展,Chat gtp成为了新一代智能机器人的代表。Chat gtp是一款智能对话机器人,基于强大的自然语言处理和机器学习技术,可以模拟真实的人类交互,为用户提供更加真实且高效的交流体验。而随着Chat gtp的不断升级,越来越多的人们开始盯上了这一块市场,试图通过Chat gtp来进行商业创新和创收。 Chat gtp如何帮助个人和企业赚钱? 1.基于Chat gtp的智能客服实现效率提升 企业想要提高客户服务的效率,对于客服人员来说,Chat gtp是一个不可多得的利器。Chat gtp不仅能够快速响应用户提出的问题,还能够根据用户的意图和情感变化做出智能回答,并且可以根据大数据进行深度学习,不断优化自身性能。通过Chat gtp,企业可以在不断提升客户服务质量的同时大幅度缩小客户服务成本,这也为企业的持续发展打下了坚实的基础。 2.通过Chat gtp进行在线营销 Chat gtp在进行营销方面也发挥了重要的作用。通过Chat gtp建立在线营销平台,可以加强对消费者的理解和把握,根据消费者需求和行为模式,搭建信息化的推广平台,并通过大数据分析,根据
元宇宙底层逻辑
周红伟讲AI
12-05 1245
2021 年,“元宇宙”无疑是最火的概念。 无论是元宇宙概念第一股罗布乐思(Roblox)今年3月在美国纽约证券交易所正式上市,首日市值就突破380亿美元,还是Facebook宣布将在5年内转型成一家元宇宙公司,亦或是在国内,腾讯、字节跳动等互联网巨头及米哈游等游戏新星都争先恐后的宣布加入到元宇宙赛道当中。 对于元宇宙,有人说它是炒作,甚至是骗局,但也有人说它是下一代互联网,是互联网的未来。 到底什么是元宇宙?元宇宙的底层逻辑是什么?我们应该如何正确认识、看待、拥抱已来的未来?
每位开发人员都应铭记的10句编程谚语
不积跬步 无以至千里 不积小流 无以成江海
10-30 292
所谓谚语,就是用言简意赅、通俗易懂的方式传达人生箴言和普遍真理的话,它们能很好地帮助你处理生活和工作上的事情。也正因如此,我才整理了10句编程谚语,每位开发人员都应该铭记他们,武装自己。 1. 无风不起浪 代码设计是否糟糕,从某些地方就可以看出来。比如: a. 超大类或超大函数 b. 大片被注释的代码 c. 逻辑重复 d. If/else嵌套过深 程序员们通常称它们作...
大数据认知计算在内容安全管控中的应用
weixin_45585364的博客
12-22 3546
点击上方蓝字关注我们大数据认知计算在内容安全管控中的应用杜雪涛中国移动通信集团设计院有限公司,北京 100080摘要:通信网络中存在海量垃圾和不良信息,这些信息需要被阅读和理解,以便对其...
POSTGRESQL 带时区的日期的技术与狠活
sql server的专栏
09-30 1875
最近最热门的歇后语就是,“技术与狠活”, 数据库中的POSTGRESQL 的日期数据有什么技术与狠活,咱们今天来说说。从技术的角度来说, 基于POSTGRESQL 数据库中的数据格式,相对于其他的数据库,类型是丰富的这里主要是POSTGRESQL 的时间是可以带有时区的,也就是with zone 。首先POSTGRESQL 中的带有时区的日期格式包含了,时间和日期两种,这里官方建议大家使用日期类型...
如何将枯燥的大数据变得生动有趣!
hualalalalali的博客
04-04 859
将枯燥无趣的大数据变得生动有趣,其实就是把他们转化成可视化图表/形,如下图这样: 这张图展现了Youtube上关于各个话题的讨论数量和类别以及各个话题的相互关系程度。看懂这复杂而又酷炫的图表是不是开始害怕了? 其实找对工具,你也能完成一份这样的作品。碍于工具太多,接下来我就按照使用场景,暂且将已成熟应用的分为三个层次进行介绍: 第一层:数据报告、信息图 这里统称信息图。信息图是把数据、...
大数据应用发展及挑战.pdf
12-24
2 大数据的定义 大数据 渊 big data 冤袁指不能在可承受的时间范围内用普 通软件工具进行搜集尧 管理和处理的体量非常大的数据集 合.大数据技术可以从种类繁多尧体量巨大的数据中迅速尧方 便得到有价值的资源.我们...
大数据时代的特征和思维.docx
12-24
世界智能化特征与智慧(社会)思维 基于上述的特征,人类对各种物体以及现象的认知越来越深入,(包括人类自身的需要),基于大数据的各种应用出现了智能化的特征。从智能搜索,智能推荐营销,到各种智能服务如自动...
《人工智能基础与应用》教学课件—认知人工智能的基础支撑.pptx
最新发布
06-01
A I 遇见应用 兴趣引领未来 人工智能基础与应用认知人工智能的基础支撑 《人工智能基础与应用》教学课件—认知人工智能的基础支撑全文共39页,当前为第1页。 目 录 教学目标 教学要求 内容概览 相关知识 2.1.1 人工...
ChatGPT会取代人类?徐宗本院士谈AI的能与不能
04-25
对此,徐宗本分析,ChatGPT实现了以语言大模型为基础的认知智能、多模态智能的突破,在各行业有着广阔的应用场景,如文本生成与创意写作、信息检索、教育辅导等。不过,由于ChatGPT对大数据的依赖性,其在面对依赖...
Python 工匠:善用变量来改善代码质量
weixin_34004750的博客
04-10 146
原作者:piglei 原文链接:www.zlovezl.cn/articles/py… 『Python 工匠』是什么? 我一直觉得编程某种意义上是一门『手艺』,因为优雅而高效的代码,就如同完美的手工艺品一样让人赏心悦目。 在雕琢代码的过程中,有大工程:比如应该用什么架构、哪种设计模式。也有更多的小细节,比如何时使用异常(Exceptions)、或怎么给变量起名。那些真正优秀的代码,正是由无数优...
大数据处理的基本流程是什么?
热门推荐
Shockang的博客
04-11 3万+
写在前面 本文隶属于专栏《100个问题搞定大数据理论体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢! 本专栏目录结构和文献引用请见100个问题搞定大数据理论体系 解答 大数据处理流程主要分为3步: 1.数据抽取和集成 2.数据分析 3.数据解释 补充 1.数据抽取与集成 由于大数据处理的数据来源类型丰富,利用多个数据库来接收来自客户端的数据, 包括企业内部数据库、互联网数据和物联网数据,所以需要从数据中提取关系和实体, 经过关联和聚合等操作,按照统一定义的格式对数据
大数据理论体系
Shockang的博客
04-11 2万+
目录结构 大数据是什么? 大数据是如何发展起来的? 大数据处理的基本流程是什么? 为什么说数据不动代码动?移动计算比移动数据更划算? DAG对大数据处理有什么好处? 批处理和流处理如何区分? 有边界数据和无边界数据如何区分? 批处理中如何提高CPU利用率? 什么是事件时间和处理时间? Workflow设计模式指的什么? 什么是商业智能(BI)? 分布式锁是什么?如何实现? 分布式事务是什么?如何实现? 分布式锁和分布式事务有什么区别? CAP定理是什么? BASE理论是什么? 分布式系统有哪些衡量指标?
什么是数据湖?为什么需要数据湖?
Shockang的博客
05-07 2万+
写在前面 本文隶属于专栏《100个问题搞定大数据理论体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢! 本专栏目录结构和文献引用请见100个问题搞定大数据理论体系 解答 数据湖是一个存储企业的各种各样原始数据的大型仓库,其中的数据可供存取、处理、分析及传输。 数据湖从企业的多个数据源获取原始数据,并且针对不同的目的,同一份原始数据还可能有多种满足特定内部模型格式的数据副本。 因此,数据湖中被处理的数据可能是任意类型的信息,从结构化数据到完全非结构化数据。 企业对数据
并行计算模型有哪些?
Shockang的博客
04-22 2万+
写在前面 本文隶属于专栏《100个问题搞定大数据理论体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢! 本专栏目录结构和文献引用请见100个问题搞定大数据理论体系 解答 并行计算模型通常指从并行算法的设计和分析出发,将各种并行计算机(至少是某一类并行计算机)的基本特征抽象出来,形成一个抽象的计算模型。 从更广的意义上说,并行计算模型为并行计算提供了硬件和软件界面,在该界面的约定下,并行系统硬件设计者和软件设计者可以开发对并行性的支持机制,从而提高系统的性能。 常见的并
大数据和云计算有什么关系?
Shockang的博客
05-05 2万+
本文详解了大数据和云计算之间的区别,同时简单的介绍了云计算的概念。
大数据开发主要做什么?
Shockang的博客
05-07 2万+
写在前面 本文隶属于专栏《100个问题搞定大数据理论体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢! 本专栏目录结构和文献引用请见100个问题搞定大数据理论体系 解答 一个大数据平台架构通常如图所示,大数据开发涵盖了图中从下到上各层的实现,其中主要的部分是采集层、储存层、计算层、模型层和接口层,核心部分是储存层和计算层。 各层中功能模块的技术实现会根据实际业务场景不同而有所变化,但仍然是围绕着储存数据和数值计算这两大核心功能来进行的。 因此,大数据开发的作用主要集中在以
数据压缩算法该如何选择?
Shockang的博客
05-05 2万+
写在前面 本文隶属于专栏《100个问题搞定大数据理论体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢! 本专栏目录结构和文献引用请见100个问题搞定大数据理论体系 解答 大数据领域常见的压缩格式有 gzip,snappy,lzo,lz4,bzip2,zstd。 补充 为什么要进行数据压缩? 为了优化存储(减少存储空间)和充分利用网络带宽,通常采用压缩方法。大数据需要处理海量数据,此时数据压缩非常重要。 在企业中存在的许多场景中,通常,数据源来自多种文本格式(CSV、TS
大数据有哪些特征?
Shockang的博客
05-05 2万+
写在前面 本文隶属于专栏《100个问题搞定大数据理论体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢! 本专栏目录结构和文献引用请见100个问题搞定大数据理论体系 解答 大数据特征通常指的4V。 1.数据量大(Volume) 非结构化数据的超大规模和增长,导致数据集合的规模不断扩大,数据单位已从GB到TB再到PB级,甚至开始以EB和ZB来计数。 2.类型繁多(Variety) 大数据的类型不仅包括网络日志、音频、视频、图片、地理位置信息等结构化数据,还包括半结构化数据甚至
什么是大数据?介绍一下你对大数据的看法
03-30
大数据是指海量、高速、多样化的数据集合,它包含了传统数据处理方法无法处理的数据类型和数据规模,需要使用先进的技术和工具进行处理、分析和管理。大数据的来源包括社交媒体、物联网、传感器、移动设备等各种渠道...

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
写文章

热门文章

  • 图文详解 MapReduce 工作流程 100013
  • MySQL 启动报错:Job for mysqld.service failed because the control process exited with error code. 73867
  • G1 GC是什么? 46694
  • Arthas 看了官方文档还不会用?进来了解一哈~ 46069
  • 全网最新最全的Java即时编译器优化手段大全 45455

分类专栏

  • 大数据技术体系 282篇
  • 大数据理论体系 99篇
  • JVM 67篇
  • Java并发 46篇
  • 算法 37篇
  • 人工智能 6篇
  • Java 2篇
  • Spark异常问题汇总 14篇
  • Spark 配置参数 2篇
  • 大数据异常 8篇
  • 大数据安装部署 13篇

最新评论

  • MySQL 启动报错:Job for mysqld.service failed because the control process exited with error code.

    扛着火车兜风i: 我的老哥哥,你太6了

  • Hadoop 集群如何升级?

    2301_78790639: 没用,我需要的是步骤和命令,你这个纯文字有什么用?

  • 大数据存储架构详解:数据仓库、数据集市、数据湖、数据网格、湖仓一体

    普通网友: 学到了!我也写了一篇获取【大厂面试真题解析、核心开发学习笔记、最新全套讲解视频、实战项目源码讲义、学习路线简历模板】的文章

  • Hive 3.1.2启动报错 guava 版本冲突问题解决

    q842508326: 但是这样的话hive和spark又冲突了,spark的guava版本是低版本

  • 图文详解HDFS体系架构

    -.-不爱江山爱大饼萌。: 我也想问

您愿意向朋友推荐“博客详情页”吗?

  • 强烈不推荐
  • 不推荐
  • 一般般
  • 推荐
  • 强烈推荐
提交

最新文章

  • Flink 环境对象
  • Flink DataStream 体系
  • 大数据处理架构详解:Lambda架构、Kappa架构、流批一体、Dataflow模型、实时数仓
2023年28篇
2022年97篇
2021年433篇
2020年11篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

两个鬼故事微信名字怎么起南方人起名字越狱第五季下载8m补丁精灵鼠小弟141.com2019经典精品视频五金电器起名字男看诗经女楚辞加盟超市折原男孩起名金木的字不锈钢公司起名三字给电脑起名起个居士名字起队名霸气的队名四个字个人工作室起名字服饰公司起名大全奶茶起名字钦字起名的意思是什么2020年3月出生起名字马桶水箱一直流水修理600362股票黑莲花绝不认输李清照词《如梦令》和alpha前男友闪婚离不掉了周易起名 八字起名一站到底题库黄乃扬谭姓女孩起名字少年生前被连续抽血16次?多部门介入两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”淀粉肠小王子日销售额涨超10倍高中生被打伤下体休学 邯郸通报单亲妈妈陷入热恋 14岁儿子报警何赛飞追着代拍打雅江山火三名扑火人员牺牲系谣言张家界的山上“长”满了韩国人?男孩8年未见母亲被告知被遗忘中国拥有亿元资产的家庭达13.3万户19岁小伙救下5人后溺亡 多方发声315晚会后胖东来又人满为患了张立群任西安交通大学校长“重生之我在北大当嫡校长”男子被猫抓伤后确诊“猫抓病”测试车高速逃费 小米:已补缴周杰伦一审败诉网易网友洛杉矶偶遇贾玲今日春分倪萍分享减重40斤方法七年后宇文玥被薅头发捞上岸许家印被限制高消费萧美琴窜访捷克 外交部回应联合利华开始重组专访95后高颜值猪保姆胖东来员工每周单休无小长假男子被流浪猫绊倒 投喂者赔24万小米汽车超级工厂正式揭幕黑马情侣提车了西双版纳热带植物园回应蜉蝣大爆发当地回应沈阳致3死车祸车主疑毒驾恒大被罚41.75亿到底怎么缴妈妈回应孩子在校撞护栏坠楼外国人感慨凌晨的中国很安全杨倩无缘巴黎奥运校方回应护栏损坏小学生课间坠楼房客欠租失踪 房东直发愁专家建议不必谈骨泥色变王树国卸任西安交大校长 师生送别手机成瘾是影响睡眠质量重要因素国产伟哥去年销售近13亿阿根廷将发行1万与2万面值的纸币兔狲“狲大娘”因病死亡遭遇山火的松茸之乡“开封王婆”爆火:促成四五十对奥巴马现身唐宁街 黑色着装引猜测考生莫言也上北大硕士复试名单了德国打算提及普京时仅用姓名天水麻辣烫把捣辣椒大爷累坏了

两个鬼故事 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化