网易首页 > 网易号 > 正文 申请入驻

什么是大数据 ,说白了,就是巨量数据集合。

0
分享至

普及一下什么是大数据技术?让一些小白学习大数据更加方便容易!

“大数据 ”这个概念火了很久,但又很不容易说得清楚(不然呢?怎么会是个位数的回答),这时候买本书来看看可能会更香。

先说结论——大数据技术,其实就是一套完整的“数据+业务+需求”的解决方案。

它其实是一个很宽泛的概念,涉及五个领域:

1. 业务分析;2.数据分析;3.数据挖掘;4.机器学习;5.人工智能。

从1到5,越来越需要技术背景;从5到1,越来越贴近具体业务。

其实,除了像搜索引擎这样依靠数据技术而诞生的产品外,大部分互联网产品在生存期,即一个产品从0到1的阶段,并不是特别需要大数据技术的。而在产品的发展期,也就是从“1”到“无穷”的阶段,“大数据技术”对产品的作用才会逐渐体现。

主要原因是初期产品的功能和服务较少,也没有“积累的用户数据”用于模型研发。所以,我们常听说“构建大数据的壁垒”,这里面,“数据技术”是小壁垒,“大数据”本身才是大壁垒。

这里就从“大数据”开始说起。

什么是大数据?

“大数据 ”从字面上看,就是很“大”的“数据”。先别急着打我。有多大呢?

早N多年前,百度首页导航每天需要提供的数据超过1.5PB(1PB=1024TB),这些数据如果打印出来将超过5千亿张A4纸。

5千亿张,是不是很暴力了。

再来两个不暴力的:

“广西人最爱点赞,河北人最爱看段子,最关心时政的是山西人,最关注八卦的是天津。”

这组有趣的数据,是今日头条根据用户阅读大数据得出的结论。

而比这个更精准的数据,是三年前美国明尼苏达州的一则八卦新闻:

一位气势汹汹的老爸冲进Target的一家连锁超市,质问超市为什么把婴儿用品的广告发给他正在念高中的女儿。

但非常打脸的是,这位父亲跟他女儿沟通后发现女儿真的怀孕了。

在大数据的世界里,事情的原理很简单——这位姑娘搜寻商品的关键词,以及她在社交网站所显露的行为轨迹,使超市的营销系统捕捉到了她怀孕的信息。

你看,单个的数据并没有价值,但越来越多的数据累加,量变会产生质的飞跃。

脑补一下上面这个事件中的“女儿”,她在网络营销系统中的用户画像标准可能包括:用户ID、性别 、性格描述、资产状况、信用状况、喜欢的颜色、钟爱的品牌、大姨妈的日期、上周购物清单等等,有了这些信息,系统就可以针对这个用户,进行精准的广告营销和个性化购物推荐。

当然,除了获得大数据的个性化推荐,一不留神也容易被大数据割一波韭菜。

亚马逊在一次新碟上市时,根据潜在客户的人口信息、购物历史、上网记录等,给同一张碟片报出了不同的价格。这场“杀熟事件”的结局就是:亚马逊的 CEO 贝索斯不得不亲自出来道歉,解释只是在进行价格测试。

大数据 ,说白了,就是巨量数据集合。

大数据来源于海量用户的一次次的行为数据,是一个数据集合;但大数据的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理

在电影《美国队长2》里,系统能把一个人从出生开始的所有行为特征,如消费行为,生活行为等,作为标签存入数据库中,最后推测出未来这个人是否会对组织产生威胁,然后使用定位系统,把这些预测到有威胁的人杀死。

而在《点球成金》里,球队用数据建模的方式,挖掘潜在的明星队员(但其实这个案例并非典型的大数据案例,因为用到的是早已存在的数据思维和方法)。

麦肯锡全球研究所曾给出过大数据一个相当规矩的定义:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。

上面这四个特征,也就是人们常说的大数据的4V特征(volume,variety,value,velocity),即大量,多样性,价值,及时性。

具体来说就是:

1. 数据体量巨大(这是大数据最明显的特征),有人认为,大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T);这里按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB(进率2^10)。

不过,数据的体量有时可能并没那么重要。比如13亿人口的名字,只占硬盘几百M空间的数据,但已经是这个领域里非常大的数据。

2. 数据类型繁多(也就是多维度的表现形式)。比如,网络日志、视频、图片、地理位置信息等等。

3. 价值密度低,商业价值高。以视频为例,一小时的视频,在不间断的监控过程中,可能有用的数据仅仅只有一两秒。因此,如何结合业务逻辑并通过强大的机器算法来挖掘数据价值(所谓“浪里淘金”吧),是最需要解决的问题。

4. 处理速度快且及时。数据处理遵循“1秒定律”,可从各种类型的数据中快速获得高价值的信息。

事实上,关于这个“4V”,业界还是有不少争议的。比如阿里技术委员会的王坚博士,就直接把4V“扔”进了垃圾堆。王坚在《在线》这本书里说过:“我分享时说‘大数据’这个名字叫错了,它没有反映出数据最本质的东西。”

他认为,今天数据的意义并不在于有多“大”,真正有意思的是数据变得“在线”了,这恰恰是互联网的特点。所有东西都能“在线”这件事(数据随时能调用和计算),远比“大”更能反映本质。

什么是大数据技术?

对于一个从事大数据行业人来说,一切数据都是有意义的。因为通过数据采集、数据存储、数据管理、数据分析与挖掘、数据展现等,我们可以发现很多有用的或有意思的规律和结论。

比如,北京公交一卡通每天产生4千万条刷卡记录,分析这些刷卡记录,可以清晰了解北京市民的出行规律,来有效改善城市交通。

但这4千万条刷卡数据 ,不是想用就能用的,需要通过“存储”“计算”“智能”来对数据进行加工和支撑,从而实现数据的增值。

而在这其中,最关键的问题不在于数据技术本身,而在于是否实现两个标准:第一,这4千万条记录,是否足够多,足够有价值;第二,是否找到适合的数据技术的业务应用。

下面就来简单说说上述提到的一些和“大数据“”形影不离的“小伙伴们”——

云计算

由于大数据的采集、存储和计算的量都非常大,所以大数据需要特殊的技术,以有效地处理大量的数据。

从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。

可以说,大数据相当于海量数据的“数据库”,云计算相当于计算机和操作系统,将大量的硬件资源虚拟化后再进行分配使用。

整体来看,未来的趋势是,云计算作为计算资源的底层,支撑着上层的大数据处理,而大数据的发展趋势是,实时交互式的查询效率和分析能力, “动一下鼠标就可以在秒级操作PB级别的数据”。

Hadoop/HDFS /Mapreduce/Spark

除了云计算,分布式系统基础架构Hadoop的出现,为大数据带来了新的曙光。

Hadoop是Apache软件基金会旗下的一个分布式计算平台,为用户提供了系统底层细节透明的开源分部式基础架构。它是一款用Java编写的开源软件框架,用于分布式存储,并对非常大的数据集进行分布式处理,用户可以在不了解分布式底层细节的情况下,开发分布式程序,现在Hadoop被公认为行业大数据标准开源软件。

而HDFS为海量的数据提供了存储;Mapreduce则为海量的数据提供了并行计算,从而大大提高计算效率。它是一种编程模型,用于大规模数据集(大于1TB)的并行运算,能允许开发者在不具备开发经验的前提下也能够开发出分布式的并行程序,并让其运行在数百台机器上,在短时间完成海量数据的计算。

在使用了一段时间的 MapReduce 以后,程序员发现 MapReduce 的程序写起来太麻烦,希望能够封装出一种更简单的方式去完成 MapReduce 程序,于是就有了 Pig 和 Hive。

同时Spark/storm/impala等各种各样的技术也相继进入数据科学的视野。比如Spark是Apache Software Foundation中最活跃的项目,是一个开源集群计算框架,也是一个非常看重速度的大数据处理平台。

  • 文章出自:http://www.cnitedu.cn/it/new/202116295.html

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
生命倒计时,七尺男儿蔡磊临终泪别挚友,抱头痛哭:时间不多了

生命倒计时,七尺男儿蔡磊临终泪别挚友,抱头痛哭:时间不多了

史行途
2024-11-30 10:54:44
作为广东人,前几天去了趟江西,结果郁闷不已,有几个问题想不通

作为广东人,前几天去了趟江西,结果郁闷不已,有几个问题想不通

涛哥美食汇
2024-11-27 07:58:59
刘亦菲的这张照片真的超级美,让人看了都忍不住屏住呼吸

刘亦菲的这张照片真的超级美,让人看了都忍不住屏住呼吸

新浪财经
2024-11-01 09:32:08
2024.12.2娱乐资讯:刘诗诗、肖战、唐嫣、张凌赫、鹿晗、陈哲远

2024.12.2娱乐资讯:刘诗诗、肖战、唐嫣、张凌赫、鹿晗、陈哲远

明星爆料客
2024-12-02 11:37:49
我就是魔鬼!利物浦魔鬼赛程10战9胜1平,英超9分领跑+欧冠全胜

我就是魔鬼!利物浦魔鬼赛程10战9胜1平,英超9分领跑+欧冠全胜

直播吧
2024-12-02 09:44:05
F1卡塔尔站后积分更新:勒克莱尔紧追第二,法拉利距迈凯轮仅21分

F1卡塔尔站后积分更新:勒克莱尔紧追第二,法拉利距迈凯轮仅21分

饭桶来讲事
2024-12-02 10:29:22
余华:凡事看开点,有的人婚姻不好,但子女很好;有的人存款...

余华:凡事看开点,有的人婚姻不好,但子女很好;有的人存款...

清风拂心
2024-11-06 15:29:16
海外营收1356亿,年利润190亿的绩优股,股价超跌47%市盈率仅13倍

海外营收1356亿,年利润190亿的绩优股,股价超跌47%市盈率仅13倍

投资观
2024-12-01 08:20:02
登顶榜首!威少的历史时刻终来到!

登顶榜首!威少的历史时刻终来到!

篮球盛世
2024-12-02 14:36:43
朝鲜女兵自述:入伍自动绝经,七年服务百位长官,退役后无人愿娶

朝鲜女兵自述:入伍自动绝经,七年服务百位长官,退役后无人愿娶

历史八卦社
2023-11-14 22:06:29
威尔士家圣诞安排出炉,查尔斯忙前忙后乐翻了,阿奇莉莉贝没获邀

威尔士家圣诞安排出炉,查尔斯忙前忙后乐翻了,阿奇莉莉贝没获邀

DailyFlora
2024-12-02 12:50:01
哈登:球队氛围很棒 在小卡回归前我们会坚守阵地不断进步

哈登:球队氛围很棒 在小卡回归前我们会坚守阵地不断进步

直播吧
2024-12-02 14:08:20
快船VS掘金!球员评分:哈登9分、鲍威尔8分、祖巴茨不及格

快船VS掘金!球员评分:哈登9分、鲍威尔8分、祖巴茨不及格

临知
2024-12-02 12:20:06
女人一生能接受跟多少个男人“发生关系”?一位女性讲述:好现实

女人一生能接受跟多少个男人“发生关系”?一位女性讲述:好现实

伊人河畔
2024-11-23 10:36:05
狂砍32+9+7,拿童工合同,却打成超级巨星!徐杰教阿姆斯做外援

狂砍32+9+7,拿童工合同,却打成超级巨星!徐杰教阿姆斯做外援

多特体育说
2024-12-01 21:46:53
《再见爱人》嘉宾李行亮多个演出遭网友抵制!团队:现在不方便回应

《再见爱人》嘉宾李行亮多个演出遭网友抵制!团队:现在不方便回应

极目新闻
2024-12-02 08:51:24
一切皆跌,特朗普打了人们一个措手不及

一切皆跌,特朗普打了人们一个措手不及

股市风向标
2024-12-02 07:51:33
小米 SU7 车型 12 月限时购车权益公布:赠 Nappa 真皮座椅等

小米 SU7 车型 12 月限时购车权益公布:赠 Nappa 真皮座椅等

IT之家
2024-12-01 12:28:11
比亚迪 11 月销量明细公布:秦系列超 8.7 万辆、海豹超 5.6 万辆

比亚迪 11 月销量明细公布:秦系列超 8.7 万辆、海豹超 5.6 万辆

IT之家
2024-12-01 22:32:18
上海市一栋双拼别墅2200万起拍卖,被三个人合伙3730万元买下

上海市一栋双拼别墅2200万起拍卖,被三个人合伙3730万元买下

天天话事
2024-12-02 12:08:37
2024-12-02 15:12:49
青少年叛逆教育
青少年叛逆教育
专注IT技能资讯分享
9106文章数 631关注度
往期回顾 全部

科技要闻

11月成绩单:小鹏首破3万,蔚来小米破2万

头条要闻

泰国坠崖孕妇已签约MCN机构 曾被婆婆指责生意做太大

头条要闻

泰国坠崖孕妇已签约MCN机构 曾被婆婆指责生意做太大

体育要闻

强势比6根手指!瓜迪奥拉回击利物浦球迷

娱乐要闻

这是麦琳?烟熏妆神似安室奈美惠!

财经要闻

刘世锦:扩大消费需求要找准重点或痛点

汽车要闻

小米汽车:11月交付继续超2万辆 全年冲刺13万辆

态度原创

教育
时尚
旅游
游戏
本地

教育要闻

期中考试后遗症,震荡了三周,定睛一看,马上又要期末考试了!

今年“卫衣+渣女裤”也太好穿了!显瘦、时髦,谁穿谁好看!

旅游要闻

可徒步可骑行,地铁直达广州「森林氧吧」

任天堂推出《王国之泪》左纳乌扭蛋 2025年春季发售

本地新闻

云游中国|来伦布夏果感受充满Passion的人生

无障碍浏览 进入关怀版