网易首页 > 网易号 > 正文 申请入驻

一文读懂可观测性与Opentelemetry

0
分享至

作者:博睿数据产品经理-刘亚辉

本文分两部分,共3400字,阅读大约5分钟

l 介绍可观测性

l 介绍Opentelemetry的核心概念

重新认识可观测性

管理学大师彼得德鲁克有一句话:“如果你无法衡量它,你就无法管理它”。在企业中,无论是管理人,还是管理事,抑或是管理系统,首先都需要衡量。衡量的过程其实是搜集信息的过程,有了足够的信息才能做出正确的判断,有了正确的判断才能做出有效的管理和行动方案。

下面我用一个模型来说明我对可观测性的理解:

简单

图释:通过观测看到表象,通过判断定位问题,通过优化解决问题。

可观测性描述的就是“观测-判断-优化-再观测”这个闭环的连续性、高效性。如果只有观测而无法基于观测做出判断,则不能称其具备可观测性。如果只有经验判断而没有数据支撑,也不能称其具备可观测性,这样会导致组织高度依赖个人能力会带来管理风险。如果优化之后无法反馈到观测上,或者因优化引入新的技术而导致无法观测,则其可观测性不可持续。如果在观测、判断、优化的闭环中需要付出很高的成本和承担风险,则其可观测性的价值为负。

很大

所以,当我们在谈可观测性的时候,其实更多考虑的是观测者、管理者的感受,也就是说在我们遇到问题的时候,能否轻而易举地在观测平台找到答案,没有阻力也没有困惑,这就是可观测性。随着企业的发展,组织架构(角色、观测者)和管理对象(系统、被观测者)都会随之发展变化,当使用了一堆传统的观测工具,却仍然无法满足观测者、管理者新的需求的时候,我们不禁要问:“可观测性何在?”

“可观测”不等于“可观测性”

下面,我们来看一下我们习以为常的观测方式。

图释:传统的观测工具是垂直的,观测者需要从多个工具中进行问题判断。

通常我们会基于自己想要的数据去搭建观测工具。当我们想了解掌握基础设施的健康状况的时候,我们会很自然想到搭建一个仪表盘,实时监测各项指标。当我们想了解业务是如何出问题,我们会很自然想到搭建一个日志平台,随时过滤排查业务日志。当我们想了解事务为什么高延迟,我们会很自然想到搭建一个链路监测平台,查询拓扑依赖和各节点的响应时间。这种模式很好,帮助我们解决了很多问题,以至于我们从不怀疑可观测性,我们信心满满。偶尔遇到大难题,把我们的仪表盘、日志平台、链路平台打开,所有的数据都在这里,我们坚信一定问题的根因。即使花费了很长时间,我们也只是告诉自己要多学习,多了解掌握自己负责的系统,下一次我一定能更快找到根因。是的,当我们想要的数据都摆在面前的时候,我们还有什么理由怪罪观测工具

能到

图释:人脑像一把尺子,根据经验比对多个指标来发现它们的相关性。

图释:当发现指标有毛刺的时候,往往需要在大脑中构建复杂的日志查询条件,费时不说还容易出错。

我们会不辞劳苦地在各种指标数据中寻找可能的关联性,得到关键线索后,我们会在大脑中构造出一堆复杂的日志查询条件来验证自己的猜想。就这样比对、猜想、验证,同时还要在各种工具中切换,不可否认很充实。

图释:系统规模庞大的时候,人已经无法去定位问题了。

传统的系统相对简单,上述方式行之有效。现代IT系统的关键词是分布式、池化、大数据、零信任、弹性、容错、云原生等,越来越庞大,越来越精细,越来越动态,同时也越来越复杂。通过人去寻找各种信息的关联性,再根据经验判断和优化,显然是不可行的,耗时耗力还无法找到根因。

问题

传统的工具是垂直的,引入一个新的组件的同时也会引入一个与之对应的观测工具,这样是保证了数据的全面性,但丢失了数据的关联性和分析排查的连贯性(换句话说,我们方方面面都监控到了,但遇到问题,还是不能很好地发现和定位)。此时我们很自然想到做一个统一的数据平台,想象中把所有数据放在一个平台就能解决关联性的问题,但往往实际情况是我们只是把数据堆在一个地方,用的时候还是按传统的方式各看各的。我们只是把无数根柱子(工具),融合成了三根柱子:一个观测指标、日志、链路的统一平台,数据统一了,但关联性还得靠人的知识和经验。

这里边最关键的其实是解决数据关联的问题,把之前需要人去比对、过滤的事交给程序去处理,程序最此类事同时也最可靠,人的时间更多的用在判断和决策上。这在复杂系统中,节省的时间会被放大很多倍,就这点小事就是可观测性看得见的未来

擅长

图释:未来观测工具需要通过时间和上下文来关联数据

那么,如何做数据关联呢?说起来很容易,那就是时间+空间的关联。在我们的统一数据平台上,由于数据是来自于各种观测工具的,虽然我们在数据格式上统一成了metric、log、trace,但不同工具的metric、log、trace的元数据截然不同,而如果我们在这个统一数据平台上去梳理和映射这些元数据的话,这将是庞杂、难维护、不可持续的。那该如何做呢?答案就是标准化。只有将标准化、结构化的数据喂给观测平台,观测平台才能从中发现价值。统一数据平台只是在数据格式上进行了标准化,而要想将trace、metric、log关联还必须建立context的标准化,context就是数据的空间信息,再叠加上时间信息的关联就可以发挥真正的观测价值。

巨大

Opentelemetry做了什么?

Opentelemetry(以下简称:OTel)就是解决数据标准化问题的一个项目,OTel由以下几部分组成:

l 跨语言的标准规范(Specification):定义了数据、上下文、API、概念术语等的规范。这是OTel的核心,它使得所有观测数据有机地统一起来,这样观测平台才能自动比对、自动过滤,同时也为AI提供了高质量的数据

l 接收、处理、输出观测数据的工具(Collector):一个用于接收OTel观测数据的工具,并支持通过配置pipeline对观测数据进行处理,输出给指定的后端。

l 各种语言的SDK(SDK):基于OTel标准的API实现的各种语言的SDK,用来支持自定义开发观测数据采集器。

l 采集器(Instrumentation):开箱即用的观测数据采集器。

OTel是开源项目,所有内容都可以在Github找到,下面我介绍几个关键的概念:

属性

从数据的角度看属性是一个键值对,本质上属性描述了空间信息,方便从空间上做数据关联。OTel定义了很多通用的属性,如果定义不明确或数据不一致时,是没法自动关联分析的。下面是Otel定义的K8S的Pod属性:

资源

从数据的角度看资源是一个键值对集合,本质上资源描述的是观测对象。相同观测对象的Metric、log、trace都有相同的资源数据(或称:相同上下文),这样就可以自动发现相关性。

事件

从数据的角度看事件是一个时间戳和一组属性组成的,用来描述某个时间发生了某件事。本质上是一个时间+空间的组合。

事件

指标

从数据的角度看指标是事件的聚合,在一个活跃的系统中,相同的事件会不断发生,指标提供了一个跨时间和空间的总览。沉浸在细节不一定有见解,跳出来,从更高的维度鸟瞰可能寻找到灵感。

跨度

从数据的角度看跨度由:操作名称、开始时间、持续时间、一组属性组成。跨度(又称:span)描述的是一个过程,如果说事件是在一个时间点构建了时间和空间的相关性,那么跨度就是在一个时间段上构建了时间和空间的相关性。

信号

信号是对标准遥测数据的抽象,相同数据模型的数据被归为一个信号。如:一个Metric是一个信号,所有Metric都具有统一标准的数据模型。一个Trace是一个信号,所有Trace都具有统一标准的数据模型。信号有一个重要的特性就是供应商无关,任何可观测系统供应商要支持OTel,都必须要按OTel的信号模型收集、上报、处理数据,这是保障高效数据关联的关键。

上下文

所有信号都基于相同的上下文,如:在同一个服务中采集的Metric、log、trace具有相同的上下文(如:service.id和service.name)。这其实就是在空间上建立的数据的关联。

敬畏工程

OTel在数据层面提供了标准规范和许多拿来即用的工具,大大方便了构建可观测平台,但是真正落地去构建适合自己的、全面可扩展的、稳定可靠的、低成本高效益的可观测平台是一个大工程,不是简单引入就可以的。这其中涉及到大数据引擎、高基数分析引擎、关系引擎、AI引擎等系统难题。此外,如何设计一个简单、高效、准确、协同、专业的平台也不是一而就的,需要懂数据也要懂技术还要懂设计。

我把可观测平台分以下层次:

1. 数据展示+人工关联比对+人工判断:大多数传统观测平台在这一层。

2. 信息关联展示+人工判断:部分观测平台通过梳理映射可以做一些相关性展示,减少人工发现的时间成本。

3. 信息判断 x 人工判断:少部分观测平台做了数据的高度标准化,可以根据相关性给出见解和建议。

4. 信息判断+行动:没有观测能只依靠工具做判断。

工具

博睿在数据采集层有十多年的技术积累,探针稳定可靠,部署简单。在数据处理方面也经受住了大业务量的考验,技术上不断创新形成了极具优势的架构。在数据标准化、结构化设计方面也形成了自己的体系。可以说我们刚跨越了第2层来到第3层,我们将从观测广度和深度两个方面丰富标准化的数据,此同时不断深化数据相关性,加上我们自研的SwiftAI中台赋能,未来将给出更多更精准的信息判断,帮助客户快速落地高效可持续的观测--判断--优化闭环。

客户

基于

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
德云社王九龙大婚!舅舅郭德纲缺席于谦证婚,共35桌座次很讲究

德云社王九龙大婚!舅舅郭德纲缺席于谦证婚,共35桌座次很讲究

裕丰娱间说
2024-11-18 22:57:12
泽连斯基说战争将提前结束!俄军进入库拉霍沃,红军城失守在即

泽连斯基说战争将提前结束!俄军进入库拉霍沃,红军城失守在即

王朝风云
2024-11-17 10:24:34
济宁坠楼女孩后续,14岁已死亡,坠落画面曝光,家人崩溃警方回应

济宁坠楼女孩后续,14岁已死亡,坠落画面曝光,家人崩溃警方回应

小盖纪实
2024-11-18 09:14:19
想不到11月还没结束,国家一级演员王劲松,就给影视圈演员敲警钟

想不到11月还没结束,国家一级演员王劲松,就给影视圈演员敲警钟

华人星光
2024-11-18 14:28:40
拜登之子将于下个月被判刑!白宫重申:若被定罪,总统不会赦免他

拜登之子将于下个月被判刑!白宫重申:若被定罪,总统不会赦免他

现代小青青慕慕
2024-11-19 07:13:17
CCTV直播调整!国足时间提前,赢球≠冠军,夺冠至少需要5-0

CCTV直播调整!国足时间提前,赢球≠冠军,夺冠至少需要5-0

体育就你秀
2024-11-18 17:47:55
上海一栋价值2120万独栋别墅3466万拍卖成交遭悔拍,损失149万

上海一栋价值2120万独栋别墅3466万拍卖成交遭悔拍,损失149万

天天话事
2024-11-19 09:33:32
18强赛乱套!亚洲第12绝杀了,冲向世界杯,国足剩5场:抢8分出线

18强赛乱套!亚洲第12绝杀了,冲向世界杯,国足剩5场:抢8分出线

侃球熊弟
2024-11-19 06:09:02
昨夜,济南上空出现,有人拍到了

昨夜,济南上空出现,有人拍到了

爱济南新闻客户端
2024-11-19 09:41:24
6连胜!瓦格纳32+8,布克14中5,杜兰特真沮丧,比尔换哈登就好了

6连胜!瓦格纳32+8,布克14中5,杜兰特真沮丧,比尔换哈登就好了

巴叔GO聊体育
2024-11-19 13:24:13
霍金去萝莉岛的内幕!

霍金去萝莉岛的内幕!

八卦疯叔
2024-11-19 10:00:40
突发:「葵司」退役!确认引退!

突发:「葵司」退役!确认引退!

Supreme情报网
2024-11-19 12:19:56
电池容量大了iPhone快一倍,今年国产手机咋突然悟了?

电池容量大了iPhone快一倍,今年国产手机咋突然悟了?

差评XPIN
2024-11-19 00:05:06
“苦瓜相”的5位女演员,五官漂亮却演啥都是晦涩

“苦瓜相”的5位女演员,五官漂亮却演啥都是晦涩

柴叔带你看电影
2024-11-17 23:47:56
1996年,安徽滁州,18岁的刘涛在南京担任文艺兵

1996年,安徽滁州,18岁的刘涛在南京担任文艺兵

视点历史
2024-10-14 22:16:11
圆明园4只黑天鹅“遇难”,真凶抓住了!留下的蛋将人工孵化

圆明园4只黑天鹅“遇难”,真凶抓住了!留下的蛋将人工孵化

极目新闻
2024-11-18 22:45:59
巴西第一夫人:去你X的,马斯克

巴西第一夫人:去你X的,马斯克

观察者网
2024-11-18 09:38:24
意外!崔康熙已接连拒绝两位巴西金靴锋霸冬窗来鲁能,引发热议

意外!崔康熙已接连拒绝两位巴西金靴锋霸冬窗来鲁能,引发热议

我就爱说足球
2024-11-19 12:22:43
苏州马拉松一男一女将给选手的免费零食打包“负重”奔跑?主办方回应

苏州马拉松一男一女将给选手的免费零食打包“负重”奔跑?主办方回应

极目新闻
2024-11-19 07:56:44
大陆特别点名赖清德后,赖清德加速处理2件事,美国要不满了?

大陆特别点名赖清德后,赖清德加速处理2件事,美国要不满了?

DS北风
2024-11-19 11:16:10
2024-11-19 13:42:44
博睿数据
博睿数据
国内IT运维监控和可观测性的领导者
349文章数 12关注度
往期回顾 全部

科技要闻

如果马云和孙正义的相遇晚了半年

头条要闻

苏州马拉松现多名疑似"薅羊毛"参赛者 称明年还来进货

头条要闻

苏州马拉松现多名疑似"薅羊毛"参赛者 称明年还来进货

体育要闻

15胜0负的骑士,真的在模仿勇士

娱乐要闻

没做错事的黄晓明为什么公开道歉

财经要闻

年底可能会“突击花钱”近1万亿

汽车要闻

后排够大 智能化提升 全新探岳L是你的菜么?

态度原创

数码
旅游
教育
家居
公开课

数码要闻

卢伟冰:小米手表S4销量接近上代的2倍 受大家喜爱

旅游要闻

今冬新疆独库公路库车段“不打烊”,免门票!

教育要闻

为什么很多孩子中考成绩好,高中却跟不上?班主任:早就注定了

家居要闻

纯白极简 现代简约

公开课

一块玻璃,如何改变人类世界?

无障碍浏览 进入关怀版