教程

GIS云套件监控

SuperMap iManager支持监控GIS云套件站点,可通过拓扑图了解服务间的关联以及每个服务的运行状态,通过资源监控掌握站点的资源情况,通过流量监控实现服务度量与服务追踪。

以下分别介绍拓扑图、资源监控、以及流量监控。

拓扑图

请按以下步骤查看拓扑图:

  1. 点击iManager左侧导航栏站点管理->您的GIS云套件名称进入页面;
  2. 在GIS云套件页面左上角点击拓扑图,如下图:

    topoenter

    GIS云套件拓扑图便于了解服务间的关联,如下图。其中,菱形图案和专用图标代表服务;圆形图案代表服务节点(当服务伸缩时,可看见一个服务拥有多个圆形节点),绿色圆表示服务节点运行正常,红色圆表示节点服务不可用。拓扑图支持放大缩小。将鼠标放置任意图案上方,与该图有关的关联图案会突出显示,没有关联的会被隐藏。图案(图标)与图案(图标)间以箭头和文字的方式对关联进行解释。

    topopic

资源监控

SuperMap iManager内置度量分析与可视化工具Grafana,支持展示服务与容器运行时的资源占用情况,查看实时负载。

服务资源监控

在您的GIS云套件站点主页,使用页面右侧滚动条或鼠标滚动按钮将页面拖至下方统计图处。

GIS云套件运行状态统计图如下图所示。通过该页面可监控各服务的CPU使用率,内存占用量,网络接收速率,网络传输速率,磁盘占用量等实时情况。点击图例(下图右侧红框所示)中的服务名称可单独监控相应服务。用户可对监控面板进行放大或缩小,随意拖拽面板以调整页面布局。除此之外,还可在监控页面进行如下操作:

statisticpic

  • 时间范围:自定义选择时间段查看监控记录。
  • 自动刷新时间:设置自动刷新监控页面的时间间隔。
  • 手动刷新:点击刷新按钮对监控页面进行手动刷新。
  • 保存:对面板进行缩放、拖拽等调整后,可保存当前页面样式。
  • 版本管理:每次保存的页面样式都会存入iManager中,使用版本管理可选择恢复任意一版页面样式。

容器资源监控

在您的GIS云套件站点主页,点击需监控容器的服务名称,如下图;

entercontainermonitor

在页面下方查看指定容器的统计图。

指定容器运行状态统计图如下图所示。通过该页面可监控单个容器的CPU使用率,内存占用量,网络接收速率,网络传输速率,磁盘占用量等实时情况。用户可对监控面板进行放大或缩小,随意拖拽面板以调整页面布局。除此之外,还可保存页面样式、管理版本、设定监控时间段、设定自动刷新时间及手动刷新,详情请参见站点监控

containermonitor

流量监控

SuperMap iManager融入Istio技术,可智能控制服务流向与API调用;通过服务间的身份验证、授权与加密托管,保障服务安全;利用申请策略确保服务执行完成、资源分配公平;为服务提供丰富的自动追踪能力、监控与日志信息。

Istio允许制定微服务间的互访策略,实现访问控制。访问控制确保微服务只能被指定的微服务访问,拒绝陌生服务访问,从而提升服务的安全性。比如说,iPortal服务只能被ispeco-dashboard-api和iserver-gateway服务访问,除了这两个服务之外的服务访问iPortal将会被拒绝。

服务追踪

服务追踪分为对GIS云套件站点的整体追踪,以及对单个服务的链路追踪。

在GIS云套件站点主页,点击左上角服务追踪进入kiali服务追踪页面。kiali左侧导航栏有Overview(概览)、Graph(图表)、Applications(应用)、Workloads(工作负载)、Services(服务)、以及Istio Config(Istio配置)六项,可查服务流量、配置状态、健康状态、应用数量等信息。

Graph页面可视化GIS云套件站点中应用、服务、工作负载的运行状况与流量等信息,提供实时动态拓扑图。如下图,在页面左上角,可选择需要监控的站点(Kubernetes中称作命名空间)、站点中的监控主体(应用、服务或工作负载)、拓扑图中显示的内容与标签,搜索/隐藏节点与关联线;在页面左下角,可放大/缩小拓扑图,选择拓扑图布局方式,打开/关闭拓扑图图例;在页面右侧,可选择站点的监控时间范围(如一分钟以内、一小时以内、一天以内等),设置自动刷新时间,查看站点中监控对象的数量(服务数量、应用数量、关联线数量等),查看流量的出入详情。更多介绍请参见kiali官方文档

kialiui

在GIS云套件站点主页,点击服务列表中服务对应的服务追踪进入Jaeger UI服务链路追踪页面。该页面可查看服务的Span、Trace等追踪信息。Trace是一个请求的全过程,代表分布式系统中一个请求穿过所有服务的整个行程,一个Trace中有一个或多个Span。Span在Trace中代表执行路径中的一个微服务。

如下图,页面左侧可对Trace进行筛选:

  • Service(服务): 选择需要查看的服务。
  • Operation(操作):选择服务Trace过程中的的操作。
  • Tags(标签):过滤服务Trace的状态码、请求结果等。
  • Lookback(时间范围):选择查询服务Trace的时间范围。
  • Min Duration(最小请求持续时间):过滤服务Trace请求持续时间的最小值。
  • Max Duration(最大请求持续时间):过滤服务Trace请求持续时间的最大值。
  • Limit Resultes(结果限制):设置搜索结果的显示数量。

页面右侧显示筛选结果,上方图表X轴为服务Trace发生的时间点,Y轴为服务Trace的持续时间。可选择结果的排序方式,点击“Deep Dependency Graph”查看服务的依赖关系。在结果列表中,可看见每一条Trace的Span数量、持续时间、发生时间等信息,点击列表中的Trace可查看追踪详情。更多介绍请参见Jaeger官方文档

jaegerui

服务度量

服务度量分为对GIS云套件站点的整体度量,以及对单个服务的度量。

在GIS云套件站点主页,点击左上角服务度量查看站点整体度量。页面共有六项度量指标,分别为全站请求量、全站请求成功率(响应码非5xx)、4xxs、5xxs、HTTP/GRPC负载、以及TCP负载。

sitemetrics

  • 全站点请求量:该站点每秒的请求量。
  • 全站请求成功率(响应码非5xx):该站点请求的成功率,只要响应码不是5xx,均视为请求成功。响应码5xx表示服务器中出现的错误。
  • 4xxs:该站点每秒返回响应码4xx的数量。响应码4xx表示客户机中出现的错误。
  • 5xxs:该站点每秒返回响应码5xx的数量。

HTTP/GRPC负载展示了传输协议与服务调用的负载,有度量指标Service、Workload、Requests、P50 Latency、P90 Latency、P99 Latency、以及Success Rate。

  • Service(服务):服务中显示的内容为kube-dns赋予服务的记录,即“服务名称.命名空间.svc.cluster.local”。
  • Workload(工作负载):工作负载中显示的内容为“服务名称.命名空间”。
  • Requests:请求数。该服务每秒的请求量。
  • P50 Latency:响应延迟的中位数。例如,该服务的P50 Latency为3 ms,表示有50%的概率响应延迟为3毫秒以内。
  • P90 Latency:响应延迟的P90值。例如,该服务的P90 Latency为5 ms,表示有90%的概率响应延迟为5毫秒以内。
  • P99 Latency:响应延迟的P99值。例如,该服务的P99 Latency为5 ms,表示有99%的概率响应延迟为5毫秒以内。
  • Success Rate:服务请求成功率。

TCP负载展示了传输控制协议的负载,有度量指标Service、Workload、Bytes Received、以及Bytes Sent。

  • Service:服务中显示的内容为kube-dns赋予服务的记录,即“服务名称.命名空间.svc.cluster.local”。
  • Workload:工作负载中显示的内容为“服务名称.命名空间”。
  • Bytes Received:字节接收速度,单位为字节/每秒。
  • Bytes Sent:字节发送速度,单位为字节/每秒。

用户可对监控面板进行放大或缩小,随意拖拽面板以调整页面布局。还可保存页面样式、管理版本、设定监控时间段、设定自动刷新时间及手动刷新,请参见服务资源监控

在GIS云套件站点主页,点击服务列中的服务度量查看单个服务的度量信息。页面分别展示了该服务度量信息、CLIENT WORKLOADS、以及SERVICE WORKLOADS。在单个服务的服务度量中,主角为被查看的SERVICE(主角服务);CLIENT(以下称为“客户端”)是向主角服务发送请求的多个服务;SERVER(以下称为“服务端”)为主角服务提供服务能力,可以有多个服务。

服务度量信息的监控对象为服务,有以下度量指标:

servicemetricsinfo

  • 发送请求量:每秒来自客户端的请求数量。
  • 发送请求成功率(响应码非5xx):来自客户端请求的成功率,只要响应码不是5xx,均视为请求成功。响应码5xx表示服务器中出现的错误。
  • 发送请求持续时间:客户端发送请求延迟,共有P50、P90、P99三个值。例如,P50为1s,表示有50%的概率发送请求延迟为1秒以内。
  • 通过TCP接收的数据(Byte):TCP接收数据的速度,单位为千字节每秒。
  • 响应请求量:服务端每秒响应请求的数量。
  • 响应成功率(响应码非5xx):服务端响应请求的成功率,只要响应码不是5xx,均视为成功。响应码5xx表示服务器中出现的错误。
  • 响应持续时间:服务端响应请求延迟,共有P50、P90、P99三个值。例如,P50为1s,表示有50%的概率响应请求延迟为1秒以内。
  • 通过TCP发送的数据(Byte):TCP发送数据的速度,单位为千字节每秒。

CLIENT WORKLOADS为客户端工作负载,即调用该服务的服务工作负载,有以下度量指标:

clientworkload

  • 按请求来源和响应码划分的接收请求:传入请求的客户端服务的服务名与响应码。
  • 按请求来源划分的接收请求成功率:客户端服务的传入成功率。
  • 按请求来源划分的接收请求持续时间:客户端服务传入请求的延迟。
  • 按请求来源划分的接收请求大小:客户端服务的传入请求大小。
  • 按请求来源划分的响应大小:客户端服务的响应大小。
  • 从TCP连接中接收到的数据(Byte):传入TCP连接的字节接收速度。
  • 从TCP接连中发送的数据(Byte):传入TCP连接的字节发送速度。

SERVICE WORKLOADS为服务工作负载,即提供该服务的服务工作负载,有以下度量指标:

serviceworkload

  • 按响应目的和响应码划分的接收请求:传入请求的服务端的服务名与响应码。
  • 按请求来源划分的接收请求成功率:服务端服务的传入成功率。
  • 按请求来源划分的接收请求持续时间:服务端服务传入请求的延迟。
  • 按请求来源划分的接收请求大小:服务端服务传入请求的大小。
  • 按请求来源划分的响应大小:服务端服务的响应大小。
  • 从TCP连接中接收到的数据(Byte):传入TCP连接的字节接收速度。
  • 从TCP接连中发送的数据(Byte):传入TCP连接的字节发送速度。

用户可对监控面板进行放大或缩小,随意拖拽面板以调整页面布局。还可保存页面样式、管理版本、设定监控时间段、设定自动刷新时间及手动刷新,请参见服务资源监控