Ethtool 计数器¶
- 版权:
© 2023, NVIDIA CORPORATION 及其关联公司。保留所有权利。
目录¶
概述¶
计数器的计数位置不同,因此分为几个计数器组。此外,每组计数器可能包含不同的计数器类型。
这些计数器组基于网络设置中的组件(如下图所示)进行描述:
----------------------------------------
| |
---------------------------------------- ---------------------------------------- |
| Hypervisor | | VM | |
| | | | |
| ------------------- --------------- | | ------------------- --------------- | |
| | Ethernet driver | | RDMA driver | | | | Ethernet driver | | RDMA driver | | |
| ------------------- --------------- | | ------------------- --------------- | |
| | | | | | | | |
| ------------------- | | ------------------- | |
| | | | | |--
---------------------------------------- ----------------------------------------
| |
------------- -----------------------------
| |
------ ------ ------ ------ ------ ------ ------
-----| PF |----------------------| VF |-| VF |-| VF |----- --| PF |--- --| PF |--- --| PF |---
| ------ ------ ------ ------ | | ------ | | ------ | | ------ |
| | | | | | | |
| | | | | | | |
| | | | | | | |
| eSwitch | | eSwitch | | eSwitch | | eSwitch |
---------------------------------------------------------- ----------- ----------- -----------
-------------------------------------------------------------------------------
| |
| |
| Uplink (no counters) |
-------------------------------------------------------------------------------
---------------------------------------------------------------
| |
| |
| MPFS (no counters) |
---------------------------------------------------------------
|
|
| Port
组¶
- 环
由驱动程序栈填充的软件计数器。
- Netdev
软件环形计数器的聚合。
- vPort 计数器
因转向或无缓冲区导致的流量计数器和丢包。可能表示网卡存在问题。这些计数器包括以太网流量计数器(包括原始以太网)和 RDMA/RoCE 流量计数器。
- 物理端口计数器
收集 PF 和 VF 统计信息的计数器。可能表示网卡、链路或网络存在问题。此测量点包含 IEEE 802.3、RFC2863、RFC 2819、RFC 3635 等标准化计数器以及流量控制、FEC 等附加计数器的信息。物理端口计数器不向虚拟机公开。
- 优先级端口计数器
一组物理端口计数器,按每个端口的每个优先级进行统计。
类型¶
计数器分为三种类型。
- 流量信息计数器
用于计数流量的计数器。这些计数器可用于负载估算或一般调试。
- 流量加速计数器
计数由 Mellanox 驱动程序或硬件加速的流量。这些计数器是信息计数器集的附加层,相同的流量在信息计数器和加速计数器中都会被计数。
- 错误计数器
这些计数器的增加可能表示存在问题。每个计数器都有解释和纠正措施。
可通过 ip link 或 ethtool 命令获取统计信息。ethtool 提供更详细的信息。
ip –s link show <if-name>
ethtool -S <if-name>
描述¶
与之前定义的计数器类似的 XSK、PTP 和 QoS 计数器将不再单独列出。例如,ptp_tx[i]_packets 将不会明确说明,因为 tx[i]_packets 描述了这两个计数器的行为,只是 ptp_tx[i]_packets 仅在使用精确时间协议时才计数。
环 / 网络设备计数器¶
以下计数器按每个环或软件端口提供。
这些计数器提供有关网卡加速流量的信息。除了标准计数器计数外,这些计数器还对加速流量进行计数(即,加速流量被计数两次)。
下表中的计数器名称指的是环和端口计数器。环计数器的表示法包含不带括号的 [i] 索引。端口计数器的表示法不包含 [i]。计数器名称 rx[i]_packets 将打印为环 0 的 rx0_packets 和软件端口的 rx_packets。
计数器 |
描述 |
类型 |
rx[i]_packets |
在环 i 上接收到的数据包数量。 |
信息 |
rx[i]_bytes |
在环 i 上接收到的字节数。 |
信息 |
tx[i]_packets |
在环 i 上发送的数据包数量。 |
信息 |
tx[i]_bytes |
在环 i 上发送的字节数。 |
信息 |
tx[i]_recover |
SQ 被恢复的次数。 |
错误 |
tx[i]_cqes |
在环 i 上 SQ 发出的 CQE 事件数量。 |
信息 |
tx[i]_cqe_err |
在环 i 的 SQ 上遇到的错误 CQE 数量。 |
错误 |
tx[i]_tso_packets |
在环 i 上发送的 TSO 数据包数量 [1]。 |
加速 |
tx[i]_tso_bytes |
在环 i 上发送的 TSO 字节数 [1]。 |
加速 |
tx[i]_tso_inner_packets |
在环 i 上发送的、指示携带内部封装的 TSO 数据包数量 [1]。 |
加速 |
tx[i]_tso_inner_bytes |
在环 i 上发送的、指示携带内部封装的 TSO 字节数 [1]。 |
加速 |
rx[i]_gro_packets |
使用硬件加速 GRO 处理的接收数据包数量。在环 i 上接收到的硬件 GRO 卸载数据包数量。仅计算真实的 GRO 数据包:即仅计算 SKB 中 GRO 计数 > 1 的数据包。 |
加速 |
rx[i]_gro_bytes |
使用硬件加速 GRO 处理的接收字节数。在环 i 上接收到的硬件 GRO 卸载字节数。仅计算真实的 GRO 数据包:即仅计算 SKB 中 GRO 计数 > 1 的数据包。 |
加速 |
rx[i]_gro_skbs |
由硬件加速 GRO 构建的 GRO SKB 数量。仅计算 GRO 计数 > 1 的 SKB。 |
信息 |
rx[i]_gro_large_hds |
使用硬件加速 GRO 接收的数据包中,具有需要分配额外内存的大型头部的数量。 |
信息 |
rx[i]_hds_nodata_packets |
在头部/数据分离模式下仅包含头部的数据包数量 [1]。 |
信息 |
rx[i]_hds_nodata_bytes |
在头部/数据分离模式下仅包含头部的数据包的字节数 [1]。 |
信息 |
rx[i]_hds_nosplit_packets |
在头部/数据分离模式下未被分离的数据包数量。当硬件不支持其协议分离时,数据包将不会被分离。例如 ICMPv4/v6 协议。目前,IPv4/IPv6 的 TCP 和 UDP 支持头部/数据分离 [1]。 |
信息 |
rx[i]_hds_nosplit_bytes |
在头部/数据分离模式下未被分离的数据包的字节数。当硬件不支持其协议分离时,数据包将不会被分离。例如 ICMPv4/v6 协议。目前,IPv4/IPv6 的 TCP 和 UDP 支持头部/数据分离 [1]。 |
信息 |
rx[i]_lro_packets |
在环 i 上接收到的 LRO 数据包数量 [1]。 |
加速 |
rx[i]_lro_bytes |
在环 i 上接收到的 LRO 字节数 [1]。 |
加速 |
rx[i]_ecn_mark |
ECN 标记已开启的接收数据包数量。 |
信息 |
rx_oversize_pkts_buffer |
由于到达 RQ 且超过设备为入站流量分配的软件缓冲区大小的长度而被丢弃的接收数据包数量。这可能意味着设备 MTU 大于软件缓冲区大小。 |
错误 |
rx_oversize_pkts_sw_drop |
由于 CQE 数据大于 MTU 大小而在软件中丢弃的接收数据包数量。 |
错误 |
rx[i]_csum_unnecessary |
在环 i 上接收到的带有 CHECKSUM_UNNECESSARY 标记的数据包 [1]。 |
加速 |
rx[i]_csum_unnecessary_inner |
在环 i 上接收到的带有内部封装且 CHECKSUM_UNNECESSARY 标记的数据包 [1]。 |
加速 |
rx[i]_csum_none |
在环 i 上接收到的带有 CHECKSUM_NONE 标记的数据包 [1]。 |
加速 |
rx[i]_csum_complete |
在环 i 上接收到的带有 CHECKSUM_COMPLETE 标记的数据包 [1]。 |
加速 |
rx[i]_csum_complete_tail |
已计算校验和、可能需要填充且能够使用 CHECKSUM_PARTIAL 完成填充的接收数据包数量。 |
信息 |
rx[i]_csum_complete_tail_slow |
校验和需要填充超过八字节的接收数据包数量。 |
信息 |
tx[i]_csum_partial |
在环 i 上发送的带有 CHECKSUM_PARTIAL 标记的数据包 [1]。 |
加速 |
tx[i]_csum_partial_inner |
在环 i 上发送的带有内部封装且 CHECKSUM_PARTIAL 标记的数据包 [1]。 |
加速 |
tx[i]_csum_none |
在环 i 上未进行硬件校验和加速的数据包。 |
信息 |
tx[i]_stopped / tx_queue_stopped [2] |
环 i 上的 SQ 已满的事件。如果此计数器增加,请检查为传输分配的缓冲区数量。 |
信息 |
tx[i]_wake / tx_queue_wake [2] |
环 i 上 SQ 从已满变为未满的事件。 |
信息 |
tx[i]_dropped / tx_queue_dropped [2] |
在环 i 上由于 DMA 映射失败而丢弃的已发送数据包。如果此计数器增加,请检查为传输分配的缓冲区数量。 |
错误 |
tx[i]_nop |
由于达到循环缓冲区末尾,插入到 SQ(与环 i 相关)的空 WQE(nop WQE)数量。当接近循环缓冲区末尾时,驱动程序可能会添加这些空 WQE,以避免处理 WQE 从队列末尾开始并在队列开头结束的状态。这是正常情况。 |
信息 |
tx[i]_timestamps |
在设备的 DMA 层进行硬件时间戳的已发送数据包。 |
信息 |
tx[i]_added_vlan_packets |
将 vlan 标签插入卸载到硬件的已发送数据包数量。 |
加速 |
rx[i]_removed_vlan_packets |
将 vlan 标签剥离卸载到硬件的已接收数据包数量。 |
加速 |
rx[i]_wqe_err |
在环 i 上接收到的错误操作码数量。 |
错误 |
rx[i]_mpwqe_frag |
在环 i 上未能分配复合页从而使用了分片 MPWQE(多数据包 WQE)的 WQE 数量。如果此计数器增加,可能表示没有足够的内存用于大页,驱动程序分配了分片页。这不是异常情况。 |
信息 |
rx[i]_mpwqe_filler_cqes |
在环 i 上发出的填充 CQE 事件数量。 |
信息 |
rx[i]_mpwqe_filler_strides |
在环 i 上填充 CQE 消耗的步幅数量。 |
信息 |
tx[i]_mpwqe_blks |
从多数据包 WQE (mpwqe) 处理的发送块数量。 |
信息 |
tx[i]_mpwqe_pkts |
从多数据包 WQE (mpwqe) 处理的发送数据包数量。 |
信息 |
rx[i]_cqe_compress_blks |
在环 i 上具有 CQE 压缩的接收块数量 [1]。 |
加速 |
rx[i]_cqe_compress_pkts |
在环 i 上具有 CQE 压缩的接收数据包数量 [1]。 |
加速 |
rx[i]_arfs_add |
为在环 i 上直接 RQ 转向而添加到设备的 aRFS 流规则数量 [1]。 |
加速 |
rx[i]_arfs_request_in |
已请求移动到环 i 以进行直接 RQ 转向的流规则数量 [1]。 |
加速 |
rx[i]_arfs_request_out |
已请求移出环 i 的流规则数量 [1]。 |
加速 |
rx[i]_arfs_expired |
已过期并被删除的流规则数量 [1]。 |
加速 |
rx[i]_arfs_err |
未能添加到流表的流规则数量。 |
错误 |
rx[i]_recover |
RQ 被恢复的次数。 |
错误 |
tx[i]_xmit_more |
在 skbuff 上设置 xmit_more 指示(无门铃)的已发送数据包数量。 |
加速 |
ch[i]_poll |
通道 i 的 NAPI 轮询调用次数。 |
信息 |
ch[i]_arm |
NAPI 轮询函数完成并在通道 i 上武装完成队列的次数。 |
信息 |
ch[i]_aff_change |
由于亲和性改变,NAPI 轮询函数在 CPU 上显式停止执行的次数,在通道 i 上。 |
信息 |
ch[i]_events |
通道 i 完成队列上的硬中断事件数量。 |
信息 |
ch[i]_eq_rearm |
EQ 被恢复的次数。 |
错误 |
ch[i]_force_irq |
NAPI 因 XSK 唤醒而通过向 ICOSQ 发布 NOP 而触发的次数。 |
加速 |
rx[i]_congst_umr |
在环 i 上,由于拥塞导致未完成的 UMR 请求被延迟的次数。 |
信息 |
rx_pp_alloc_fast |
成功快速路径分配的数量。 |
信息 |
rx_pp_alloc_slow |
慢速路径 0 阶分配的数量。 |
信息 |
rx_pp_alloc_slow_high_order |
慢速路径高阶分配的数量。 |
信息 |
rx_pp_alloc_empty |
当指针环为空时,此计数器会增加,因此强制进行了慢速路径分配。 |
信息 |
rx_pp_alloc_refill |
当某个分配触发了缓存的重新填充时,此计数器会增加。 |
信息 |
rx_pp_alloc_waive |
当从指针环获取的页由于 NUMA 不匹配而无法添加到缓存时,此计数器会增加。 |
信息 |
rx_pp_recycle_cached |
当回收将页面放置到页面池缓存中时,此计数器会增加。 |
信息 |
rx_pp_recycle_cache_full |
当页面池缓存已满时,此计数器会增加。 |
信息 |
rx_pp_recycle_ring |
当页面放入指针环时,此计数器会增加。 |
信息 |
rx_pp_recycle_ring_full |
当页面池中的页面由于指针环已满而释放时,此计数器会增加。 |
信息 |
rx_pp_recycle_released_ref |
当页面被释放(而不是回收)因为 refcnt > 1 时,此计数器会增加。 |
信息 |
rx[i]_xsk_buff_alloc_err |
在 XSK RQ 上下文中分配 skb 或 XSK 缓冲区失败的次数。 |
错误 |
rx[i]_xdp_tx_xmit |
由于 XDP 程序 XDP_TX 操作(反弹)而转发回端口的数据包数量。这些数据包不被其他软件计数器计数。这些数据包由物理端口和 vPort 计数器计数。 |
信息 |
rx[i]_xdp_tx_mpwqe |
在 RQ 上下文中由网络设备传输并通过网络设备 XDP_TX 的多数据包 WQE 数量。 |
加速 |
rx[i]_xdp_tx_inlnw |
已传输的 WQE 数据段的数量,其中数据可以内联到 WQE 中,然后在 RQ 上下文中进行 XDP_TX。 |
加速 |
rx[i]_xdp_tx_nops |
发布到 XDP SQ 的 NOP WQEBB(WQE 构建块)数量。 |
加速 |
rx[i]_xdp_tx_full |
本应由于 XDP_TX 操作而转发回端口但由于传输队列已满而被丢弃的数据包数量。这些数据包不被其他软件计数器计数。这些数据包由物理端口和 vPort 计数器计数。您可以打开更多接收队列,将接收流量分散到所有队列中,和/或增加接收环大小。 |
错误 |
rx[i]_xdp_tx_err |
RX 环的 XDP_TX 环上发生 XDP_TX 错误(例如帧过长和帧过短)的次数。 |
错误 |
rx[i]_xdp_tx_cqes / rx_xdp_tx_cqe [2] |
在 XDP_TX 环的 CQ 上接收到的完成数量。 |
信息 |
rx[i]_xdp_drop |
由于 XDP 程序 XDP_DROP 操作而被丢弃的数据包数量。这些数据包不被其他软件计数器计数。这些数据包由物理端口和 vPort 计数器计数。 |
信息 |
rx[i]_xdp_redirect |
在环 i 上触发 XDP 重定向操作的次数。 |
加速 |
tx[i]_xdp_xmit |
(由于 XDP 重定向)重定向到接口的数据包数量。这些数据包不被其他软件计数器计数。这些数据包由物理端口和 vPort 计数器计数。 |
信息 |
tx[i]_xdp_full |
(由于 XDP 重定向)重定向到接口但由于传输队列已满而被丢弃的数据包数量。这些数据包不被其他软件计数器计数。您可以增大传输队列。 |
信息 |
tx[i]_xdp_mpwqe |
卸载到网卡的多数据包 WQE 数量,这些 WQE 是从其他网络设备 XDP_REDIRECT 来的。 |
加速 |
tx[i]_xdp_inlnw |
WQE 数据段的数量,其中数据可以内联到 WQE 中,且数据段是从其他网络设备 XDP_REDIRECT 来的。 |
加速 |
tx[i]_xdp_nops |
发布到 SQ 的 NOP WQEBB(WQE 构建块)数量,这些 WQEBB 是从其他网络设备 XDP_REDIRECT 来的。 |
加速 |
tx[i]_xdp_err |
(由于 XDP 重定向)重定向到接口但由于帧过长和帧过短等错误而被丢弃的数据包数量。 |
错误 |
tx[i]_xdp_cqes |
在 CQ 上接收到的、因 XDP 重定向而重定向到接口的数据包的完成数量。 |
信息 |
tx[i]_xsk_xmit |
使用 XSK 零拷贝功能传输的数据包数量。 |
加速 |
tx[i]_xsk_mpwqe |
卸载到网卡的多数据包 WQE 数量,这些 WQE 是从其他网络设备 XDP_REDIRECT 来的。 |
加速 |
tx[i]_xsk_inlnw |
使用 XSK 零拷贝传输的 WQE 数据段的数量,其中数据可以内联到 WQE 中。 |
加速 |
tx[i]_xsk_full |
在 XSK 零拷贝模式下,当 SQ 已满时门铃响起的次数。 |
错误 |
tx[i]_xsk_err |
在 XSK 零拷贝模式下发生的错误数量,例如数据大小大于 MTU 大小。 |
错误 |
tx[i]_xsk_cqes |
在 XSK 零拷贝模式下处理的 CQE 数量。 |
加速 |
tx_tls_ctx |
为加密而添加到设备的 TLS TX 硬件卸载上下文数量。 |
加速 |
tx_tls_del |
从设备中移除的 TLS TX 硬件卸载上下文数量(连接已关闭)。 |
加速 |
tx_tls_pool_alloc |
在 TLS 硬件卸载池中成功分配工作单元的次数。 |
加速 |
tx_tls_pool_free |
在 TLS 硬件卸载池中释放工作单元的次数。 |
加速 |
rx_tls_ctx |
为解密而添加到设备的 TLS RX 硬件卸载上下文数量。 |
加速 |
rx_tls_del |
从设备中删除的 TLS RX 硬件卸载上下文数量(连接已完成)。 |
加速 |
rx[i]_tls_decrypted_packets |
成功解密的 RX 数据包数量,这些数据包是 TLS 流的一部分。 |
加速 |
rx[i]_tls_decrypted_bytes |
在 RX 数据包中成功解密的 TLS 有效载荷字节数。 |
加速 |
rx[i]_tls_resync_req_pkt |
带有重新同步请求的接收 TLS 数据包数量。 |
加速 |
rx[i]_tls_resync_req_start |
TLS 异步重新同步请求开始的次数。 |
加速 |
rx[i]_tls_resync_req_end |
TLS 异步重新同步请求通过提供硬件跟踪的 tcp-seq 正确结束的次数。 |
加速 |
rx[i]_tls_resync_req_skip |
TLS 异步重新同步请求过程已开始但未正确结束的次数。 |
错误 |
rx[i]_tls_resync_res_ok |
TLS 重新同步响应调用驱动程序成功处理的次数。 |
加速 |
rx[i]_tls_resync_res_retry |
当 ICOSQ 已满时,TLS 重新同步响应调用驱动程序被重新尝试的次数。 |
错误 |
rx[i]_tls_resync_res_skip |
TLS 重新同步响应调用驱动程序不成功终止的次数。 |
错误 |
rx[i]_tls_err |
CQE TLS 卸载出现问题的次数。 |
错误 |
tx[i]_tls_encrypted_packets |
由内核进行 TLS 加密的发送数据包数量。 |
加速 |
tx[i]_tls_encrypted_bytes |
由内核进行 TLS 加密的发送字节数。 |
加速 |
tx[i]_tls_ooo |
在环 i 上处理乱序 TLS SQE 片段的次数。 |
加速 |
tx[i]_tls_dump_packets |
通过 DMA 从网卡复制的 TLS 解密数据包数量。 |
加速 |
tx[i]_tls_dump_bytes |
通过 DMA 从网卡复制的 TLS 解密字节数。 |
加速 |
tx[i]_tls_resync_bytes |
请求重新同步以进行解密的 TLS 字节数。 |
加速 |
tx[i]_tls_skip_no_sync_data |
可以安全跳过/不需要解密的 TLS 发送数据量。 |
加速 |
tx[i]_tls_drop_no_sync_data |
由于 TLS 数据重传而被丢弃的 TLS 发送数据量。 |
加速 |
ptp_cq[i]_abort |
在精确时间协议中,由于端口时间戳和 CQE 时间戳之间的偏差大于 128 秒而必须跳过 CQE 的次数。 |
错误 |
ptp_cq[i]_abort_abs_diff_ns |
在精确时间协议中,当端口时间戳和 CQE 时间戳之间的差值大于 128 秒时,时间差的累积值。 |
错误 |
ptp_cq[i]_late_cqe |
在 PTP 时间戳 CQ 上交付 CQE 的次数,此时 CQE 是未预期的,因为设备通常会确保不发布 CQE 的特定时间已过去。 |
错误 |
ptp_cq[i]_lost_cqe |
由于时间差流逝,设备预期不会在 PTP 时间戳 CQE 上交付 CQE 的次数。如果此类 CQE 以某种方式交付,则 ptp_cq[i]_late_cqe 会增加。 |
错误 |
对应的环和全局计数器不共享相同的名称(即不遵循通用的命名方案)。
vPort 计数器¶
连接到 eSwitch 的网卡端口上的计数器。
计数器 |
描述 |
类型 |
rx_vport_unicast_packets |
接收到的单播数据包,转向端口,包括原始以太网 QP/DPDK 流量,不包括 RDMA 流量。 |
信息 |
rx_vport_unicast_bytes |
接收到的单播字节数,转向端口,包括原始以太网 QP/DPDK 流量,不包括 RDMA 流量。 |
信息 |
tx_vport_unicast_packets |
发送的单播数据包,从端口转向,包括原始以太网 QP/DPDK 流量,不包括 RDMA 流量。 |
信息 |
tx_vport_unicast_bytes |
发送的单播字节数,从端口转向,包括原始以太网 QP/DPDK 流量,不包括 RDMA 流量。 |
信息 |
rx_vport_multicast_packets |
接收到的组播数据包,转向端口,包括原始以太网 QP/DPDK 流量,不包括 RDMA 流量。 |
信息 |
rx_vport_multicast_bytes |
接收到的组播字节数,转向端口,包括原始以太网 QP/DPDK 流量,不包括 RDMA 流量。 |
信息 |
tx_vport_multicast_packets |
发送的组播数据包,从端口转向,包括原始以太网 QP/DPDK 流量,不包括 RDMA 流量。 |
信息 |
tx_vport_multicast_bytes |
发送的组播字节数,从端口转向,包括原始以太网 QP/DPDK 流量,不包括 RDMA 流量。 |
信息 |
rx_vport_broadcast_packets |
接收到的广播数据包,转向端口,包括原始以太网 QP/DPDK 流量,不包括 RDMA 流量。 |
信息 |
rx_vport_broadcast_bytes |
接收到的广播字节数,转向端口,包括原始以太网 QP/DPDK 流量,不包括 RDMA 流量。 |
信息 |
tx_vport_broadcast_packets |
发送的广播数据包,从端口转向,包括原始以太网 QP/DPDK 流量,不包括 RDMA 流量。 |
信息 |
tx_vport_broadcast_bytes |
发送的广播字节数,从端口转向,包括原始以太网 QP/DPDK 流量,不包括 RDMA 流量。 |
信息 |
rx_vport_rdma_unicast_packets |
接收到的 RDMA 单播数据包,转向端口(计数器计数 RoCE/UD/RC 流量)[1]。 |
加速 |
rx_vport_rdma_unicast_bytes |
接收到的 RDMA 单播字节数,转向端口(计数器计数 RoCE/UD/RC 流量)[1]。 |
加速 |
tx_vport_rdma_unicast_packets |
发送的 RDMA 单播数据包,从端口转向(计数器计数 RoCE/UD/RC 流量)[1]。 |
加速 |
tx_vport_rdma_unicast_bytes |
发送的 RDMA 单播字节数,从端口转向(计数器计数 RoCE/UD/RC 流量)[1]。 |
加速 |
rx_vport_rdma_multicast_packets |
接收到的 RDMA 组播数据包,转向端口(计数器计数 RoCE/UD/RC 流量)[1]。 |
加速 |
rx_vport_rdma_multicast_bytes |
接收到的 RDMA 组播字节数,转向端口(计数器计数 RoCE/UD/RC 流量)[1]。 |
加速 |
tx_vport_rdma_multicast_packets |
发送的 RDMA 组播数据包,从端口转向(计数器计数 RoCE/UD/RC 流量)[1]。 |
加速 |
tx_vport_rdma_multicast_bytes |
发送的 RDMA 组播字节数,从端口转向(计数器计数 RoCE/UD/RC 流量)[1]。 |
加速 |
vport_loopback_packets |
已回环的单播、组播和广播数据包(已接收和已发送),IB/Eth [1]。 |
加速 |
vport_loopback_bytes |
已回环的单播、组播和广播字节数(已接收和已发送),IB/Eth [1]。 |
加速 |
rx_steer_missed_packets |
网卡接收到的数据包数量,但由于与网卡流表中的任何流不匹配而被丢弃。 |
错误 |
rx_packets |
仅限代表器:已接收并由管理程序处理的数据包。 |
信息 |
rx_bytes |
仅限代表器:已接收并由管理程序处理的字节数。 |
信息 |
tx_packets |
仅限代表器:已发送并由管理程序处理的数据包。 |
信息 |
tx_bytes |
仅限代表器:已发送并由管理程序处理的字节数。 |
信息 |
dev_internal_queue_oob |
由于内部设备 RQ 缺少接收 WQE 而丢弃的数据包数量。 |
错误 |
物理端口计数器¶
物理端口计数器是连接适配器到网络的外部端口上的计数器。此测量点包含 IEEE 802.3、RFC2863、RFC 2819、RFC 3635 等标准化计数器以及流量控制、FEC 等附加计数器的信息。
计数器 |
描述 |
类型 |
rx_packets_phy |
在物理端口上接收到的数据包数量。此计数器不包括因 FCS、帧大小和类似错误而被丢弃的数据包。 |
信息 |
tx_packets_phy |
在物理端口上发送的数据包数量。 |
信息 |
rx_bytes_phy |
在物理端口上接收到的字节数,包括以太网头部和 FCS。 |
信息 |
tx_bytes_phy |
在物理端口上发送的字节数。 |
信息 |
rx_multicast_phy |
在物理端口上接收到的组播数据包数量。 |
信息 |
tx_multicast_phy |
在物理端口上发送的组播数据包数量。 |
信息 |
rx_broadcast_phy |
在物理端口上接收到的广播数据包数量。 |
信息 |
tx_broadcast_phy |
在物理端口上发送的广播数据包数量。 |
信息 |
rx_crc_errors_phy |
由于物理端口上的 FCS(帧校验序列)错误而被丢弃的接收数据包数量。如果此计数器高速增加,请使用下面的 rx_symbol_error_phy 和 rx_corrected_bits_phy 计数器检查链路质量。 |
错误 |
rx_in_range_len_errors_phy |
由于物理端口上的长度/类型错误而被丢弃的接收数据包数量。 |
错误 |
rx_out_of_range_len_phy |
由于物理端口上长度超出允许范围而被丢弃的接收数据包数量。如果此计数器增加,则意味着连接到适配器的对等方配置了更大的 MTU。使用相同的 MTU 配置应能解决此问题。 |
错误 |
rx_oversize_pkts_phy |
由于物理端口上长度超过 MTU 大小而被丢弃的接收数据包数量。如果此计数器增加,则意味着连接到适配器的对等方配置了更大的 MTU。使用相同的 MTU 配置应能解决此问题。 |
错误 |
rx_symbol_err_phy |
由于物理端口上的物理编码错误(符号错误)而被丢弃的接收数据包数量。 |
错误 |
rx_mac_control_phy |
在物理端口上接收到的 MAC 控制数据包数量。 |
信息 |
tx_mac_control_phy |
在物理端口上发送的 MAC 控制数据包数量。 |
信息 |
rx_pause_ctrl_phy |
在物理端口上接收到的链路层暂停数据包数量。如果此计数器增加,则意味着网络拥塞,无法吸收来自适配器的流量。 |
信息 |
tx_pause_ctrl_phy |
在物理端口上发送的链路层暂停数据包数量。如果此计数器增加,则意味着网卡拥塞,无法吸收来自网络的流量。 |
信息 |
rx_unsupported_op_phy |
在物理端口上接收到的带有不支持操作码的 MAC 控制数据包数量。 |
错误 |
rx_discards_phy |
由于物理端口上缺少缓冲区而被丢弃的接收数据包数量。如果此计数器增加,则意味着适配器拥塞,无法吸收来自网络的流量。 |
错误 |
tx_discards_phy |
即使未检测到错误,但在传输时被丢弃的数据包数量。丢弃可能由于链路处于关闭状态、队头阻塞、网络暂停等原因发生。 |
错误 |
tx_errors_phy |
由于物理端口上长度超过 MTU 大小而被丢弃的已发送数据包数量。 |
错误 |
rx_undersize_pkts_phy |
由于物理端口上长度小于 64 字节而被丢弃的接收数据包数量。如果此计数器增加,则意味着连接到适配器的对等方配置了非标准 MTU 或收到了格式错误的数据包。 |
错误 |
rx_fragments_phy |
由于物理端口上长度小于 64 字节且存在 FCS 错误而被丢弃的接收数据包数量。如果此计数器增加,则意味着连接到适配器的对等方配置了非标准 MTU。 |
错误 |
rx_jabbers_phy |
由于物理端口上长度大于 64 字节且存在 FCS 错误而被丢弃的接收数据包数量。 |
错误 |
rx_64_bytes_phy |
在物理端口上接收到的尺寸为 64 字节的数据包数量。 |
信息 |
rx_65_to_127_bytes_phy |
在物理端口上接收到的尺寸为 65 到 127 字节的数据包数量。 |
信息 |
rx_128_to_255_bytes_phy |
在物理端口上接收到的尺寸为 128 到 255 字节的数据包数量。 |
信息 |
rx_256_to_511_bytes_phy |
在物理端口上接收到的尺寸为 256 到 511 字节的数据包数量。 |
信息 |
rx_512_to_1023_bytes_phy |
在物理端口上接收到的尺寸为 512 到 1023 字节的数据包数量。 |
信息 |
rx_1024_to_1518_bytes_phy |
在物理端口上接收到的尺寸为 1024 到 1518 字节的数据包数量。 |
信息 |
rx_1519_to_2047_bytes_phy |
在物理端口上接收到的尺寸为 1519 到 2047 字节的数据包数量。 |
信息 |
rx_2048_to_4095_bytes_phy |
在物理端口上接收到的尺寸为 2048 到 4095 字节的数据包数量。 |
信息 |
rx_4096_to_8191_bytes_phy |
在物理端口上接收到的尺寸为 4096 到 8191 字节的数据包数量。 |
信息 |
rx_8192_to_10239_bytes_phy |
在物理端口上接收到的尺寸为 8192 到 10239 字节的数据包数量。 |
信息 |
link_down_events_phy |
链路操作状态变为关闭的次数。如果此计数器增加,可能意味着端口不稳定。您可能需要更换电缆/收发器。 |
错误 |
total_success_recovery_phy |
端口复位周期内任何类型成功恢复事件的总次数。 |
错误 |
rx_out_of_buffer |
接收队列没有为适配器入站流量分配软件缓冲区的次数。 |
错误 |
module_bus_stuck |
模块 I2C 总线(数据或时钟)检测到短路的次数。您可能需要更换电缆/收发器。 |
错误 |
module_high_temp |
模块温度过高的次数。如果此问题持续存在,您可能需要检查环境温度或更换电缆/收发器模块。 |
错误 |
module_bad_shorted |
模块电缆短路的次数。您可能需要更换电缆/收发器模块。 |
错误 |
module_unplug |
模块被弹出的次数。 |
信息 |
rx_buffer_passed_thres_phy |
端口接收缓冲区已超过 85% 满的事件数量。 |
信息 |
tx_pause_storm_warning_events |
设备长时间发送暂停的次数。 |
信息 |
tx_pause_storm_error_events |
设备长时间发送暂停,达到超时并禁用暂停帧传输的次数。在禁用暂停帧期间,可能发生了丢包。 |
错误 |
rx[i]_buff_alloc_err |
在环 i 上未能为接收到的数据包(或 SKB)分配缓冲区。 |
错误 |
rx_bits_phy |
此计数器提供有关可能已接收的流量总量的,可用作衡量 rx_pcs_symbol_err_phy 和 rx_corrected_bits_phy 中错误流量比率的指南。 |
信息 |
rx_pcs_symbol_err_phy |
此计数器计算未被 FEC 纠错算法纠正或 FEC 算法在此接口上未激活的符号错误数量。如果此计数器增加,则意味着网卡和网络之间的链路存在高误码率,并且流量正在丢失。您可能需要更换电缆/收发器。错误率是特定时间帧内 rx_pcs_symbol_err_phy 的数量除以 rx_bits_phy 的数量。 |
错误 |
rx_corrected_bits_phy |
根据活动 FEC (RS/FC) 在此端口上纠正的比特数量。如果此计数器增加,则意味着网卡和网络之间的链路存在高误码率。纠正比特率是特定时间帧内 rx_corrected_bits_phy 的数量除以 rx_bits_phy 的数量。 |
错误 |
rx_err_lane_[l]_phy |
此计数器计算每个通道 l 索引的物理原始错误数量。此计数器计算 FEC 纠正之前的错误。如果此计数器增加,则意味着网卡和网络之间的链路存在高误码率,并且流量可能会丢失。您可能需要更换电缆/收发器。请根据 rx_corrected_bits_phy 进行检查。 |
错误 |
rx_global_pause |
在物理端口上接收到的暂停数据包数量。如果此计数器增加,则意味着网络拥塞,无法吸收来自适配器的流量。注意:此计数器仅在全局暂停模式启用时才启用。 |
信息 |
rx_global_pause_duration |
在物理端口上接收到的暂停持续时间(以微秒为单位)。此计数器表示端口未发送任何流量的时间。如果此计数器增加,则意味着网络拥塞,无法吸收来自适配器的流量。注意:此计数器仅在全局暂停模式启用时才启用。 |
信息 |
tx_global_pause |
在物理端口上发送的暂停数据包数量。如果此计数器增加,则意味着适配器拥塞,无法吸收来自网络的流量。注意:此计数器仅在全局暂停模式启用时才启用。 |
信息 |
tx_global_pause_duration |
在物理端口上暂停发送的持续时间(以微秒为单位)。注意:此计数器仅在全局暂停模式启用时才启用。 |
信息 |
rx_global_pause_transition |
物理端口上从 Xoff 到 Xon 转换发生的次数。注意:此计数器仅在全局暂停模式启用时才启用。 |
信息 |
rx_if_down_packets |
由于接口关闭而被丢弃的接收数据包数量。 |
信息 |
优先级端口计数器¶
以下计数器是按 L2 优先级(0-7)计数的物理端口计数器。
注意:计数器名称中的 p 代表优先级。
计数器 |
描述 |
类型 |
rx_prio[p]_bytes |
在物理端口上以优先级 p 接收到的字节数。 |
信息 |
rx_prio[p]_packets |
在物理端口上以优先级 p 接收到的数据包数量。 |
信息 |
tx_prio[p]_bytes |
在物理端口上以优先级 p 发送的字节数。 |
信息 |
tx_prio[p]_packets |
在物理端口上以优先级 p 发送的数据包数量。 |
信息 |
rx_prio[p]_pause |
在物理端口上以优先级 p 接收到的暂停数据包数量。如果此计数器增加,则意味着网络拥塞,无法吸收来自适配器的流量。注意:此计数器仅在优先级 p 上启用 PFC 时可用。 |
信息 |
rx_prio[p]_pause_duration |
在物理端口上以优先级 p 接收到的暂停持续时间(以微秒为单位)。此计数器表示端口在此优先级上未发送任何流量的时间。如果此计数器增加,则意味着网络拥塞,无法吸收来自适配器的流量。注意:此计数器仅在优先级 p 上启用 PFC 时可用。 |
信息 |
rx_prio[p]_pause_transition |
物理端口上优先级 p 从 Xoff 到 Xon 转换发生的次数。注意:此计数器仅在优先级 p 上启用 PFC 时可用。 |
信息 |
tx_prio[p]_pause |
在物理端口上以优先级 p 发送的暂停数据包数量。如果此计数器增加,则意味着适配器拥塞,无法吸收来自网络的流量。注意:此计数器仅在优先级 p 上启用 PFC 时可用。 |
信息 |
tx_prio[p]_pause_duration |
在物理端口上以优先级 p 暂停发送的持续时间(以微秒为单位)。注意:此计数器仅在优先级 p 上启用 PFC 时可用。 |
信息 |
rx_prio[p]_buf_discard |
由于每个主机缺少接收缓冲区而被设备丢弃的数据包数量。 |
信息 |
rx_prio[p]_cong_discard |
由于每个主机拥塞而被设备丢弃的数据包数量。 |
信息 |
rx_prio[p]_marked |
由于每个主机拥塞而被设备标记为 ECN 的数据包数量。 |
信息 |
rx_prio[p]_discards |
由于缺少接收缓冲区而被设备丢弃的数据包数量。 |
信息 |
设备计数器¶
计数器 |
描述 |
类型 |
rx_pci_signal_integrity |
计数物理层 PCIe 信号完整性错误,以及由于帧错误和 CRC (dlp 和 tlp) 而导致恢复的转换次数。如果此计数器增加,请尝试将适配器卡移动到不同的插槽,以排除 PCI 插槽不良的可能性。验证您是否正在运行最新的固件和最新的服务器 BIOS 版本。 |
错误 |
tx_pci_signal_integrity |
计数物理层 PCIe 信号完整性错误,以及由另一侧发起的恢复转换次数(由于收到 TS/EIEOS 而进入恢复状态)。如果此计数器增加,请尝试将适配器卡移动到不同的插槽,以排除 PCI 插槽不良的可能性。验证您是否正在运行最新的固件和最新的服务器 BIOS 版本。 |
错误 |
outbound_pci_buffer_overflow |
由于 PCI 缓冲区溢出而丢弃的数据包数量。如果此计数器高速增加,可能表明主机的接收流量速率大于 PCIe 总线,从而发生拥塞。 |
信息 |
outbound_pci_stalled_rd |
在过去一秒内,网卡有出站非发布读请求但由于发布信用不足而无法执行操作的时间百分比(范围 0...100)。 |
信息 |
outbound_pci_stalled_wr |
在过去一秒内,网卡有出站发布写请求但由于发布信用不足而无法执行操作的时间百分比(范围 0...100)。 |
信息 |
outbound_pci_stalled_rd_events |
outbound_pci_stalled_rd 高于 30% 的秒数。 |
信息 |
outbound_pci_stalled_wr_events |
outbound_pci_stalled_wr 高于 30% 的秒数。 |
信息 |
dev_out_of_buffer |
设备拥有的队列没有分配足够缓冲区的次数。 |
错误 |