Ethtool 计数器¶
- 版权:
© 2023, NVIDIA CORPORATION & AFFILIATES. 保留所有权利。
目录¶
概述¶
根据计数器被计数的位置,有几个计数器组。此外,每个计数器组可能有不同的计数器类型。
这些计数器组基于网络设置中它们描述的组件,如下所示
----------------------------------------
| |
---------------------------------------- ---------------------------------------- |
| Hypervisor | | VM | |
| | | | |
| ------------------- --------------- | | ------------------- --------------- | |
| | Ethernet driver | | RDMA driver | | | | Ethernet driver | | RDMA driver | | |
| ------------------- --------------- | | ------------------- --------------- | |
| | | | | | | | |
| ------------------- | | ------------------- | |
| | | | | |--
---------------------------------------- ----------------------------------------
| |
------------- -----------------------------
| |
------ ------ ------ ------ ------ ------ ------
-----| PF |----------------------| VF |-| VF |-| VF |----- --| PF |--- --| PF |--- --| PF |---
| ------ ------ ------ ------ | | ------ | | ------ | | ------ |
| | | | | | | |
| | | | | | | |
| | | | | | | |
| eSwitch | | eSwitch | | eSwitch | | eSwitch |
---------------------------------------------------------- ----------- ----------- -----------
-------------------------------------------------------------------------------
| |
| |
| Uplink (no counters) |
-------------------------------------------------------------------------------
---------------------------------------------------------------
| |
| |
| MPFS (no counters) |
---------------------------------------------------------------
|
|
| Port
组¶
- 环
由驱动程序堆栈填充的软件计数器。
- Netdev
软件环计数器的聚合。
- vPort 计数器
由于转向或没有缓冲区而导致的流量计数器和丢包。可能表明网卡存在问题。这些计数器包括以太网流量计数器(包括原始以太网)和 RDMA/RoCE 流量计数器。
- 物理端口计数器
收集有关 PF 和 VF 统计信息的计数器。可能表明网卡、链路或网络存在问题。此测量点包含有关标准化计数器(如 IEEE 802.3、RFC2863、RFC 2819、RFC 3635)和附加计数器(如流量控制、FEC 等)的信息。物理端口计数器不会暴露给虚拟机。
- 优先级端口计数器
每个端口每个优先级的物理端口计数器集。
类型¶
计数器分为三种类型。
- 流量信息计数器
计算流量的计数器。这些计数器可用于负载估计或一般调试。
- 流量加速计数器
计算由 Mellanox 驱动程序或硬件加速的流量的计数器。这些计数器是信息计数器集的附加层,并且相同的流量在信息计数器和加速计数器中都被计数。
- 错误计数器
这些计数器的增加可能表明存在问题。每个计数器都有解释和纠正措施。
可以通过 ip link 或 ethtool 命令获取统计信息。ethtool 提供更详细的信息。
ip –s link show <if-name>
ethtool -S <if-name>
描述¶
与之前定义的计数器相似的 XSK、PTP 和 QoS 计数器将不会单独列出。例如,ptp_tx[i]_packets 不会显式记录,因为 tx[i]_packets 描述了两个计数器的行为,只是 ptp_tx[i]_packets 仅在使用精确时间协议时计数。
环/Netdev 计数器¶
以下计数器可用于每个环或软件端口。
这些计数器提供有关网卡加速流量的信息。这些计数器除了计算加速流量的标准计数器之外,还会计算加速流量(即加速流量被计算两次)。
下表中的计数器名称指的是环计数器和端口计数器。环计数器的表示法包括不带括号的 [i] 索引。端口计数器的表示法不包括 [i]。计数器名称 rx[i]_packets 对于环 0 将打印为 rx0_packets,对于软件端口将打印为 rx_packets。
计数器 |
描述 |
类型 |
rx[i]_packets |
在环 i 上接收的数据包数。 |
信息 |
rx[i]_bytes |
在环 i 上接收的字节数。 |
信息 |
tx[i]_packets |
在环 i 上发送的数据包数。 |
信息 |
tx[i]_bytes |
在环 i 上发送的字节数。 |
信息 |
tx[i]_recover |
SQ 被恢复的次数。 |
错误 |
tx[i]_cqes |
在环 i 上发出的 SQ 上的 CQE 事件数。 |
信息 |
tx[i]_cqe_err |
在环 i 的 SQ 上遇到的错误 CQE 数。 |
错误 |
tx[i]_tso_packets |
在环 i 上发送的 TSO 数据包数 [1]。 |
加速 |
tx[i]_tso_bytes |
在环 i 上发送的 TSO 字节数 [1]。 |
加速 |
tx[i]_tso_inner_packets |
在环 i 上发送的,指示为携带内部封装的 TSO 数据包数 [1]。 |
加速 |
tx[i]_tso_inner_bytes |
在环 i 上发送的,指示为携带内部封装的 TSO 字节数 [1]。 |
加速 |
rx[i]_gro_packets |
使用硬件加速 GRO 处理的接收数据包数。在环 i 上接收的硬件 GRO 卸载数据包数。仅计算真正的 GRO 数据包:仅计算 SKB 中 GRO 计数 > 1 的数据包。 |
加速 |
rx[i]_gro_bytes |
使用硬件加速 GRO 处理的接收字节数。在环 i 上接收的硬件 GRO 卸载字节数。仅计算真正的 GRO 数据包:仅计算 SKB 中 GRO 计数 > 1 的数据包。 |
加速 |
rx[i]_gro_skbs |
从硬件加速 GRO 构建的 GRO SKB 数。仅计算 GRO 计数 > 1 的 SKB。 |
信息 |
rx[i]_gro_large_hds |
使用硬件加速 GRO 接收的,具有需要分配额外内存的大标头的数据包数。 |
信息 |
rx[i]_hds_nodata_packets |
标头/数据拆分模式下的仅标头数据包数 [1]。 |
信息 |
rx[i]_hds_nodata_bytes |
标头/数据拆分模式下仅标头数据包的字节数 [1]。 |
信息 |
rx[i]_hds_nosplit_packets |
在标头/数据拆分模式下未拆分的数据包数。当硬件不支持其协议拆分时,将不会拆分数据包。此类协议的一个示例是 ICMPv4/v6。目前,支持使用 IPv4/IPv6 的 TCP 和 UDP 进行标头/数据拆分 [1]。 |
信息 |
rx[i]_hds_nosplit_bytes |
在标头/数据拆分模式下未拆分的数据包的字节数。当硬件不支持其协议拆分时,将不会拆分数据包。此类协议的一个示例是 ICMPv4/v6。目前,支持使用 IPv4/IPv6 的 TCP 和 UDP 进行标头/数据拆分 [1]。 |
信息 |
rx[i]_lro_packets |
在环 i 上接收的 LRO 数据包数 [1]。 |
加速 |
rx[i]_lro_bytes |
在环 i 上接收的 LRO 字节数 [1]。 |
加速 |
rx[i]_ecn_mark |
ECN 标记已打开的接收数据包数。 |
信息 |
rx_oversize_pkts_buffer |
由于到达 RQ 的长度超出设备为传入流量分配的软件缓冲区大小而丢弃的接收数据包数。这可能意味着设备 MTU 大于软件缓冲区大小。 |
错误 |
rx_oversize_pkts_sw_drop |
由于 CQE 数据大于 MTU 大小而在软件中丢弃的接收数据包数。 |
错误 |
rx[i]_csum_unnecessary |
在环 i 上接收的带有 CHECKSUM_UNNECESSARY 的数据包 [1]。 |
加速 |
rx[i]_csum_unnecessary_inner |
在环 i 上接收的带有内部封装和 CHECKSUM_UNNECESSARY 的数据包 [1]。 |
加速 |
rx[i]_csum_none |
在环 i 上接收的带有 CHECKSUM_NONE 的数据包 [1]。 |
加速 |
rx[i]_csum_complete |
在环 i 上接收的带有 CHECKSUM_COMPLETE 的数据包 [1]。 |
加速 |
rx[i]_csum_complete_tail |
已计算校验和、可能需要填充并能够使用 CHECKSUM_PARTIAL 完成填充的接收数据包数。 |
信息 |
rx[i]_csum_complete_tail_slow |
校验和需要大于 8 字节填充的接收数据包数。 |
信息 |
tx[i]_csum_partial |
在环 i 上发送的带有 CHECKSUM_PARTIAL 的数据包 [1]。 |
加速 |
tx[i]_csum_partial_inner |
在环 i 上发送的带有内部封装和 CHECKSUM_PARTIAL 的数据包 [1]。 |
加速 |
tx[i]_csum_none |
在环 i 上发送的没有硬件校验和加速的数据包。 |
信息 |
tx[i]_stopped / tx_queue_stopped [2] |
环 i 上 SQ 已满的事件。如果此计数器增加,请检查为传输分配的缓冲区数量。 |
信息 |
tx[i]_wake / tx_queue_wake [2] |
环 i 上 SQ 已满并变为未满的事件。 |
信息 |
tx[i]_dropped / tx_queue_dropped [2] |
由于环 i 上 DMA 映射失败而丢弃的已发送数据包。如果此计数器增加,请检查为传输分配的缓冲区数量。 |
错误 |
tx[i]_nop |
由于循环缓冲区到达末尾,插入到 SQ(与环 i 相关)的 nop WQE(空 WQE)的数量。当接近循环缓冲区的末尾时,驱动程序可能会添加这些空 WQE,以避免处理 WQE 从队列末尾开始并在队列开头结束的状态。这是一个正常情况。 |
信息 |
tx[i]_timestamps |
在设备的 DMA 层进行硬件时间戳标记的已发送数据包。 |
信息 |
tx[i]_added_vlan_packets |
发送的数据包数量,其中 vlan 标签插入被卸载到硬件。 |
加速 |
rx[i]_removed_vlan_packets |
接收的数据包数量,其中 vlan 标签剥离被卸载到硬件。 |
加速 |
rx[i]_wqe_err |
在环 i 上接收到的错误操作码的数量。 |
错误 |
rx[i]_mpwqe_frag |
由于未能分配复合页而导致使用了分段 MPWQE(多数据包 WQE)的 WQE 数量,位于环 i 上。如果此计数器增加,则可能表明没有足够的内存用于大页,驱动程序分配了分段页。这不是异常情况。 |
信息 |
rx[i]_mpwqe_filler_cqes |
在环 i 上发布的填充 CQE 事件的数量。 |
信息 |
rx[i]_mpwqe_filler_strides |
环 i 上填充 CQE 消耗的步幅数。 |
信息 |
tx[i]_mpwqe_blks |
从多数据包 WQE (mpwqe) 处理的发送块的数量。 |
信息 |
tx[i]_mpwqe_pkts |
从多数据包 WQE (mpwqe) 处理的发送数据包的数量。 |
信息 |
rx[i]_cqe_compress_blks |
环 i 上具有 CQE 压缩的接收块的数量 [1]。 |
加速 |
rx[i]_cqe_compress_pkts |
环 i 上具有 CQE 压缩的接收数据包的数量 [1]。 |
加速 |
rx[i]_arfs_add |
添加到设备以在环 i 上进行直接 RQ 转向的 aRFS 流规则的数量 [1]。 |
加速 |
rx[i]_arfs_request_in |
已请求移动到环 i 中以进行直接 RQ 转向的流规则的数量 [1]。 |
加速 |
rx[i]_arfs_request_out |
已请求移出环 i 的流规则的数量 [1]。 |
加速 |
rx[i]_arfs_expired |
已过期并删除的流规则的数量 [1]。 |
加速 |
rx[i]_arfs_err |
未能添加到流表的流规则的数量。 |
错误 |
rx[i]_recover |
RQ 被恢复的次数。 |
错误 |
tx[i]_xmit_more |
在 skbuff 上设置 xmit_more 指示(无门铃)发送的数据包数量。 |
加速 |
ch[i]_poll |
通道 i 的 NAPI 轮询的调用次数。 |
信息 |
ch[i]_arm |
NAPI 轮询函数完成并在通道 i 上激活完成队列的次数。 |
信息 |
ch[i]_aff_change |
由于通道 i 上亲和性发生变化,NAPI 轮询函数显式停止在 CPU 上执行的次数。 |
信息 |
ch[i]_events |
通道 i 的完成队列上的硬中断事件数。 |
信息 |
ch[i]_eq_rearm |
EQ 被恢复的次数。 |
错误 |
ch[i]_force_irq |
通过将 NOP 发布到 ICOSQ,由 XSK 唤醒触发 NAPI 的次数。 |
加速 |
rx[i]_congst_umr |
由于拥塞,环 i 上未完成的 UMR 请求被延迟的次数。 |
信息 |
rx_pp_alloc_fast |
成功快速路径分配的数量。 |
信息 |
rx_pp_alloc_slow |
慢速路径 0 阶分配的数量。 |
信息 |
rx_pp_alloc_slow_high_order |
慢速路径高阶分配的数量。 |
信息 |
rx_pp_alloc_empty |
当 ptr 环为空时,计数器会递增,因此强制进行了慢速路径分配。 |
信息 |
rx_pp_alloc_refill |
当触发缓存重新填充的分配时,计数器会递增。 |
信息 |
rx_pp_alloc_waive |
当从 ptr 环获取的页面由于 NUMA 不匹配而无法添加到缓存时,计数器会递增。 |
信息 |
rx_pp_recycle_cached |
当在页面池缓存中回收已放置的页面时,计数器会递增。 |
信息 |
rx_pp_recycle_cache_full |
当页面池缓存已满时,计数器会递增。 |
信息 |
rx_pp_recycle_ring |
当页面放入 ptr 环时,计数器会递增。 |
信息 |
rx_pp_recycle_ring_full |
当从页面池释放页面,因为 ptr 环已满时,计数器会递增。 |
信息 |
rx_pp_recycle_released_ref |
当页面由于 refcnt > 1 而被释放(且未回收)时,计数器会递增。 |
信息 |
rx[i]_xsk_buff_alloc_err |
在 XSK RQ 上下文中分配 skb 或 XSK 缓冲区失败的次数。 |
错误 |
rx[i]_xdp_tx_xmit |
由于 XDP 程序 XDP_TX 操作(反弹)而转发回端口的数据包数量。这些数据包不计入其他软件计数器。这些数据包由物理端口和 vPort 计数器计数。 |
信息 |
rx[i]_xdp_tx_mpwqe |
在 RQ 上下文中,由 netdev 传输并通过 netdev 进行 XDP_TX 的多数据包 WQE 的数量。 |
加速 |
rx[i]_xdp_tx_inlnw |
传输的数据可在 WQE 中内联,然后在 RQ 上下文中进行 XDP_TX 的 WQE 数据段的数量。 |
加速 |
rx[i]_xdp_tx_nops |
接收到的发布到 XDP SQ 的 NOP WQEBB(WQE 构建块)的数量。 |
加速 |
rx[i]_xdp_tx_full |
由于 tx 队列已满而应转发回端口的数据包数量,因为 XDP_TX 操作被丢弃。这些数据包不计入其他软件计数器。这些数据包由物理端口和 vPort 计数器计数。您可以打开更多 rx 队列并将流量 rx 分散到所有队列和/或增加 rx 环大小。 |
错误 |
rx[i]_xdp_tx_err |
在 RX 环的 XDP_TX 环上发生 XDP_TX 错误(例如帧太长和帧太短)的次数。 |
错误 |
rx[i]_xdp_tx_cqes / rx_xdp_tx_cqe [2] |
在 XDP_TX 环的 CQ 上接收到的完成数量。 |
信息 |
rx[i]_xdp_drop |
由于 XDP 程序 XDP_DROP 操作而丢弃的数据包数量。这些数据包不计入其他软件计数器。这些数据包由物理端口和 vPort 计数器计数。 |
信息 |
rx[i]_xdp_redirect |
在环 i 上触发 XDP 重定向操作的次数。 |
加速 |
tx[i]_xdp_xmit |
重定向到接口的数据包数量(由于 XDP 重定向)。这些数据包不计入其他软件计数器。这些数据包由物理端口和 vPort 计数器计数。 |
信息 |
tx[i]_xdp_full |
重定向到接口的数据包数量(由于 XDP 重定向),但由于 tx 队列已满而被丢弃。这些数据包不计入其他软件计数器。您可以增大 tx 队列。 |
信息 |
tx[i]_xdp_mpwqe |
卸载到 NIC 上的多数据包 WQE 的数量,这些 WQE 是从其他 netdev 进行 XDP_REDIRECT 的。 |
加速 |
tx[i]_xdp_inlnw |
数据可在 WQE 中内联的 WQE 数据段的数量,其中数据段是从其他 netdev 进行 XDP_REDIRECT 的。 |
加速 |
tx[i]_xdp_nops |
发布到 SQ 的 NOP WQEBB(WQE 构建块)的数量,这些 WQEBB 是从其他 netdev 进行 XDP_REDIRECT 的。 |
加速 |
tx[i]_xdp_err |
重定向到接口的数据包数量(由于 XDP 重定向),但由于错误(例如帧太长和帧太短)而被丢弃。 |
错误 |
tx[i]_xdp_cqes |
在 CQ 上接收到的重定向到接口的数据包(由于 XDP 重定向)的完成数量。 |
信息 |
tx[i]_xsk_xmit |
使用 XSK 零拷贝功能传输的数据包数量。 |
加速 |
tx[i]_xsk_mpwqe |
卸载到 NIC 上的多数据包 WQE 的数量,这些 WQE 是从其他 netdev 进行 XDP_REDIRECT 的。 |
加速 |
tx[i]_xsk_inlnw |
数据可在 WQE 中内联的 WQE 数据段的数量,这些数据段是使用 XSK 零拷贝传输的。 |
加速 |
tx[i]_xsk_full |
当 SQ 已满时,在 XSK 零拷贝模式下敲响门铃的次数。 |
错误 |
tx[i]_xsk_err |
在 XSK 零拷贝模式下发生的错误数量,例如数据大小大于 MTU 大小。 |
错误 |
tx[i]_xsk_cqes |
在 XSK 零拷贝模式下处理的 CQE 数量。 |
加速 |
tx_tls_ctx |
添加到设备以进行加密的 TLS TX HW 卸载上下文的数量。 |
加速 |
tx_tls_del |
从设备中删除的 TLS TX HW 卸载上下文的数量(连接已关闭)。 |
加速 |
tx_tls_pool_alloc |
在 TLS HW 卸载池中成功分配工作单元的次数。 |
加速 |
tx_tls_pool_free |
在 TLS HW 卸载池中释放工作单元的次数。 |
加速 |
rx_tls_ctx |
添加到设备以进行解密的 TLS RX HW 卸载上下文的数量。 |
加速 |
rx_tls_del |
从设备中删除的 TLS RX HW 卸载上下文的数量(连接已完成)。 |
加速 |
rx[i]_tls_decrypted_packets |
属于 TLS 流的成功解密的 RX 数据包数量。 |
加速 |
rx[i]_tls_decrypted_bytes |
成功解密的 RX 数据包中 TLS 有效负载字节的数量。 |
加速 |
rx[i]_tls_resync_req_pkt |
接收到的带有重新同步请求的 TLS 数据包数量。 |
加速 |
rx[i]_tls_resync_req_start |
TLS 异步重新同步请求启动的次数。 |
加速 |
rx[i]_tls_resync_req_end |
TLS 异步重新同步请求正确结束并提供 HW 跟踪的 tcp-seq 的次数。 |
加速 |
rx[i]_tls_resync_req_skip |
TLS 异步重新同步请求过程已启动但未正确结束的次数。 |
错误 |
rx[i]_tls_resync_res_ok |
对驱动程序的 TLS 重新同步响应调用已成功处理的次数。 |
加速 |
rx[i]_tls_resync_res_retry |
当 ICOSQ 已满时,对驱动程序的 TLS 重新同步响应调用被重新尝试的次数。 |
错误 |
rx[i]_tls_resync_res_skip |
对驱动程序的 TLS 重新同步响应调用未成功终止的次数。 |
错误 |
rx[i]_tls_err |
CQE TLS 卸载出现问题的次数。 |
错误 |
tx[i]_tls_encrypted_packets |
由内核进行 TLS 加密的发送数据包的数量。 |
加速 |
tx[i]_tls_encrypted_bytes |
由内核进行 TLS 加密的发送字节数。 |
加速 |
tx[i]_tls_ooo |
在环 i 上处理的无序 TLS SQE 片段的次数。 |
加速 |
tx[i]_tls_dump_packets |
通过 DMA 从 NIC 复制的 TLS 解密数据包的数量。 |
加速 |
tx[i]_tls_dump_bytes |
通过 DMA 从网卡复制过来的 TLS 解密字节数。 |
加速 |
tx[i]_tls_resync_bytes |
为了进行解密而请求重新同步的 TLS 字节数。 |
加速 |
tx[i]_tls_skip_no_sync_data |
可以安全跳过/不需要解密的 TLS 发送数据量。 |
加速 |
tx[i]_tls_drop_no_sync_data |
由于 TLS 数据重传而被丢弃的 TLS 发送数据量。 |
加速 |
ptp_cq[i]_abort |
由于端口时间戳和 CQE 时间戳之间的偏差大于 128 秒,导致在精确时间协议中必须跳过的 CQE 次数。 |
错误 |
ptp_cq[i]_abort_abs_diff_ns |
在精确时间协议中,当端口时间戳和 CQE 时间戳之间的差值大于 128 秒时,时间差的累积值。 |
错误 |
ptp_cq[i]_late_cqe |
当 CQE 不应该被传递时,在 PTP 时间戳 CQ 上传递 CQE 的次数,因为设备通常会确保在经过一定时间后不发布 CQE。 |
错误 |
ptp_cq[i]_lost_cqe |
由于时间差已过,设备预期不会在 PTP 时间戳 CQE 上传递 CQE 的次数。如果以某种方式传递了这样的 CQE,则 ptp_cq[i]_late_cqe 会增加。 |
错误 |
对应的环和全局计数器不共享相同的名称(即不遵循通用命名方案)。
vPort 计数器¶
连接到 eSwitch 的网卡端口上的计数器。
计数器 |
描述 |
类型 |
rx_vport_unicast_packets |
接收到的单播数据包,被导向到端口,包括原始以太网 QP/DPDK 流量,不包括 RDMA 流量。 |
信息 |
rx_vport_unicast_bytes |
接收到的单播字节,被导向到端口,包括原始以太网 QP/DPDK 流量,不包括 RDMA 流量。 |
信息 |
tx_vport_unicast_packets |
发送的单播数据包,从端口导向发出,包括原始以太网 QP/DPDK 流量,不包括 RDMA 流量。 |
信息 |
tx_vport_unicast_bytes |
发送的单播字节,从端口导向发出,包括原始以太网 QP/DPDK 流量,不包括 RDMA 流量。 |
信息 |
rx_vport_multicast_packets |
接收到的多播数据包,被导向到端口,包括原始以太网 QP/DPDK 流量,不包括 RDMA 流量。 |
信息 |
rx_vport_multicast_bytes |
接收到的多播字节,被导向到端口,包括原始以太网 QP/DPDK 流量,不包括 RDMA 流量。 |
信息 |
tx_vport_multicast_packets |
发送的多播数据包,从端口导向发出,包括原始以太网 QP/DPDK 流量,不包括 RDMA 流量。 |
信息 |
tx_vport_multicast_bytes |
发送的多播字节,从端口导向发出,包括原始以太网 QP/DPDK 流量,不包括 RDMA 流量。 |
信息 |
rx_vport_broadcast_packets |
接收到的广播数据包,被导向到端口,包括原始以太网 QP/DPDK 流量,不包括 RDMA 流量。 |
信息 |
rx_vport_broadcast_bytes |
接收到的广播字节,被导向到端口,包括原始以太网 QP/DPDK 流量,不包括 RDMA 流量。 |
信息 |
tx_vport_broadcast_packets |
发送的广播数据包,从端口导向发出,包括原始以太网 QP/DPDK 流量,不包括 RDMA 流量。 |
信息 |
tx_vport_broadcast_bytes |
发送的广播字节,从端口导向发出,包括原始以太网 QP/DPDK 流量,不包括 RDMA 流量。 |
信息 |
rx_vport_rdma_unicast_packets |
接收到的 RDMA 单播数据包,被导向到端口(计数器计数 RoCE/UD/RC 流量) [1]。 |
加速 |
rx_vport_rdma_unicast_bytes |
接收到的 RDMA 单播字节,被导向到端口(计数器计数 RoCE/UD/RC 流量) [1]。 |
加速 |
tx_vport_rdma_unicast_packets |
发送的 RDMA 单播数据包,从端口导向发出(计数器计数 RoCE/UD/RC 流量) [1]。 |
加速 |
tx_vport_rdma_unicast_bytes |
发送的 RDMA 单播字节,从端口导向发出(计数器计数 RoCE/UD/RC 流量) [1]。 |
加速 |
rx_vport_rdma_multicast_packets |
接收到的 RDMA 多播数据包,被导向到端口(计数器计数 RoCE/UD/RC 流量) [1]。 |
加速 |
rx_vport_rdma_multicast_bytes |
接收到的 RDMA 多播字节,被导向到端口(计数器计数 RoCE/UD/RC 流量) [1]。 |
加速 |
tx_vport_rdma_multicast_packets |
发送的 RDMA 多播数据包,从端口导向发出(计数器计数 RoCE/UD/RC 流量) [1]。 |
加速 |
tx_vport_rdma_multicast_bytes |
发送的 RDMA 多播字节,从端口导向发出(计数器计数 RoCE/UD/RC 流量) [1]。 |
加速 |
vport_loopback_packets |
被环回(接收和发送)的单播、多播和广播数据包,IB/Eth [1]。 |
加速 |
vport_loopback_bytes |
被环回(接收和发送)的单播、多播和广播字节,IB/Eth [1]。 |
加速 |
rx_steer_missed_packets |
网卡接收到的但由于与网卡流表中任何流不匹配而被丢弃的数据包数量。 |
错误 |
rx_packets |
仅限表示器:接收到的,由虚拟机管理程序处理的数据包。 |
信息 |
rx_bytes |
仅限表示器:接收到的,由虚拟机管理程序处理的字节。 |
信息 |
tx_packets |
仅限表示器:发送的,由虚拟机管理程序处理的数据包。 |
信息 |
tx_bytes |
仅限表示器:发送的,由虚拟机管理程序处理的字节。 |
信息 |
dev_internal_queue_oob |
由于内部设备 RQ 缺少接收 WQE 而丢弃的数据包数量。 |
错误 |
物理端口计数器¶
物理端口计数器是连接适配器到外部网络的端口上的计数器。此测量点包含有关 IEEE 802.3、RFC2863、RFC 2819、RFC 3635 等标准计数器以及诸如流控制、FEC 等其他计数器的信息。
计数器 |
描述 |
类型 |
rx_packets_phy |
物理端口上接收到的数据包数量。此计数器不包括由于 FCS、帧大小和类似错误而丢弃的数据包。 |
信息 |
tx_packets_phy |
物理端口上发送的数据包数量。 |
信息 |
rx_bytes_phy |
物理端口上接收到的字节数,包括以太网头和 FCS。 |
信息 |
tx_bytes_phy |
物理端口上发送的字节数。 |
信息 |
rx_multicast_phy |
物理端口上接收到的多播数据包数量。 |
信息 |
tx_multicast_phy |
物理端口上发送的多播数据包数量。 |
信息 |
rx_broadcast_phy |
物理端口上接收到的广播数据包数量。 |
信息 |
tx_broadcast_phy |
物理端口上发送的广播数据包数量。 |
信息 |
rx_crc_errors_phy |
由于物理端口上的 FCS(帧校验序列)错误而丢弃的接收数据包数量。如果此计数器高速增长,请使用下面的 rx_symbol_error_phy 和 rx_corrected_bits_phy 计数器检查链路质量。 |
错误 |
rx_in_range_len_errors_phy |
由于物理端口上的长度/类型错误而丢弃的接收数据包数量。 |
错误 |
rx_out_of_range_len_phy |
由于物理端口上长度大于允许值而丢弃的接收数据包数量。如果此计数器增加,则意味着连接到适配器的对等方配置了更大的 MTU。使用相同的 MTU 配置应能解决此问题。 |
错误 |
rx_oversize_pkts_phy |
由于物理端口上长度超过 MTU 大小而丢弃的接收数据包数量。如果此计数器增加,则意味着连接到适配器的对等方配置了更大的 MTU。使用相同的 MTU 配置应能解决此问题。 |
错误 |
rx_symbol_err_phy |
由于物理端口上的物理编码错误(符号错误)而丢弃的接收数据包数量。 |
错误 |
rx_mac_control_phy |
物理端口上接收到的 MAC 控制数据包数量。 |
信息 |
tx_mac_control_phy |
物理端口上发送的 MAC 控制数据包数量。 |
信息 |
rx_pause_ctrl_phy |
物理端口上接收到的链路层暂停数据包数量。如果此计数器增加,则意味着网络拥塞,无法吸收来自适配器的流量。 |
信息 |
tx_pause_ctrl_phy |
物理端口上发送的链路层暂停数据包数量。如果此计数器增加,则意味着网卡拥塞,无法吸收来自网络的流量。 |
信息 |
rx_unsupported_op_phy |
物理端口上接收到的具有不支持的操作码的 MAC 控制数据包数量。 |
错误 |
rx_discards_phy |
由于物理端口上缺少缓冲区而丢弃的接收数据包数量。如果此计数器增加,则意味着适配器拥塞,无法吸收来自网络的流量。 |
错误 |
tx_discards_phy |
即使没有检测到错误,但在传输时被丢弃的数据包数量。丢弃可能由于链路处于关闭状态、队首丢弃、来自网络的暂停等原因而发生。 |
错误 |
tx_errors_phy |
由于物理端口上长度超过 MTU 大小而丢弃的发送数据包数量。 |
错误 |
rx_undersize_pkts_phy |
由于物理端口上长度小于 64 字节而丢弃的接收数据包数量。如果此计数器增加,则意味着连接到适配器的对等方配置了非标准的 MTU,或者到达了格式错误的数据包。 |
错误 |
rx_fragments_phy |
由于物理端口上长度小于 64 字节并且存在 FCS 错误而丢弃的接收数据包数量。如果此计数器增加,则意味着连接到适配器的对等方配置了非标准的 MTU。 |
错误 |
rx_jabbers_phy |
由于物理端口上长度大于 64 字节且存在 FCS 错误而丢弃的接收数据包数量。 |
错误 |
rx_64_bytes_phy |
物理端口上接收到的 64 字节大小的数据包数量。 |
信息 |
rx_65_to_127_bytes_phy |
物理端口上接收到的 65 到 127 字节大小的数据包数量。 |
信息 |
rx_128_to_255_bytes_phy |
物理端口上接收到的 128 到 255 字节大小的数据包数量。 |
信息 |
rx_256_to_511_bytes_phy |
物理端口上接收到的 256 到 512 字节大小的数据包数量。 |
信息 |
rx_512_to_1023_bytes_phy |
物理端口上接收到的 512 到 1023 字节大小的数据包数量。 |
信息 |
rx_1024_to_1518_bytes_phy |
物理端口上接收到的 1024 到 1518 字节大小的数据包数量。 |
信息 |
rx_1519_to_2047_bytes_phy |
物理端口上接收到的 1519 到 2047 字节大小的数据包数量。 |
信息 |
rx_2048_to_4095_bytes_phy |
物理端口上接收到的 2048 到 4095 字节大小的数据包数量。 |
信息 |
rx_4096_to_8191_bytes_phy |
物理端口上接收到的 4096 到 8191 字节大小的数据包数量。 |
信息 |
rx_8192_to_10239_bytes_phy |
物理端口上接收到的 8192 到 10239 字节大小的数据包数量。 |
信息 |
link_down_events_phy |
链路操作状态变为断开的次数。如果此计数器持续增加,可能表示端口抖动。您可能需要更换电缆/收发器。 |
错误 |
rx_out_of_buffer |
接收队列没有为适配器的传入流量分配软件缓冲区的次数。 |
错误 |
module_bus_stuck |
检测到模块的 I2C 总线(数据或时钟)短路的次数。您可能需要更换电缆/收发器。 |
错误 |
module_high_temp |
模块温度过高的次数。如果此问题持续存在,您可能需要检查环境温度或更换电缆/收发器模块。 |
错误 |
module_bad_shorted |
模块电缆短路的次数。您可能需要更换电缆/收发器模块。 |
错误 |
module_unplug |
模块被拔出的次数。 |
信息 |
rx_buffer_passed_thres_phy |
端口接收缓冲区超过 85% 满的事件次数。 |
信息 |
tx_pause_storm_warning_events |
设备长时间发送暂停帧的次数。 |
信息 |
tx_pause_storm_error_events |
设备长时间发送暂停帧,达到超时并禁用暂停帧传输的次数。在暂停帧被禁用的期间,可能发生了丢包。 |
错误 |
rx[i]_buff_alloc_err |
在环 i 上接收数据包(或 SKB)时分配缓冲区失败。 |
错误 |
rx_bits_phy |
此计数器提供有关可能已接收的总流量的信息,可用作衡量rx_pcs_symbol_err_phy和rx_corrected_bits_phy中错误流量比率的指导。 |
信息 |
rx_pcs_symbol_err_phy |
此计数器统计未被 FEC 纠错算法纠正或此接口上 FEC 算法未激活的符号错误数量。如果此计数器持续增加,则表示 NIC 和网络之间的链路受到高误码率的影响,并且流量丢失。您可能需要更换电缆/收发器。错误率是特定时间范围内rx_pcs_symbol_err_phy的数量除以rx_bits_phy的数量。 |
错误 |
rx_corrected_bits_phy |
根据活动的 FEC (RS/FC),此端口上已纠正的位数。如果此计数器持续增加,则表示 NIC 和网络之间的链路受到高误码率的影响。校正后的比特率是特定时间范围内rx_corrected_bits_phy的数量除以rx_bits_phy的数量。 |
错误 |
rx_err_lane_[l]_phy |
此计数器统计每个通道 l 索引的物理原始错误数量。计数器统计 FEC 纠错之前的错误。如果此计数器持续增加,则表示 NIC 和网络之间的链路受到高误码率的影响,并且可能会丢失流量。您可能需要更换电缆/收发器。请与rx_corrected_bits_phy一起检查。 |
错误 |
rx_global_pause |
在物理端口上接收到的暂停帧数据包的数量。如果此计数器持续增加,则表示网络拥塞且无法吸收来自适配器的流量。注意:仅当启用全局暂停模式时,此计数器才启用。 |
信息 |
rx_global_pause_duration |
在物理端口上接收到的暂停帧的持续时间(以微秒为单位)。此计数器表示端口未发送任何流量的时间。如果此计数器持续增加,则表示网络拥塞且无法吸收来自适配器的流量。注意:仅当启用全局暂停模式时,此计数器才启用。 |
信息 |
tx_global_pause |
在物理端口上传输的暂停帧数据包的数量。如果此计数器持续增加,则表示适配器拥塞且无法吸收来自网络的流量。注意:仅当启用全局暂停模式时,此计数器才启用。 |
信息 |
tx_global_pause_duration |
在物理端口上暂停发送器的持续时间(以微秒为单位)。注意:仅当启用全局暂停模式时,此计数器才启用。 |
信息 |
rx_global_pause_transition |
在物理端口上发生从 Xoff 到 Xon 的转换次数。注意:仅当启用全局暂停模式时,此计数器才启用。 |
信息 |
rx_if_down_packets |
由于接口关闭而丢弃的接收数据包数量。 |
信息 |
优先级端口计数器¶
以下计数器是按 L2 优先级 (0-7) 计数的物理端口计数器。
注意:计数器名称中的p表示优先级。
计数器 |
描述 |
类型 |
rx_prio[p]_bytes |
在物理端口上接收到的优先级为 p 的字节数。 |
信息 |
rx_prio[p]_packets |
在物理端口上接收到的优先级为 p 的数据包数。 |
信息 |
tx_prio[p]_bytes |
在物理端口上以优先级 p 传输的字节数。 |
信息 |
tx_prio[p]_packets |
在物理端口上以优先级 p 传输的数据包数。 |
信息 |
rx_prio[p]_pause |
在物理端口上接收到的优先级为 p 的暂停帧数据包数量。如果此计数器持续增加,则表示网络拥塞且无法吸收来自适配器的流量。注意:仅当在优先级 p 上启用了 PFC 时,此计数器才可用。 |
信息 |
rx_prio[p]_pause_duration |
在物理端口上接收到的优先级 p 的暂停帧的持续时间(以微秒为单位)。此计数器表示端口在此优先级上未发送任何流量的时间。如果此计数器持续增加,则表示网络拥塞且无法吸收来自适配器的流量。注意:仅当在优先级 p 上启用了 PFC 时,此计数器才可用。 |
信息 |
rx_prio[p]_pause_transition |
在物理端口上发生优先级 p 从 Xoff 到 Xon 的转换次数。注意:仅当在优先级 p 上启用了 PFC 时,此计数器才可用。 |
信息 |
tx_prio[p]_pause |
在物理端口上以优先级 p 传输的暂停帧数据包数量。如果此计数器持续增加,则表示适配器拥塞且无法吸收来自网络的流量。注意:仅当在优先级 p 上启用了 PFC 时,此计数器才可用。 |
信息 |
tx_prio[p]_pause_duration |
在物理端口上以优先级 p 暂停发送器的持续时间(以微秒为单位)。注意:仅当在优先级 p 上启用了 PFC 时,此计数器才可用。 |
信息 |
rx_prio[p]_buf_discard |
由于每个主机缺少接收缓冲区,设备丢弃的数据包数量。 |
信息 |
rx_prio[p]_cong_discard |
由于每个主机拥塞,设备丢弃的数据包数量。 |
信息 |
rx_prio[p]_marked |
由于每个主机拥塞,设备标记为 ecn 的数据包数量。 |
信息 |
rx_prio[p]_discards |
由于缺少接收缓冲区,设备丢弃的数据包数量。 |
信息 |
设备计数器¶
计数器 |
描述 |
类型 |
rx_pci_signal_integrity |
统计物理层 PCIe 信号完整性错误、由于帧错误和 CRC(dlp 和 tlp)而恢复的转换次数。如果此计数器持续增加,请尝试将适配器卡移动到其他插槽以排除 PCI 插槽不良的可能性。验证您是否正在运行可用的最新固件和最新的服务器 BIOS 版本。 |
错误 |
tx_pci_signal_integrity |
统计物理层 PCIe 信号完整性错误,以及由另一侧启动的恢复转换次数(由于收到 TS/EIEOS 而进入恢复状态)。如果此计数器持续增加,请尝试将适配器卡移动到其他插槽以排除 PCI 插槽不良的可能性。验证您是否正在运行可用的最新固件和最新的服务器 BIOS 版本。 |
错误 |
outbound_pci_buffer_overflow |
由于 pci 缓冲区溢出而丢弃的数据包数量。如果此计数器以高频率增加,则可能表示主机的接收流量速率大于 PCIe 总线,因此发生拥塞。 |
信息 |
outbound_pci_stalled_rd |
在最近一秒内,NIC 有出站非发布读取请求,但由于发布信用不足而无法执行操作的时间百分比(范围为 0...100)。 |
信息 |
outbound_pci_stalled_wr |
在最近一秒内,NIC 有出站发布写入请求,但由于发布信用不足而无法执行操作的时间百分比(范围为 0...100)。 |
信息 |
outbound_pci_stalled_rd_events |
outbound_pci_stalled_rd高于 30% 的秒数。 |
信息 |
outbound_pci_stalled_wr_events |
outbound_pci_stalled_wr高于 30% 的秒数。 |
信息 |
dev_out_of_buffer |
设备拥有的队列没有足够分配的缓冲区的次数。 |
错误 |