nicolasyang's blog

调试 Linux 设备电源管理，解决笔记本发热和续航问题

Sat, 10 Sep 2022 15:52:28 +0800

nicolasyang's blog https://blog.nicolasyang.me/posts/debug-linux-laptop-power-management/ -

长期以来，在笔记本上装 Linux 都会面临发热和电池续航下降（相比于在同一台笔记本上装 Windows）的问题。这个主要是驱动的电源管理不完善，很多设备的省电功能没有启动造成的。不过最近随着主要的厂商（Intel, AMD, Qualcomm 等）拥抱开源，主动编写开源驱动，大部分问题都得到了解决。但由于还是有 bug 存在，并且电源管理的 bug 很容易造成整个系统 hang up, 所以发行版一般都把策略配置得比较保守。现在一般在接入电源是都会停用大部分电源管理功能，使用电池供电时才会启用。这样插电运行的时候就还是发热和耗电很厉害；而如果电源管理有 bug, 就会出现插电运行一切正常，不插电就 hang up 的现象。

前段时间在一台 ThinkPad p15 gen2 上装了 Linux, 就遇到了这个问题，断断续续调了很久，才解决问题。感觉这里的调试方法有参考意义，这里记录一下调试问题的过程。

背景

ThinkPad p15 gen2 是一个使用 Intel Core CPU 和 Nvidia Quadro 专业显卡的图形工作站。作为图形工作站，它的显卡接口连接方式和一般的笔记本不同。一般的笔记本是核显连接显示输出，独显只能做计算渲染，渲染结果拷贝回核显再进行输出。现在大多数的显卡切换方案，也是按照这个设计来的。但这台笔记本是 intel 核显连接内置显示屏，nvidia 独显连接外置显示屏。这个配置很难配好能适应各种情况的切换方案，由于我主要是连接外置显示器工作的，就在 UEFI 里面把核显禁用了，只用独显。只有在长期出差，没有外置显示器的情况下，才会使用核显。

除了显卡的问题，另外一个更严重的问题就是，这台机器在不接电源的时候，就会在开机进入桌面环境后不久就 hang 住，连关机都关不了，只能按 alt + sysrq + reisub 重启。由于这个机器的网卡声卡什么全都是 intel 的，就只有显卡和 NVMe 硬盘是第三方品牌，我就直接怀疑这两个设备有问题，把它们的电源管理禁用。但问题并没有解决，最后只好把全部 PCIe 设备的电源管理关掉，才没有问题。不过这样就完全没有续航了，2 个小时就耗尽电池。

在这期间，我还遇到了 type-c 供电驱动程序的 bug, 表现也是系统 hang up. 多个问题交织到一起更加增大了调试难度。

x86 电源管理概况

x86 平台上的电源管理大概分为 3 部分：

CPU 电源管理：包括 freqency scaling, C-state 这些
平台电源管理：包括待机、休眠、关机、唤醒、电池充放电管理这些
外设设备的电源管理：目前的 x86 上的外设设备主要就分为 PCIe 和 USB 两大类

其中，CPU 就只有 Intel AMD 两家，并且文档资料齐全，厂商也支持开源驱动开发，电源管理支持得非常好。平台这块则是 firmware 通过 ACPI 向系统提供接口。这里台式机一般没有问题，但笔记本由于多了合盖检测、背光、电池这些，更加复杂，出问题的可能性比较大，不过老牌厂商，如 ThinkPad, Dell 这些，都经过了内核驱动和 ACPI 固件的长期磨合，一般也问题不大。外设设备中，USB 的规范比较具体，比如 HID 键盘鼠标、摄像头、U 盘这些都有通用协议和驱动（比如通用的 Mass Storage 驱动就可以适用于所有品牌的 U 盘），也不容易出问题。问题最大的就是 PCIe 设备，这类设备都是显卡、网卡这类的复杂设备，固件和驱动都很复杂，如果有 bug, 就很容易造成内核错误。

PCIe 设备电源管理

PCIe 设备的电源管理有统一的规范和通信协议。一个设备的电源状态分为 D0, D1, D2, D3 4 个状态。其中 D0 是完全启动正常工作，D3 是最深的省电状态。这两个状态是所有设备都要支持的，D1 和 D2 是可选的。CPU 可以通过写入设备的配置寄存器来改变电源状态。PCIe 设备在进入省电状态时，会关闭一部分电路，缓存、寄存器之类的状态信息可能会丢失。这样，在唤醒设备时，就需要重新初始化这部分状态。这需要驱动的密切配合，如果这个过程有 bug, 设备就会进入一个非预期的状态，驱动无法正常和设备通信，就会造成 hang up 之类的问题。

Linux 下的配置

内核

Linux 下，每个 PCIe 的电源管理 RUNTIME_PM 可以通过 sysfs 中的开关 /sys/bus/pci/devices/<address>/power/control 单独开启或关闭。开关的值可以是

on: 设备保持开启状态，即禁用电源管理
auto: 自动控制，即启用电源管理

用户空间

有个 tlp 命令可以根据 /etc/tlp.conf 中的配置来调整 sysfs 中的各个开关。在多数发行版中，这个命令会通过 udev 规则来触发，在启动过程中、插拔电源的情况下执行。在多数发行版的默认配置中，tlp 会在电池运行时打开更多省电功能。

另外有个命令是 Intel 开发的 powertop. 这是一个 TUI 应用，可以监控 CPU 的电源、外设状态，以及调整 sysfs 中的电源管理开关。

tlp 适合保存长期、持久化的配置，而 powertop 适合在调试过程中来使用。

调试过程

这台笔记本最严重的问题就是拔掉电源、电池供电时，会随机 hang 住。例如，不插电源开机，一般是可以正常进入桌面环境，但进入桌面环境后，尝试启动一个应用，如 firefox, 就会启动不了。这个时候其它部分看起来都是正常的，但在终端里尝试 kill 掉 firefox, 也会卡住。尝试执行 sudo journcalctl -k 或 dmesg 来检查日志也会卡住。甚至执行 sudo reboot 也会卡住。

这种已经启动的程序运行正常，新程序无法启动的问题，让我地第一时间怀疑问题是硬盘 I/O 相关的，于是第一时间通过 tlp 禁用了 NVMe 的电源管理，但是没有效果。考虑到 N 卡是闭源驱动，也禁用了电源管理，也没有效果。

这个时候我还不太了解 powertop 这个工具，就开始对比 tlp 的配置在电源供电和电池供电的状态下有哪些区别。最明显的区别就是，插电状态的默认 PCIe 电源管理是 on, 电池状态是 auto. 这里我把电池状态也改成 on 后，问题基本解决。

但这只能算是个能用的方案。在没有开启设备省电的情况下，机器发热比较厉害，并且电池续航只有大概 2.5 小时。

为什么说是基本解决呢？

因为这里还穿插了一个 type-c 供电驱动的 bug, 这个 bug 和 PCIe 电源管理的 bug 混在一起，很难调试。但根据最后的结论，这里关闭 PCIe runtime power management 后，就没有因为 PCIe 设备导致 hang up 的问题了。

这个 type-c bug, 会导致 kernel oops. 在过了一个多月，这个 kernel oops 被修复以后，我才重新找时间去定位 PCIe 的问题。

到了这一步，我能想到的就是通过二分法去查找因为问题的设备，即每次禁用一半设备的电源管理，看看问题还是否复线。但看到除了 NVMe 和显卡，其它设备全都是 Intel 的，我都怀疑是否有多个设备同时有问题，用 tlp 来配置又还是比较麻烦的，这个问题就脱了很久。

直到两个月后，有几天比较闲，我尝试去 powertop 这个工具里去看一下。这就发现 powertop 可以通过 TUI 列出所有外设并 toggle 每个设备的电源管理开关。于是我决定在插电运行，默认关闭所有 PCIe 设备电源管理的情况下，一个个打开电源管理开关，看看什么时候会出故障。

于是一个终端运行 dmesg 看日志，另一个终端开 powertop. 首先把我没有用的设备打开，看了一下，好像完全没用的就只有有线网卡。按下 Enter 打开电源管理，系统立刻表现出异常，过了十几秒中，耳机里的音乐也停了。所以这就找到问题了？

重启电脑，在 tlp 里面把有线网卡的电源管理禁用，尝试一下拔掉电源，好像没有出现任何问题。再继续使用电脑，多开几个新应用，也都没有问题。所以引起问题的竟然是一个 Intel 的，我根本没有使用的有线网卡？？？因为有线网卡这种设备，在我用过的环境中，从来没有出现过问题；Intel 的设备，也是从来没有出现过问题。

后续配置

把有线网卡加入 tlp 黑名单后，在电池模式下开启省电，大概有 5.5 小时的续航，续航时间翻了一倍。后面我顺便把插电状态下的 PCIe runtime power management 也打开了。虽然插电时没有电池续航的问题，但打开电源管理能让空闲时的 CPU 温度降低大约 7 度。

想到这个有线网卡我也用不上，后面我干脆在 UEFI 里面把网卡禁用了。

总结

如果一个问题只在不插电的时候出现，那么它大概率和省电配置有关，这时应该去配置 tlp.conf.
Intel 的驱动也可能出问题，不能完全信任。
发行版默认在插电状态下会禁用一下省电配置，如果想要省电/静音/冷却，应该去修改 tlp.conf 把它打开。（包括台式机）
powertop 是个调试省电配置的好工具。

Firefox 添加自定义搜索引擎

Mon, 08 Aug 2022 20:41:34 +0800

nicolasyang's blog https://blog.nicolasyang.me/posts/add-custom-search-to-firefox/ -

在很久以前，Firefox 是可以手工写 pattern (如 https://www.google.com/search?q=%s) 来添加自定义搜索引擎的。但不知道哪个版本开始，就砍掉了这个入口，只支持通过 opensearch 元数据来添加了。

最近急需根据 bug id 跳转到 bug tracker 页面的功能（因为 bugzilla 自带的搜索很慢，直接搜 bug id 也要等好久），想要看看这个自定义搜索还能不能搞。搜索一番发现还是能搞的，只是配置方式不直观，很难找到。

这里的原理是 firefox 的书签可以带参数和关键字。我们可以添加一个 bug 页面的书签，比如：http://bugzilla.example.com/show_bug.cgi?id=12345, 然后编辑这个书签，把 12345 改成 %s, 再配置一个关键字，比如 bug. 后面就可以在地址栏输入 bug<TAB>56789 来直接跳转到那个 bug 了。

类似的方法也可以用来配置其它各种没有 opensearch 元数据的搜索引擎。

Redis 中的原子操作：事务与 Lua 脚本

Sat, 13 Nov 2021 17:41:19 +0800

nicolasyang's blog https://blog.nicolasyang.me/posts/atomicity-in-redis-transaction-and-lua/ -

讨论 Redis 事务时，我们关注的是

讨论 RDBMS 时，事务是需要 ACID 的：

Atomicity: 原子性，事务是不可分割的单元
Consistency: 一致性，包括
- 提交成功的事务产生的效果要能被后续的所有事务读取到
- 不能破坏数据库约束
- 提交成功的事务里，所有操作都要成功执行
Isolation: 隔离性，多个并发事务不能互相影响
Durability: 持久性，提交成功的事务不能丢失

但对于 redis 来说，情况有些不同。首先是 durability 是不用想了，redis 肯定做不到。 Isolation, redis 没有并发，肯定没问题，也不需要考虑。我们只要考虑 atomicity 和 consistency.

Atomicity

原子性是一个很基本的要求。即使只是把 redis 当缓存来使用

HSET key1 field1 value2 field2 value2
EXPIRE key1 60

我们也不希望这两个操作中间被中断，EXPIRE 要是没执行成功，key1 占用的内存可能就永远没人去释放了。

Consistency

一致性的要求比较复杂，但 redis 是但线程的，又没有约束，所以前两点可以忽略。要关注的就是提交成功的事务里，所有操作是否能保证成功执行了。

Redis 的设计是：不行。例如，还是去 HSET 一个 key1, 但执行的时候，发现 key1 已经存在，但并不是 hash 类型，那这个命令就会执行失败。这如果是传统 RDBMS, 那整个事务都没办法提交，事务中的全部操作都不生效。但 redis 会忽略掉这个错误继续执行后面的操作，并能成功提交事务。

所以 Redis 不能满足一致性的要求，我们必须在写程序的时候自己保证，提交的命令都是不会出错的（或者出了错也没有什么影响的）。

小结

Redis 的事务，可以保证 atomicity 和 isolation, 但不能保证 consistency 和 durability. 并且，由于单线程的设计，原子操作一定是隔离的。所以我们后面就集中来看 aomticity 这点了。

Redis 中实现原子操作的 3 种方式

单个命令是原子的

如 HSET key1 field1 value1 field2 value2, 能保证 field1 和 field2 一起设置上
通过事务命令
```
MULTI
HSET key1 field1 value2 field2 value2
EXPIRE key1 60
EXEC
```
Redis 服务器缓存 MULTI 后的命令，直到 EXEC 再一起执行。

通过 lua 脚本

local ret = redis.call('hset', KEYS[1], 'field1', ARGV[1], 'field2', ARGV[2]);
redis.call('expire', KEYS[1], ARGV[3]);
return ret;

EVAL <脚本> 1 key1 value1 value2 60

EVAL 是单独的一条命令，自然整个脚本的执行都是原子的。

Transaction 与 Lua 脚本对比

首先，可以看出，简单的操作，transaction 是要比 lua 简洁的。但 lua 能实现更加复杂的逻辑，例如：

local x = redis.call('get', KEYS[1]);
return redis.call('set', KEYS[2], x + 1);

这个操作用 MULTI-EXEC 是实现不了的，因为操作是原子的，在 EXEC 执行之前，前面的命令都无法执行，无法返回结果，自然也就无法计算 x + 1 等于什么。

如果一定要用 transaction, 这个操作可以用 WATCH-MULTI-EXEC 来做，但 optimsitic locking 可能会失败，需要反复重试，这里就是 lua 更简单高效了。

所以，我们可以在简单的命令里用 MULTI-EXEC, 复杂的逻辑用 lua 脚本。当然，用 MULTI-EXEC 时要配合 pipeline 使用，否则每发送一条命令都等待响应的 RTT 会严重影响性能。

关于 Pipeline

只使用 pipeline 不能保证原子性！！！

在协议上，pipeline 纯粹就是一个针对 RTT 的优化，可以批量发送命令：

没有 pipeline 时，每个命令都要等待响应
有 pipeline 时，可以发送多个命令后一起等待

这种方式并不能保证 command 1 和 command 2 是原子的，当有多个 client 同时和 server 通信时，完全可以变成：

这里，对于 client A 来说，它确实使用了 pipeline 操作，连续发送两个命令，然后一起等待响应；但 server 却把两个命令分开处理了。

这种情况在开发的时候可能不容易观察到。如果一个 pipeline 中的数据比较少（比如小于一个 TCP 包的大小），在客户端 redis 库、客户端内核的缓冲下，可能就是这个 pipeline 的命令都在一个 TCP 包中发了出去；server 也一次性地从内核缓冲区把整个 pipeline 请求读出来处理了。这种情况下，看起来就是原子的。

但如果一个 pipeline 的数据比较多，大小超过了 TCP 包的大小，那发送出去的多个包 server 就不一定能一次性收到了。可以说在负载比较高的时候，必定会出问题的。

Redis Cluster

在生产环境中一般会使用 redis cluster. Redis cluster 没有分布式事务，这会对我们能使用的原子操作产生限制。

简单地看一下 redis cluster 是如何实现的：

redis 对 key 做 hash, 把 key 分配到 16384 个 hash slot 中，然后再把 hash slot 和集群节点绑定到一起
hash slot 和节点的绑定关系可以通过通过命令改变，这可以用来从集群中增删节点，平衡数据。改变绑定关系会导致数据迁移。数据迁移不是原子的。

那么 redis cluster 的原子操作要根据 key 的异同分 3 种情况来看：

操作中所有的 keys 都相同
操作中所有的 keys 都属于同一个 hash slot
操作中的 keys 属于多个 hash slot

其中 3 是不用看了，无法支持原子操作。而属于同一个 hash slot 时，要分两种情况：

集群处于稳定状态：这时同一个 hash slot 的 keys 都在同一个节点上，可以实现原子操作
这个 hash slot 正在执行数据迁移：这时操作中的 keys 可能不在同一个节点上，操作可能产生部分失败的结果

迁移过程中，一个 slot 的一部分 keys 在源节点上，另一个部分 keys 在目的节点上。Client 根据 slot 映射，向源节点发送请求；这时如果操作的 key 在目的节点上，server 就会返回 ASK 重定向，操作失败。

这时如果操作的是都是同一个 key, 那么它要么在源节点上，要么在目的节点上，所有操作要么全部成功，要么全部返回重定向。全部返回重定向时，整个事务都没有产生任何效果，这时 atomicity 和 consistency 是可以保证的。

但如果操作的不是同一个 key, 那就要可能部分 keys 操作成功，另一部分返回了重定向。只有一部分命令成功，这时 consistency 就破坏了。

所以，如果要保证 atomicity 和 consistency, redis cluster 的一个事务只能操作一个 key.

总结

单个命令是原子的
MULTI-EXEC 事务命令，和 lua 脚本都是原子的
MULTI-EXEC 要配合 pipeline 使用，否则性能会比 lua 脚本差
WATCH-MULTI-EXEC 不如 lua 脚本
Redis cluster 上，不管用 MULTI-EXEC 还是 lua 脚本，只有操作单个 key 的事务才能保证 consistency. 如果操作了多个 key, 可能会因为数据迁移，产生部分失败的结果

后记： redis 文档里说，lua script 一般比 multi-exec 更快、更简单

A Redis script is transactional by definition, so everything you can do with a Redis transaction, you can also do with a script, and usually the script will be both simpler and faster.

KDE 的环境变量加载来源和顺序

Thu, 21 Oct 2021 21:54:42 +0800

nicolasyang's blog https://blog.nicolasyang.me/posts/configure-environment-variables-for-kde/ -

systemd 环境变量

systemd 是 1 号进程，其它所有进程都会继承它的环境变量。

systemd 的环境变量由 systemd.environment-generator(7) 生成。存放在以下路径

/lib/systemd/system-environment-generators/*
/usr/lib/systemd/system-environment-generators/*
/usr/local/lib/systemd/system-environment-generators/*
/etc/systemd/system-environment-generators/*
/run/systemd/system-environment-generators/*

显然，/lib, /usr/lib 下的是系统或者软件包带的，/etc 下的是管理员配置的，/run 下的是临时生成的。

每个文件都是可执行文件（可以是 shell 脚本，也可以是 ELF executable），执行后向标准输出一行行 NAME=VALUE 格式的环境变量。例如：

#!/bin/sh

echo 'PATH=/usr/bin:/bin'

系统自带的配置会生成一些非常基础的环境变量。

systemd user 环境变量

/lib/systemd/user-environment-generators/*
/usr/lib/systemd/user-environment-generators/*
/usr/local/lib/systemd/user-environment-generators/*
/etc/systemd/user-environment-generators/*
/run/systemd/user-environment-generators/*

类似地，这个影响 systemd 用户会话的环境变量。用户进程都是从这里 fork 出来的，会进程这里的环境变量。

systemd-environment-d-generator

/usr/lib/systemd/user-environment-generators/30-systemd-environment-d-generator

这是一个特殊的 user environment generator, 它会加载来自 environment.d(7) 的配置。这些配置包括：

/etc/environment
/usr/lib/environment.d/*.conf
/etc/lib/environment.d/*.conf
/run/environment.d/*.conf
~/.config/environment.d/*.conf

这里的文件就不是可执行文件了，而是传统的 /etc/environment 格式。例如：

LANG=en_US.UTF-8

SDDM

SDDM 是 KDE 的登录管理器，用户登录后，会运行 wayland-session 或 Xsession 脚本。

脚本的路径由 /etc/sddm.conf 中的 SessionCommand 指定，默认应该是 /usr/share/sddm/scripts/wayland-session 或 /usr/share/sddm/scripts/Xsession.

脚本会先根据环境变量 SHELL 的值，去加载对应 shell 的 profile, 再 execve(2) 桌面环境的启动命令。

SHELL 代表的是用户的默认 shell, 由 systemd-logind 根据 /etc/passwd 中的值设置的，可以用 chsh 命令修改。

SDDM 的 session 脚本的实现很有意思。它们都是 #!/bin/sh 的 POSIX 脚本，直接去加载什么 zsh, fish 的 profile 肯定是不行的。所以它们会先根据 SHELL 的值，去 execve(2) 对应的 shell, 并且把自己收到的参数透传过去，用对应的 shell 把自己重新执行一遍。重新执行的时候，去 source 相关的 profile 就没有问题了。

由于这个 session 脚本的存在，我们在 login shell 的 profile 里（如 zsh 的 ~/.zprofile, bash 的 ~/.bash_profile export 的环境变量，就可以带到后面的 GUI 进程中。

备注：profile 和 rc 的区别

profile 由 login shell 执行，rc 由非 login shell 执行。由于环境变量是在父子进程间继承的，一般在 profile 里面 export 就可以了。而 alias 之类的 shell 配置，就必须在 rc 里面配置。

Plasma 桌面的 pre-startup 脚本

Pre-startup 脚本会在 plasma 桌面启动的早期阶段 source 进来，后面的进程都会继承这些的环境变量。这些脚本包括

/etc/xdg/plasma-workspace/env/*.sh
~/.config/plasma-workspace/env/*.sh

推荐在这里设置 GUI 相关的环境变量，比如 GTK_IM_MODULE, QT_IM_MODULE, GDK_DPI_SCALE.

参考资料

man 7 systemd.environment-generator
man 7 systemd-environment-d-generators
man 7 environemnt.d
https://userbase.kde.org/Session_Environment_Variables

macOS 下用 qemu 跑 windows 虚拟机

Fri, 15 Oct 2021 22:42:32 +0800

nicolasyang's blog https://blog.nicolasyang.me/posts/run-a-windows-vm-on-mac-os-with-qemu-hvf/ -

现在 macOS 上的免费的虚拟机里面， virtualbox 性能很差，vmware player 功能有限，就想看一下 qemu 有没有 hypervisor.framework 的移植，一查还真的有，还是稳定支持。

折腾了一下，没把 libvirt 配置起来，识别不到 qemu, 但直接用 qemu 也是可以的嘛。

安装

Macports

sudo port install qemu

其它包管理器

homebrew, fink 都有对应的包。

创建磁盘镜像

qemu-img create -f qcow2 /path/to/img.qcow2 64G

安装光盘

从微软网站上下载 Windows 10 的安装光盘
从 fedora 网站上下载 virtio 的 windows 驱动光盘

启动命令

qemu-system-x86_64 \
	-accel hvf \
	-machine q35 \
	-cpu Nehalem,hv-relaxed,hv-vapic,hv-runtime,hv-time,hv-tlbflush,hv-frequencies \
        -smp 2 \ -m 4G \
	-rtc base=localtime \
	-vga virtio \
	-usb -device usb-tablet \
	-drive file=/path/to/img.qcow2,format=qcow2,if=none,id=sda,aio=threads,cache=none,discard=unmap	-device virtio-scsi-pci,id=scsi0 -device scsi-hd,rotation_rate=1,drive=sda	\
	-netdev user,id=nic0 -device virtio-net,netdev=nic0 \
	-monitor stdio \
	-drive file=windows.iso,media=cdrom -drive file=virtio-win.iso,media=cdrom

可以保存成一个 shell 脚本。

解释

-accel hvf 指定使用 hypervisor.framework 加速
-machine q35 指定模拟的主板，q35 模拟 2007 年的 ICH9 南桥，特点为使用 PCIe 总线。如果不指定这个选项，默认会模拟一款 90 年代的设备，会大量使用 PCI/ISA 总线，在现代操作系统上很可能运行不起来。
-cpu Nehalem 指定模拟的 CPU 架构。由于是使用 hypervisor.framework 加速的，所以这里指定的 CPU 实际上只是传递给 guest 的型号信息，并不实际执行模拟工作。这个里指定的型号不能带有 hypervisor.framework 不支持的特性。我试出来最新能支持的就是 Nehalem 了。这里指定成 host 或 max 都不行，会在 windows 安装过程中产生蓝屏
-rtc localtime 众所周知，windows 的 rtc 是用本地时钟的
-vga virtio 显卡，virtio 是 VGA 兼容的，就算没有驱动，也可以运行起来。实际上 macports 版本的 qemu 也没有把 opengl 编译进去，所以 virtio 也用不了 3D 加速，和指定为 vga 应该没什么区别。
-usb 启用 USB 控制器，-device usb-tablet 模拟一个 USB 触摸屏。由于 usb tablet 使用绝对坐标，模拟 usb tablet 可以让鼠标“无缝”移动。
-drive 指定了磁盘镜像的文件和类型，同时禁用缓存（guest 操作系统会自己缓存，没必要重复缓存）、启用 TRIM、使用多线程模拟异步I/O (mac os 上只支持这种方式)，最后还有 if=none 让磁盘不要连接到自动生成的总线上。id=sda 是磁盘的名字，可以给后面的配置项引用
-device virtio-scsi-pci,id=scsi0 配置一个 virtio 实现的 SCSI 控制器
-device scsi-hd,rotation_rate=1,drive=sda 在 SCSI 控制器上配置一个硬盘，并把刚才的磁盘镜像配置到这个硬盘上。rotation_rate=1 让 guest 操作系统能把它识别为 SSD.
-netdev user,id=nic0 配置一个用户空间模拟（就是由 qemu 进程模拟）的网卡，-device virtio-net,netdev=nic0 把这个网卡通过 virtio 暴露给虚拟机
-monitor stdio 通过 stdio 提供 monitor 接口。monitor 接口可以用来向虚拟机发送 ACPI 关机、RESET 之类的操作
-drive file=windows.iso,media=cdrom -drive file=virtio-win.iso,media=cdrom 模拟两个光驱，分别是 windows 安装光盘和 virtio 驱动光盘

安装

启动后 windows 安装程序开始会找不到硬盘（因为没有 virtio 驱动），只要点加载驱动就可以了。

安装后

驱动

启动后需要到设备管理器里面给 virtio 网卡、显卡更新驱动。

安装完驱动后，就可以从启动脚本里面，把两个光驱的参数删除了。

时钟

Windows 默认使用 TSC 时钟，在虚拟机下是不准确的。可以在管理员权限的 powershell 下执行

bcdedit /set '{default}' USEPLATFORMCLOCK on

来把时钟源切换到 RTC.

后记

其实虚拟 I/O 设备的模拟，是分成两个部分的。一部分是在 Host 端，要怎么模拟虚拟设备的功能，如 -drive 用 qcow2 文件的读写来模拟磁盘的读写；另一部分是在 guest 端，怎么模拟设备的接口，比如 -device scsi-hd 用 SCSI 接口来提供对虚拟磁盘的访问。同样，-netdev 和 -device virtio-net 也是一对。

搞清楚这个后，手写 qemu 命令也并不复杂。

参考资料

Updates:

qemu-img 的 --fromat 选项应为 -f

qemu-system-x86_64 命令行需要用 -smp 指定核心数，-m 指定内存大小

-cpu 参数增加 paravirtualization 特性

Clickhouse 中 MergeTree 引擎的数据存储结构

Tue, 05 Oct 2021 15:15:16 +0800

nicolasyang's blog https://blog.nicolasyang.me/posts/data-structures-of-merge-tree-engine-in-clickhouse/ -

Clickhouse 是个使用列式存储方案的 OLAP 数据库。

OLAP(OnLine Analytical Processing) 的特点，包括：

适用于数据分析：适合做统计、聚合等分析性质的查询，区别于适合做增删改查的 OLTP 数据库
适合在线处理：可以短时间（数秒内）得到结果，区别于离线分析（如至少需要数分钟才能得到结果的 hive）

而列式存储的优势，则在于这样的场景：

我的一张表有很多列（几百上千列）属性，但每次检索，只关心其中的一小部分（十几二十个）。这时使用列式存储，则可以忽略不相关的列，减少 I/O 和内存的开销。

数据存储结构

一张表由多个分区 (partitions) 构成，数据按照 PARTITION BY 指定的键，保存在不同的分区。
每个分区由多个数据分片 (data parts) 构成。

每次插入数据都会产生一个新的 data part, 后台再对这些分片进行合并（即 merge ）。

这里和 HBase, level db, rocks db 不同的是，这里没有内存表 (memory table), 每次插入都会产生新分片。所以 clickhouse 绝对不能一行一行的插入数据，要像 kafka 那样一批一批写入。
每个数据分片内的数据按主键排序。
数据默认使用列式存储 (wide 格式)，但也可以行式存储 (compact 格式).

可以用 min_bytes_for_wide_part, min_rows_for_wide_part 来控制是否使用行式存储。每行数据比较小的表，可以用行式存储。

不指定这两个选项时，默认使用 wide 格式。
每个数据分片由多个颗粒 (granules) 构成。颗粒是 clickhouse 读取数据的最小单位。

这是 clickhouse 的关键数据结构

Granule 的大小由表设置 index_granularity, index_granularity_bytes 控制。即：
- 一个 granule 中包含的数据行数，不会超过 index_granulartiy 的配置
- 一个 granule 的大小，除去 granule 中的最后一行数据后，大小不超过 index_granularty_bytes 的配置。最后一行数据的大小可以溢出
一个 granule 的头部会标记这个 granule 内第一行数据的主键的值。随后的数据就不再会带有主键的值。此外，clickhouse 会按这个主键值为 granules 建立索引。

Granules 是个很独特的设计。

作为列式存储的系统，每列的数据是分开保存的。（属于废话了）

在之前的系统里，列式存储大概有两种方式。一个是 Hive 的方案，只存数据，没有排序和索引。读取的时候只能做全列扫描。另一个是 HBase 的方案，按主键排好序并建立索引。

HBase 的这种索引模式和列式存储配合起来时存在一个很大的问题：既然每列是分开存储的，那么每列的索引也就是分开的，那么主键的值就会在每列上都被重复保存，占用大量空间。为了规避这个问题，HBase 并不是每列数据都分开保存，而是按 column family 分开保存，并且 column family 的数量不能太多。

Clickhouse 的 granules 设计，相当于是以上两种方式的折中。即：
1. 对数据按主键排序
2. 不对每行数据建索引，只对 granules 建索引。
这样避免了主键占用大量空间，又使得检索的时候不需要做全表扫描（可以先根据索引定位到 granules, 然后在 granules 内部做遍历扫描）。

同时，这样的设计也使得 granules 内的数据更加紧凑，有利于数据压缩。

Secondary Index

以上的数据结构只能满足主键检索的需要。非主键的检索，还需要其它数据结构来支撑。

Clickhouse 的 secondary index 和传统数据库的 B 树索引完全不同，它被成为 data skipping index, 用于在检索中快速跳过不相关的 granules, 作用和 HBase 的 bloom filter 比较类似。

Bloom filter 确实也是 clickhouse 支持的一种 data skipping index 类型。不过 clickhouse 还支持更多的类型，包括：

minmax: 保存 granules 中数据的最大最小值区间
set(max_rows): 保存去重后数据的值
ngramebf_v1: 对字符串做 ngram 后再保存到 bloom filter 中，适合字符串 LIKE 搜索
tokenbf_v1: 对字符串做 tokenization 后再保存到 bloom filter 中
bloomfilter: 保存数据到 bloom filter 中

granularity_value 参数控制 data skipping index 的粒度，最小粒度为 1 个 granules. 增大粒度可以节省索引空间，减小粒度可以提高索引的有效性。

这种设计下，索引的有效性会收到数据分布和排序键的影响。一个极端的例子，排序键是 (年, 月, 日). 数据如：

1970	01	01	foo
1970	01	02	foo
...
1970	01	31	foo
1970	02	01	foo
...

这时如果建立索引 (日), 那么由于每个 granules 都包含了从 1 到 31 的所有值，这个索引会完全不起作用。

“过时”技术回顾： Apache Hive

Sat, 25 Sep 2021 18:37:29 +0800

nicolasyang's blog https://blog.nicolasyang.me/posts/apache-hive-review-an-obsolete-technology/ -

简介

Hive 是个存储结构化数据，主要用于离线分析的数据仓库。它主要的特点如下：

管理结构化数据，通过 SQL 提供查询
一般把数据存储在 HDFS 上
通过 Apache Spark 或 hadoop mapreduce 来执行离线 SQL 查询

Hive 的数据存储位置

Metadata store: 保存表定义等元数据的数据库，集群环境一般使用 mysql, 由 javax.jdo.option.ConnectionURL 指定
warehouse: 保存 hive 管理的数据，集群环境上使用 HDFS, 由 hive.metastore.warehouse.dir 指定

Hive 组件

HiveServer2 和 hive-jdbc: 通过 JDBC 提供 SQL 接口，其中
- HiveServer2 是常驻的服务进程，通过 thrift RPC 提供查询服务
- hive-jdbc 是 JDBC 驱动，通过 thrift 连接到 HiveServe2, 让 java 应用可以通过 JDBC 执行 Hive SQL

实际上这些组件并不是必须的，如果全程使用 Spark SQL, 那就可以不启动 HiveServer2.

Hive 的基本操作

数据的导入

我们一般只使用 Hive 的数据管理功能，通过 LOAD DATA [LOCAL] INPATH ... [OVERWRITE] INTO TABLE ... PARTITION (...) 语句，可以把数据导入 hive.

导入的文件必须按照 DDL 定义好的格式准备好，并且要求只包含一个分区的数据。导入的文件会被直接拷贝到指定分区的目录下，Hive 不会检查导入的文件格式是否正确，也不会检查数据内容是否确实落在指定的分区中。

如果数据文件已经保存在了 hive 使用的 HDFS 上，也可用 ALTER TABLE ... ADD PARTITION (...) LOCATION '...'] 来把这个文件添加到 metadata 中，不需要再用 LOAD DATA 拷贝一遍。

这种导入、保存数据的方式非常适合 map reduce 查询，但也让 hive 注定无法查询实时数据。实际使用中，都是像 logrotate 那样按时间按轮换文件的，即：

把数据写入文件
每隔一段时间（比如 1 小时或一天），关闭正在写入的文件
打开一个新文件继续写入
把关闭的文件导入 hive

我们经常说的 hive 是 T + 1 查询，就是这种方式。

DDL

和一般的数据库一样，通过 CREATE TABLE , DROP TABLE, TRUNCATE TABLE 来操作数据表。

和普通数据库不同的是，ALTER TABLE 只会修改 metadata, 不会修改已经导入的数据，这个用来改列名、增加分区什么的是可以的，但涉及到数据格式改变的，肯定是不行的。

Hive 的数据文件支持纯文本、SequenceFile, ORC, Parquet, avro 等多种格式，需要在 DDL 中声明（或者不声明，则使用全局配置中指定的默认格式）。

查询

基本上就是标准的 SQL 语法。

查询的结果集可能很大，一般会在 spark SQL 中，指定把结果写回 HDFS.

查询的执行方式就是 map-reduce 遍历有关分区的全部数据，耗时一般比较长。所以需要一套管理系统，从页面上获取用户输入的 SQL, 提交 spark 任务，在任务结束时通知用户，并提供个查看结果的页面，把数据从 HDFS 拉出来显示。

总结

其实 hive 是个非常简单粗暴的系统，就是通过 metadata 存储了数据的格式、分区方式、各个分区数据的保存位置。

写数据由写入方自己按指定的格式写好，然后通知 hive 更新一下元数据。查询也是 spark sql 自己去跑 map reduce 遍历数据处理。

不但没有 ACID, 连最基本的数据校验都没有。如果写数据的程序有 bug, 就可能会出现比如写错分区、写入数据少字段、多字段、字段类型不匹配等各种乱七八糟的问题。

但它确实能用。

参考资料

Flink 里的 enableObjectReuse 配置到底是什么？

Mon, 20 Sep 2021 16:24:51 +0800

nicolasyang's blog https://blog.nicolasyang.me/posts/what-is-exactly-enable-object-reuse-in-flink/ -

Flink 的 ExecuteConfig 中有个 enableObjectReuse 配置，文档说得很简单：

By default, objects are not reused in Flink. Enabling the object reuse mode will instruct the runtime to reuse user objects for better performance. Keep in mind that this can lead to bugs when the user-code function of an operation is not aware of this behavior.

除此之外，就只有在批处理 DataSet API 的文档里有提到这个，在流处理 DataStream API 完全没有提到这个。实际上，这个配置对流处理应用也有很大的性能影响。

下面主要讲一下，enableObjectReuse 在流处理中的效果，以及什么情况下可以安全地启用这个配置。至于批处理的情况，文档说得很清楚，就不再说了。

Operator Chaining

当相邻的 operators 直接不需要做数据 shuffle 时，flink 框架会把它们合并到一起，形成一个 task. Task 的每个并发都是一个 subtask. 一个 subtask 的计算任务，都是在一个线程内完成的。

因此，在一个 subtask 内，不同 operator 之间传递对象时，是可以不做序列化的。

enableObjectReuse

但默认配置下，并不是如此。即使在一个 subtask 内，一个 operator 执行完，输出的对象就会被序列化，下一个 operator 执行时，再把对象反序列化回来。只有显式设置 enableObjectReuse(), 才能消除这里的序列化操作。

序列化是开销很大的操作，Flink 为什么要这样设计呢？这里主要是为了兼容一些奇怪写法的代码。这些代码涉及了复用可变对象的情况。如果不通过序列化/反序列化把对象拷贝一份，就会可能会造成意想不到的 bug. 下面说明一下这些情况。

Object Reuse 造成逻辑错误的例子

上游 Operator: 输出成员变量

class A extends MapFunction<String, Foo> {
    private Foo foo = new Foo();

    /* ... some other logic... */

    public Foo map(String value) {
        return foo;
    }
}

下游 Operator: 改变输入对象

class B extends MapFunction<Foo, String> {
    public Foo map(Foo value) {
        String tmp = value.bar
        value.bar = "";
        return tmp;
    }
}

这种情况下，由于下游 operater 修改的其实是上游 operator 的成员变量，上游 operator 看起来即使自己的成员变量莫名其妙地变了。

类似地，StateBackend 里面的数据效果也和成员变量类似。

此外，如果有多个 operator 处理同一个输入，例如：

DataStream<Foo> fooStream = ...;
fooStream.map(new B());
fooStream.map(new AnotherMapFunction());

那么 AnotherMapFunction 读取输入的时候，就会读到被 B 改过的输入，造成逻辑错误。

如何保证 Object Reuse 安全

使用 immutable data structure. ~~scala 大法好, case class 赛高~~

如果程序使用的数据结构很复杂（比如 Map 嵌套 Map 再嵌套 List 之类的），序列化开销会很大，打开 enableObjectReuse 可以有效地提高性能。

不复杂也能提高性能，只要没有上面说的奇怪写法，都建议打开。