深入理解 python 虚拟机:pyc 文件结构
pyc 文件
pyc 文件是 Python 在解释执行源代码时生成的一种字节码文件,它包含了源代码的编译结果和相关的元数据信息,以便于 Python 可以更快地加载和执行代码。
当 Python 解释器首次执行一个 .py 文件时,它会在同一目录下生成一个对应的 .pyc 文件,以便于下次加载该文件时可以更快地执行。如果源文件在修改之后被重新加载,解释器会重新生成 .pyc 文件以更新缓存的字节码。
生成 pyc 文件
➜ pvm ls
demo.py hello.py
➜ pvm python -m compileall .
Listing '.'...
Listing './.idea'...
Listing './.idea/inspectionProfiles'...
Compiling './demo.py'...
Compiling './hello.py'...
➜ pvm ls
__pycache__ demo.py hello.py
➜ pvm ls __pycache__
demo.cpython-310.pyc hello.cpython-310.pyc
python -m compileall .
命令将递归扫描当前目录下面的 py 文件,并且生成对应文件的 pyc 文件。pyc 文件布局
第二部分 Bit Field 这个字段的主要作用是为了将来能够实现复现编译结果,但是在 python3.9a2 时,这个字段的值还全部是 0 。详细内容可以参考 PEP552-Deterministic pycs 。这个字段在 python2 和 python3 早期版本并没有(python3.5 还没有),在 python3 的后期版本这个字段才出现的。
第四部分 也是整个 pyc 文件当中最重要的一个部分,最后一个部分就是一个 CodeObject 对象序列化之后的数据,我们稍后再来仔细分析一下这个对象相关的数据。
def f(: x = 1 return 2
pyc 文件的十六进制形式如下所示:
➜ __pycache__ hexdump -C hello.cpython-310.pyc 00000000 6f 0d 0d 0a 00 00 00 00 b9 48 21 64 20 00 00 00 |o........H!d ...| 00000010 e3 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 |................| 00000020 00 02 00 00 00 40 00 00 00 73 0c 00 00 00 64 00 |.....@...s....d.| 00000030 64 01 84 00 5a 00 64 02 53 00 29 03 63 00 00 00 |d...Z.d.S..c...| 00000040 00 00 00 00 00 00 00 00 00 01 00 00 00 01 00 00 |................| 00000050 00 43 00 00 00 73 08 00 00 00 64 01 7d 00 64 02 |.C...s....d.}.d.| 00000060 53 00 29 03 4e e9 01 00 00 00 e9 02 00 00 00 a9 |S..N...........| 00000070 00 29 01 da 01 78 72 03 00 00 00 72 03 00 00 00 |....xr....r....| 00000080 fa 0a 2e 2f 68 65 6c 6c 6f 2e 70 79 da 01 66 01 |.../hello.py..f.| 00000090 00 00 00 73 04 00 00 00 04 01 04 01 72 06 00 00 |...s........r...| 000000a0 00 4e 29 01 72 06 00 00 00 72 03 00 00 00 72 03 |.N.r....r....r.| 000000b0 00 00 00 72 03 00 00 00 72 05 00 00 00 da 08 3c |...r....r......<| 000000c0 6d 6f 64 75 6c 65 3e 01 00 00 00 73 02 00 00 00 |module>....s....| 000000d0 0c 00 |..| 000000d2
因为数据使用小端表示方式,因此对于上面的数据来说:
- 第一部分魔数为:0xa0d0d6f 。
- 第二部分 Bit Field 为:0x0 。
- 第三部分最后一次修改日期为:0x642148b9 。
- 第四部分文件大小为:0x20 字节,也就是说 hello.py 这个文件的大小是 32 字节。
import struct
import time
import binascii
fname = "./__pycache__/hello.cpython-310.pyc"
f = open(fname, "rb"
magic = struct.unpack('<l', f.read(4[0]
bit_filed = f.read(4
print(f"bit field = {binascii.hexlify(bit_filed}"
moddate = f.read(4
filesz = f.read(4
modtime = time.asctime(time.localtime(struct.unpack('<l', moddate[0]
filesz = struct.unpack('<L', filesz
print("magic %s" % (hex(magic
print("moddate (%s" % (modtime
print("File Size %d" % filesz
f.close(
上面的代码输出结果如下所示:
bit field = b'00000000'
magic 0xa0d0d6f
moddate (Mon Mar 27 15:41:45 2023
File Size 32
有关 pyc 文件的详细操作可以查看 python 标准库 importlib/_bootstrap_external.py 文件源代码。
CodeObject
CodeObject 是一个对象,它包含了 Python 代码的字节码、常量、变量、位置参数、关键字参数等信息,以及一些用于运行代码的元数据,如文件名、代码行号等。
CodeObject,然后再执行。在编译过程中,解释器会将 Python 代码转换为字节码,并将其保存在 CodeObject
对象中。此后,每当我们调用该模块或函数时,解释器都会使用 CodeObject
中的字节码来执行代码。
CodeObject 对象是不可变的,一旦创建就不能被修改。这是因为 Python 代码的字节码是不可变的,而 CodeObject
对象包含了这些字节码,所以也是不可变的。
现在举一个例子来分析一下 pycdemo.py 的 pyc 文件,pycdemo.py 的源程序如下所示:
if __name__ == '__main__':
a = 100
print(a
下面的代码是一个用于加载 pycdemo01.cpython-39.pyc 文件(也就是 hello.py 对应的 pyc 文件)的代码,使用 marshal 读取 pyc 文件里面的 code object 。
import marshal
import dis
import struct
import time
import types
import binascii
def print_metadata(fp:
magic = struct.unpack('<l', fp.read(4[0]
print(f"magic number = {hex(magic}"
bit_field = struct.unpack('<l', fp.read(4[0]
print(f"bit filed = {bit_field}"
t = struct.unpack('<l', fp.read(4[0]
print(f"time = {time.asctime(time.localtime(t}"
file_size = struct.unpack('<l', fp.read(4[0]
print(f"file size = {file_size}"
def show_code(code, indent='':
print ("%scode" % indent
indent += ' '
print ("%sargcount %d" % (indent, code.co_argcount
print ("%snlocals %d" % (indent, code.co_nlocals
print ("%sstacksize %d" % (indent, code.co_stacksize
print ("%sflags %04x" % (indent, code.co_flags
show_hex("code", code.co_code, indent=indent
dis.disassemble(code
print ("%sconsts" % indent
for const in code.co_consts:
if type(const == types.CodeType:
show_code(const, indent+' '
else:
print(" %s%r" % (indent, const
print("%snames %r" % (indent, code.co_names
print("%svarnames %r" % (indent, code.co_varnames
print("%sfreevars %r" % (indent, code.co_freevars
print("%scellvars %r" % (indent, code.co_cellvars
print("%sfilename %r" % (indent, code.co_filename
print("%sname %r" % (indent, code.co_name
print("%sfirstlineno %d" % (indent, code.co_firstlineno
show_hex("lnotab", code.co_lnotab, indent=indent
def show_hex(label, h, indent:
h = binascii.hexlify(h
if len(h < 60:
print("%s%s %s" % (indent, label, h
else:
print("%s%s" % (indent, label
for i in range(0, len(h, 60:
print("%s %s" % (indent, h[i:i+60]
if __name__ == '__main__':
filename = "./__pycache__/pycdemo01.cpython-39.pyc"
with open(filename, "rb" as fp:
print_metadata(fp
code_object = marshal.load(fp
show_code(code_object
执行上面的程序输出结果如下所示:
magic number = 0xa0d0d61
bit filed = 0
time = Tue Mar 28 02:40:20 2023
file size = 54
code
argcount 0
nlocals 0
stacksize 2
flags 0040
code b'650064006b02721464015a01650265018301010064025300'
3 0 LOAD_NAME 0 (__name__
2 LOAD_CONST 0 ('__main__'
4 COMPARE_OP 2 (==
6 POP_JUMP_IF_FALSE 20
4 8 LOAD_CONST 1 (100
10 STORE_NAME 1 (a
5 12 LOAD_NAME 2 (print
14 LOAD_NAME 1 (a
16 CALL_FUNCTION 1
18 POP_TOP
>> 20 LOAD_CONST 2 (None
22 RETURN_VALUE
consts
'__main__'
100
None
names ('__name__', 'a', 'print'
varnames (
freevars (
cellvars (
filename './pycdemo01.py'
name '<module>'
firstlineno 3
lnotab b'08010401'
下面是 code object 当中各个字段的作用:
-
argcount,这个表示一个代码块的参数个数,这个参数只对函数体代码块有用,因为函数可能会有参数,比如上面的 pycdemo.py 是一个模块而不是一个函数,因此这个参数对应的值为 0 。
-
co_consts,这个字段是一个列表类型的字段,主要是包含一些字符串常量和数值常量,比如上面的 "__main__" 和 100 。
-
co_firstlineno,这个字段的含义为在 python 源文件当中第一行代码出现的行数,这个字段在进行调试的时候非常重要。
-
co_lnotab,这个字段的含义主要是用于计算每个字节码指令对应的源代码行数。
-
co_names,和 co_varnames 相反,表示非本地定义但是在 code object 当中使用的名字。
-
co_stackszie,因为 python 虚拟机是一个栈式计算机,这个参数的值表示这个栈需要的最大的值。
总结
在本篇文章当中主要给大家介绍了 python 文件被编译之后的结果文件 .pyc 文件结构,在 pyc 文件当中一个最重要的结构就是 code object 对象,在本篇文章当中主要是简单介绍了 code object 各个字段的作用。在后续的文章当中将会举详细的例子进行说明,正确理解这些这些字段的含义,对于我们理解 python 虚拟机大有裨益。
更多精彩内容合集可访问项目:https://github.com/Chang-LeHung/CSCore
关注公众号:一无是处的研究僧,了解更多计算机(Java、Python、计算机系统基础、算法与数据结构)知识。