python代码的运行方式
进制
计算机中的单位
编码

Python代码运行方式

脚本式（先把Python代码写入到文件中）
交互式（在终端进入Python解释器，即进入交互式环境），缺点：关闭终端代码会消失
在Pycharm中也有交互式的运行

进制

计算机中底层所有的数据都以010101的形式存在（图片、文本、视频等）。

二进制

二进制（满二进一）

例：
0
1
10

二进制就像古代烽火台的点燃一样一定的顺序代表一定的信号

八进制、十进制、十六进制

二进制、八进制、十进制、十六进制的相互转换

进制转换

注意：二进制和八进制和十六进制没有办法直接互相转换，需要借助10进制间接转换
十进制转化为其他进制

例：
v1 = bin(25) #十进制转换为二进制  结果：  “0b11001”
print(v1)
v2 = oct(23) #十进制转换为八进制  结果：  “0o27”
print(v2)
v3 = hex(28) #十进制转换为十六进制 结果：  “0x1c”
print(v3)
注意：十进制转换为其他进制时，以字符串的形式存在，不以整型的形式存在

将二进制、八进制、十六进制转换为十进制

i1 = int("0b11001",base=2)
print(i1)
i2 = int("0o27",base=8)
print(i2)
i3 = int("0x1c",base=16)
print(i3)
结果：
25
23
28
其他进制的相互转换，先把其转换为十进制，再将其的十进制转换为要转换的进制。

计算机中的单位

由于计算机中本质上所有的东西是以二进制存储和操作的，为了方便对于二进制值大小的表示，所以就搞了一些单位。

单位

b（bit），位：

 1，1位
 10，2位
 111，3位
 1001，4位
二进制有几个，那么就有几位，位是最小的单位

B（byte），字节：

1
2
3

10010110，1个字节
10010110 10010110，2个字节
1个字节就是八位，如果有3个字节，那么就要3*8=24位

KB（kilobyte），千字节：

1024个字节就是1个千字节

10010110 11010110 10010111....., 1KB
1KB = 1024B = 1024 * 8 b

M（Megabyte），兆：

1 2	1024KB就是1M 1M = 1024 KB = 1024 * 1024 B = 1024 * 1024 * 8 b

G（Gigabyte），千兆：

1 2	1024M就是1G 1G = 1024 M = 1024 * 1024 KB = 1024 * 1024 * 1024 B = 1024 * 1024 * 1024 * 8 b

T（Terabyte），万亿字节：

1024个G就是1T
1T= 1024 G 
= 1024 *1024 M
= 1024 * 1024 * 1024 KB 
= 1024 * 1024 * 1024 * 1024 B 
= 1024 * 1024 * 1024 * 8 b

其他更大单位PB/EB/ZB/YB/BB/NB/DB不再赘述。

练习

假设1个汉字需要2个字节（2B=16位来表示，如：1000101011001100），那么1G流量可
以通过网络传输多少汉字呢？（计算机传输本质上也是二进制）
1G = 1024M = 1024 * 1024KB = 1024 * 1024 * 1024 B
每个汉字需要2个字节表示
1024 * 1024 * 1024/2 = ？
假设1个汉字需要2个字节（2B=16位来表示，如：1000101011001100），那么500G硬盘可以存储多少个汉字？
500G = 500 * 1024M= 500 * 1024 *1024 KB = 500 * 1024 * 1024 * 1024 B
500 * 1024 * 1024 * 1024 / 2 = ？

编码

编码，文字和二进制之间的一个对照表全球的编码有很多种，下面介绍的是常见的编码

ASCII编码

Ascii规定使用1个字节来表示字母与二进制的对应关系

00000000
00000001
00000010
00000011                          
...
11111111
一个编码对应的一个字母或数字，例如：00100000  对应的是@
2**8 = 256
下图是ascii的对照表
 

如果你的程序中使用了ascii编码，那就意味着你的程序中只能出现英文不能出现中文
一旦出现中文程序就会报错

gb-2312编码

gb-2312编码，由国家信息标准委员会制作（1980年）
gbk编码，对gb2312进行扩展，包含了中日韩等文字（1995年）

在与二进制做对应关系时，由如下逻辑：
# 单字节表示，用一个字节表示对应关系。（进行向下兼容）2**8 = 256
# 双字节表示，用两个字节表示对应关系。2**16 = 65536种可能
# 注意：总共能表示65536种可能，而不是256+65536种可能。目前该编码还没有用完

# 在写程序的时候一般不建议用gbk和gb2312，这两种编码太局限了。

unicode

Unicode也被称为万国码，为全球的每个文字都分配了一个码位（二进制表示）。一般使用两种标准来做为文字和码位的对应关系。

ucs2

用固定的2个字节取表示一个文字
00000000 00000000    悟   （真实的对应关系并不如此只是举个例子）
.......
      
2**16 = 65535

ucs4

用固定的4个字节去表示一个文字。
00000000 00000000 00000000 00000000  无（真实的对应关系并不如此只是举个例子）
.........
一共有2**32 = 4294967296种可能

注意：

在第三个符号中ucs2表示不了，要用ucs4，并且如果没有满4个字节前面需要补零。
无论是ucs2和ucs4都有缺点：浪费空间

如果把一堆A放入内存，那么用ascii存储的如果是1个G，那么用ucs2存储的就是要2个G，用ucs4存储就要4个G
Unicode的应用：在文件存储和网络传输时，不会直接使用unicode。而在内存中unicode。

utf-8编码

包含所有文字和二进制的对应关系，全球应用最为广泛的一种编码（站在巨人的肩膀上功成名就）。
本质上：utf-8是对Unicode的压缩，用尽量少的二进制去与文字进行对应。左边的区间范围是16进制。

具体压缩的流程：
1. 第一步：选择转换模板

第二步：在模板中填入数据

在套的时候，从后往前套，每六位套一字节

Python相关的编码

字符串（str） “alex媳妇叫铁锤” unicode处理一般在内存
字符串（str） “alex媳妇叫铁锤” unicode处理一般在内存

v1 = "武"   #unicode ucs4

v2 = "武".encode("utf-8")
v3 = "武".encode("gbk")

将一个字符串写入到一个文件中

# 将一个字符串写入到一个文件中。
name = "嫂子热的满身大汗"
# 将字符串转换位字节类型
data = name.encode("utf-8")
#  打开一个文件
file_object = open("log.txt",mode="wb")
#  在文件中写内容
file_object.write(data)
#  关闭文件
file_object.close()

总结

计算机上所有的东西最终都会成为二进制再去运行。
ascii编码、unicode字符集、utf-8编码本质上都是字符与二进制的关系。

ascii，字符和二进制的对照表

unicode，字符和二进制（码位）的对照表
utf-8，对unicode字符集的码位进行压缩处理，间接也维护了字符和二进制的对照表。

ucs2和ucs4指的是使用多少个字节来表示Unicode字符集的码位。
目前最为广泛的编码为：utf-8，它可以表示所有的字符且存储和网络传输也不会浪费资源（对码位进行压缩了）。
二进制、八进制、十进制、十六进制其实就是进位的时机不同。
基于Python实现二进制、八进制、十进制、十六进制之间的转换。
一个字节8位
计算机中常见单位b/B/KB/M/G的关系。
汉字，用gbk编码需要用2个字节；用utf-8编码需要用3个字节。
基于python实现将字符串转换为字节（utf-8编码）

# 字符串类型
name = "武沛齐"
print(name)
# 字符串转换为字节类型
data = name.encode("utf-8")
print(data) # b'\xe6\xad\xa6\xe6\xb2\x9b\xe9\xbd\x90' utf-8 中文3个字节
# 把字节转换为字符串
old = data.decode("utf-8")
print(old)  # 武沛齐

基于python实现将字符串转换为字节（gbk编码）