当前位置: 首页 > article >正文

进制和编码

1. Python代码的运行方式

1.1 Python解释器

Python代码是通过Python解释器执行的。解释器将代码逐行读取并转换为计算机可以理解的字节码。执行过程一般包括以下步骤:

  • 代码编写:开发者将Python代码写入.py​文件。
  • 代码加载:运行Python时,解释器加载指定的脚本文件。
  • 词法分析:解释器对代码进行词法分析,将代码转换为语法树(AST)。
  • 编译为字节码:将解析后的语法树编译为字节码,这是Python虚拟机能够理解的中间格式。
  • 解释执行:字节码被Python虚拟机解释并执行,实际完成指定的功能。
1.2 运行环境

Python可以在不同的环境中运行,主要包括:

  • 命令行/终端:直接在命令行中使用python script.py​来执行脚本。
  • 集成开发环境(IDE):使用专门的IDE(如PyCharm、VSCode、Jupyter Notebook等)编写和执行代码。
  • 在线编译器:使用如Replit、Google Colab等在线工具。
1.3 交互式模式

Python还提供交互式模式,在命令行中输入python​可以进入REPL(Read-Eval-Print Loop)环境,实时输入和执行代码。

2. 进制转换

进制转换是将一个数从一种计数法表示法转换到另一种计数法的过程。常见的进制有:

  • 二进制(Base-2):仅使用0和1。
  • 十进制(Base-10):人类常用的计数法,使用0到9。
  • 八进制(Base-8):使用0到7。
  • 十六进制(Base-16):使用0到9和A到F。
2.1 转换方法
  • 从二进制到十进制:每个二进制位乘以2的对应位权。
  • 从十进制到二进制:不断除以2并记录余数,最后逆序输出。
  • 从十进制到十六进制:类似于二进制,不断除以16。
2.2 转换函数
  • 从十进制到二进制:

    • v1 = bin(25) # 十进制转换为二进制
      print(v1) # "0b11001"
      
  • 从十进制到八进制:

    • v2 = oct(23) # 十进制转换为八进制
      print(v2) # "0o27"
      
  • 从十进制到十六进制:

    • v3 = hex(28) # 十进制转换为十六进制
      print(v3) # "0x1c"
      

3. 计算机中的单位

计算机中用于表示数据的基本单位是位(bit)。数据传输和存储的常用单位包括:

  • 字节(Byte):8位,相当于一个字符(通常是ASCII)。
  • 千字节(KB):1024字节。
  • 兆字节(MB):1024 KB。
  • 千兆字节(GB):1024 MB。
  • 太字节(TB):1024 GB。

计算机存储单位的使用,使得我们可以准确地表示和计算数据的容量和传输速度。

4. 编码

编码是将字符、数字及其他符号转换为计算机可以处理的二进制格式的过程。常见编码方式包括:

4.1 ASCII编码
  • 定义:ASCII(美国标准信息交换码)是一种字符编码方案,使用7位二进制表示128个字符(0-127)。
  • 特点:包含英文字母、数字和一些特定控制字符,适用于英语字符的表示。
  • 扩展:扩展ASCII使用8位以支持额外的字符。
4.2 GBK编码
  • 定义:GBK是对汉字的编码方案,是GB2312的扩展,支持简体和繁体中文。
  • 特点:采用双字节表示字符,可以编码多达21000个汉字和符号,适用于中文环境。
4.3 Unicode编码
  • 定义:Unicode是一个全球字符编码标准,提供为所有语言的字符分配唯一的编码,实现多语言字符集的统一。
  • 特点:支持超过143,000个字符,涵盖大部分现代语言和古代文字。
  • 编码格式:Unicode有多种实现形式,包括UTF-8、UTF-16和UTF-32。
4.4 UTF-8编码
  • 定义:UTF-8是一种可变长度的Unicode编码方式,使用1到4个字节表示字符。
  • 特点:兼容ASCII编码,英文字符使用1个字节,中文字符通常使用3个字节,使其在网络传输时节省带宽。
  • 应用:UTF-8广泛应用于网页(HTML)和现代编程语言中,成为互联网的标准编码。
4.5 Python相关的编码函数

在Python中,我们可以通过一些内置函数和库来处理编码和解码操作:

  • ​str.encode(encoding)​:将字符串编码为字节。例如:

    text = "你好"
    byte_text = text.encode('utf-8')  # 将字符串转换为UTF-8编码的字节
    
  • ​bytes.decode(encoding)​:将字节解码为字符串。例如:

    byte_text = b'\xe4\xbd\xa0\xe5\xa5\xbd'  # UTF-8编码的字节
    text = byte_text.decode('utf-8')  # 将字节解码为字符串
    
  • ​codecs​模块:Python的codecs​库提供了对不同编码格式的支持,可以读取和写入特定编码的文件。例如:

    import codecs
    with codecs.open('file.txt', 'r', encoding='gbk') as f:
        content = f.read()
    
  • ​chardet​库:可用来检测字节流的编码格式,适用于处理来自文件或网络的内容:

    import chardet
    byte_data = b'\xe4\xbd\xa0\xe5\xa5\xbd'
    result = chardet.detect(byte_data)
    print(result)  # 输出可能的编码信息
    

http://www.kler.cn/a/552492.html

相关文章:

  • 如何利用国内镜像从huggingface上下载项目
  • MacOS 15.3 卸载系统内置软件
  • ES6模块的异步加载是如何实现的?
  • 23种设计模式 - 模板方法
  • C语言结构体struct、联合体union和位域操作共同使用示例
  • 你对 CSS 预编译语言的理解是什么,有哪些区别?
  • 【强化学习的数学原理】第09课-策略梯度方法-笔记
  • 【进阶】微服务
  • Docker容器化 | 超简单部署 FireCrawl
  • iOS 上自定义编译 FFmpeg
  • Redis的简单使用
  • cs*n 网页内容转为html 加入 onenote
  • 抖音IP属地显示:准确性与关闭方法全解析
  • 新能源汽车充电桩运营模式,开启绿色出行新篇
  • 【基础架构篇十二】《DeepSeek多租户架构:企业级SaaS服务设计》
  • Jtti:centos主机如何搭建lnmp环境
  • 机器学习基础(第3个月):监督学习、无监督学习、模型评估指标(准确率、召回率等)
  • 【第4章:循环神经网络(RNN)与长短时记忆网络(LSTM)— 4.4 文本分类与情感分析】
  • linux redis ipv6、ipv4 只接收本地访问、接收本地和远程访问
  • 第二十四章 R 开头的术语