====== Python读写二进制文件 ======

使用python语言直接读取普通文件，可以使用

<code python>
open('filepath/filename','r')
</code>

open函数中，第一个参数表示读取文件的路径，第二个参数表示打开文件的模式，

  * ‘r’表示只读（缺省，如果文件不存在，则会抛出错误）
  * ‘w’表示只写(如果文件不存在，则自动创建文件)
  * ‘a’表示 新写入的内容附加到文件的末尾
  * ‘r+’表示 读写

如果要以二进制的方式打开文件，需要在第二个参数加上字符“b”（例如，“rb”,“wb”等）。

注意： 在读取二进制文件时，使用linux系统可以不加“b”，但使用windows一定要“b”，否则会以普通文本形式读取。

===== Python读取二进制文件 =====

读取二进制文件并保存为Long型 (读取原文件通过UltraEdit查看16进制编码是“78 56 34 12”)

<code python>
    #以二进制的方式读取文件
    #coding: UTF-8

    fileData = open('/home/ubuntu/staff_sample.dat','rb')

    #读取文件的前4个字节   #将读取的4个字节转换为long
    data_id = struct.unpack("l",fileData.read(4))
    print data_id
</code>

打印的结果是305419896。

struct.unpack()函数，第一个参数format表示转换的类型，常用的有：

{{:python-files:python-struct-unpark-type.png|}}

读取二进制文件并保存为String类型

原始文件中字符串使用的是TCHAR类型，TCHAR类型的每个字符占2个字节，这里的原始数据是”Staff 头衔”，使用UE编辑器查看16进制编码是

{{:python-files:python-struct-unpark-type-bin.png|}}

代码：
<code python>
    data_string = fileData.read(128)
    readString1 = unicode(data_string,"utf-16")
    print readString1
</code>

代码中，

第一句表示从二进制文件读取128个字节；

第二句表示将读取出来的数据转换成utf-16格式编码的字符串。

说明：UTF-16是Unicode的其中一个使用方式，其编码的方法是：

  * 如果字符编码U小于0×10000,也就是十进制的0到65535之内，则直接使用两字节表示
  * 如果字节编码U大于0×10000,（由于Unicode编码最大范围是0x10FFFF），则使用4字节表示

===== python 写入二进制文件 =====

==== 1.写入long型数据 ====


在上面提到python读取二进制文件并转化为long型，现在逆向将long保存到文件中，
<code python>
    #coding: UTF-8

    id = 305419896
    parsedata_id = struct.pack("L",id)    #将long型305419896保存到二进制文件中
    #将long型写入到文件中
    WriteFileData = open('/home/ubuntu/pythonfile.dat','wb')
    WriteFileData.write(parsedata_id)
    WriteFileData.close()
</code>

==== 2. 将string类型写入二进制文件 ====

<code python>
    text = 'Staff 头衔'
    text1 = text.encode("UTF-16")
    texlength = len(text1)
    text2 = text1[2:texlength]
    #将long型和string保存到文件中
    WriteFileData = open('/home/ubuntu/pythonfile.dat','wb')
    WriteFileData.write(text2);
    WriteFileData.close()
</code>

解释：上述代码中的第二行将字符串采用UTF-16表示后，默认UTF-16文件的开头，都会自动放置一个U+FEFF字符作为Byte Order Mark(UTF-16以FF FE代表，UTF-16BE以FE FF代表)，其中U+FEFF字符在Unicode中代表的意义是ZERO WIDTH NO-BREAK SPACE，即它表示没有宽度也没有断字的空白。

如果写入的二进制文件需要在C、C++语言中使用，或者需要与C、C++的程序通信时，则需要将FF FE字节删除，也就是需要加入上述代码中的第三行和第四行，如果只是用于python语言，可不用理会FF FE这两个开头字节。