这里会显示出您选择的修订版和当前版本之间的差别。
— |
modules:chardet [2017/04/16 02:51] (当前版本) admin |
||
---|---|---|---|
行 1: | 行 1: | ||
+ | ======Python chardet 字符编码判断 ====== | ||
+ | 使用 chardet 可以很方便的实现字符串/文件的编码检测。尤其是中文网页,有的页面使用GBK/GB2312,有的使用UTF8,如果你需要去爬一些页面,知道网页编码很重要的,虽然HTML页面有charset标签,但是有些时候是不对的。那么chardet就能帮我们大忙了。 | ||
+ | |||
+ | |||
+ | ===== chardet实例 ===== | ||
+ | |||
+ | <code python> | ||
+ | >>> import urllib | ||
+ | >>> rawdata = urllib.urlopen('http://www.google.cn/').read() | ||
+ | >>> import chardet | ||
+ | >>> chardet.detect(rawdata) | ||
+ | {'confidence': 0.98999999999999999, 'encoding': 'GB2312'} | ||
+ | >>> | ||
+ | </code> | ||
+ | |||
+ | chardet可以直接用detect函数来检测所给字符的编码。函数返回值为字典,有2个元数,一个是检测的可信度,另外一个就是检测到的编码。 | ||
+ | ===== chardet 安装 ===== | ||
+ | |||
+ | 下载chardet后,解压chardet压缩包,直接将chardet文件夹放在应用程序目录下,就可以使用import chardet开始使用chardet了。 | ||
+ | |||
+ | 或者使用setup.py安装文件,将chardet拷贝到Python系统目录下,这样你所有的python程序只要用import chardet就可以了。 | ||
+ | <code> | ||
+ | python setup.py install | ||
+ | </code> | ||
+ | |||
+ | ===== 参考 ===== | ||
+ | * https://pypi.python.org/pypi/chardet |