用户工具

站点工具


modules:chardet

差别

这里会显示出您选择的修订版和当前版本之间的差别。

到此差别页面的链接

modules:chardet [2017/04/16 02:51] (当前版本)
admin
行 1: 行 1:
 +======Python chardet 字符编码判断 ======
  
 +使用 chardet 可以很方便的实现字符串/​文件的编码检测。尤其是中文网页,有的页面使用GBK/​GB2312,有的使用UTF8,如果你需要去爬一些页面,知道网页编码很重要的,虽然HTML页面有charset标签,但是有些时候是不对的。那么chardet就能帮我们大忙了。
 +
 +
 +===== chardet实例 ​ =====
 +
 +<code python>
 +>>>​ import urllib
 +>>>​ rawdata = urllib.urlopen('​http://​www.google.cn/'​).read()
 +>>>​ import chardet
 +>>>​ chardet.detect(rawdata)
 +{'​confidence':​ 0.98999999999999999,​ '​encoding':​ '​GB2312'​}
 +>>>​
 +</​code>​
 +
 +chardet可以直接用detect函数来检测所给字符的编码。函数返回值为字典,有2个元数,一个是检测的可信度,另外一个就是检测到的编码。
 +===== chardet 安装 =====
 +
 +下载chardet后,解压chardet压缩包,直接将chardet文件夹放在应用程序目录下,就可以使用import chardet开始使用chardet了。
 +
 +或者使用setup.py安装文件,将chardet拷贝到Python系统目录下,这样你所有的python程序只要用import chardet就可以了。
 +<​code>​
 +python setup.py install
 +</​code>​
 +
 +===== 参考 =====
 +  * https://​pypi.python.org/​pypi/​chardet
modules/chardet.txt · 最后更改: 2017/04/16 02:51 由 admin