Jul31

【原创】beautifulsoup解析中文网页乱码解决

Author: leeon  Click: 1688   Date: 2011.07.31 @ 15:35:24 pm Category: python


import urllib2
from BeautifulSoup import BeautifulSoup

page = urllib2.urlopen('http://www.leeon.me');
soup = BeautifulSoup(page,fromEncoding="gb18030")

print soup.originalEncoding
print soup.prettify()

如果中文页面编码是gb2312,gbk,在BeautifulSoup构造器中传入fromEncoding="gb18030"参数即可解决乱码问题,即使分析的页面是utf8的页面使用gb18030也不会出现乱码问题!


TAG:   beautifusoup python 乱码

    评论
    • 提交

    分类

    标签

    归档

    最新评论

    the5fire的博客在12:44:23评论了
    【原创】beautifulsoup解析中文网页乱码解决
    python在12:10:14评论了
    【原创】beautifulsoup解析中文网页乱码解决
    vls在18:02:38评论了
    【原创】使用STL来构造字符串split 和join方法
    john在10:43:23评论了
    【原创】php中ajax异步阻塞解决
    Fang在08:51:00评论了
    java was started but returned exit code=1问题解决小记

    我看过的书

    链接

    其他

    访问本站种子 本站平均热度:1414 c° 本站链接数:55 个 本站标签数:264 个 本站被评论次数:40 次