这里会显示出您选择的修订版和当前版本之间的差别。
— |
python-files:html [2011/02/10 13:54] (当前版本) |
||
---|---|---|---|
行 1: | 行 1: | ||
+ | ====== Python 解析 html 文件 ====== | ||
+ | ===== 各种HTML Parser比较 ===== | ||
+ | http://blog.ianbicking.org/2008/03/30/python-html-parser-performance/ | ||
+ | |||
+ | ===== HTMLParser ===== | ||
+ | HTMLParser是Python自带的模块,能够很容易实现HTML文件的处理 \\ | ||
+ | [[python-files:htmlparser|使用HTMLParser解析HTML文件]] | ||
+ | |||
+ | |||
+ | ===== BeautifulSoup ===== | ||
+ | 看了一下介绍,觉得功能很强劲,还没又时间去研究。 | ||
+ | |||
+ | [[modules:beautifulsoup:start|BeautifulSoup简单文档]]有空我会去完善的。 | ||
+ | |||
+ | ===== pyQuery ===== | ||
+ | |||
+ | 用过jQuery的都知道,JavaScript处理html文本的方便好用了。现在有了pyQuery,python中也可以像JavaScript一样来处理jQuery了。 | ||
+ | |||
+ | [[modules:pyquery]] | ||
+ | |||
+ | |||
+ | ===== 从HTML文件中抽取正文的简单方案 ===== | ||
+ | |||
+ | * [[python-files:html-body| 从HTML文件中抽取正文的简单方案]] | ||
+ | * [[modules:readability]] | ||
+ | ===== 从HTML中得到准确的文章标题 (原创) ===== | ||
+ | 现在标题 <title> 部分大多含有网站名称, 和子栏目名称。\\ | ||
+ | 如果希望得到干净的文章标题可以使用如下方法: | ||
+ | * 得到<title> </title>的内容 | ||
+ | * 将title的与正文就最大交集,得到的就是干净的文章标题 | ||
+ | |||
+ | 得到了干净的标题和正文,余下的事情就好做咯^_^ |