用户工具

站点工具


python-files:html

差别

这里会显示出您选择的修订版和当前版本之间的差别。

到此差别页面的链接

python-files:html [2011/02/10 13:54] (当前版本)
行 1: 行 1:
 +====== Python 解析 html 文件 ======
 +===== 各种HTML Parser比较 =====
  
 +http://​blog.ianbicking.org/​2008/​03/​30/​python-html-parser-performance/​
 +
 +===== HTMLParser ​ =====
 +HTMLParser是Python自带的模块,能够很容易实现HTML文件的处理 \\
 +[[python-files:​htmlparser|使用HTMLParser解析HTML文件]]
 + 
 +
 +===== BeautifulSoup =====
 +看了一下介绍,觉得功能很强劲,还没又时间去研究。
 +
 +[[modules:​beautifulsoup:​start|BeautifulSoup简单文档]]有空我会去完善的。
 +
 +===== pyQuery =====
 +
 +用过jQuery的都知道,JavaScript处理html文本的方便好用了。现在有了pyQuery,python中也可以像JavaScript一样来处理jQuery了。
 +
 +[[modules:​pyquery]]
 +
 +
 +===== 从HTML文件中抽取正文的简单方案 =====
 +
 +  * [[python-files:​html-body| 从HTML文件中抽取正文的简单方案]]
 +  * [[modules:​readability]]
 +===== 从HTML中得到准确的文章标题 (原创) =====
 + ​现在标题 <​title>​ 部分大多含有网站名称,​ 和子栏目名称。\\
 +如果希望得到干净的文章标题可以使用如下方法:
 +  * 得到<​title>​ </​title>​的内容
 +  * 将title的与正文就最大交集,得到的就是干净的文章标题
 +
 +得到了干净的标题和正文,余下的事情就好做咯^_^
python-files/html.txt · 最后更改: 2011/02/10 13:54 (外部编辑)