python-files:html

差别

这里会显示出您选择的修订版和当前版本之间的差别。

到此差别页面的链接

@@ 行 1: / 行 1: @@
+====== Python 解析 html 文件 ======
+===== 各种HTML Parser比较 =====
+http://blog.ianbicking.org/2008/03/30/python-html-parser-performance/
+===== HTMLParser  =====
+HTMLParser是Python自带的模块，能够很容易实现HTML文件的处理 \\
+[[python-files:htmlparser|使用HTMLParser解析HTML文件]]
+===== BeautifulSoup =====
+看了一下介绍，觉得功能很强劲，还没又时间去研究。
+[[modules:beautifulsoup:start|BeautifulSoup简单文档]]有空我会去完善的。
+===== pyQuery =====
+用过jQuery的都知道，JavaScript处理html文本的方便好用了。现在有了pyQuery，python中也可以像JavaScript一样来处理jQuery了。
+[[modules:pyquery]]
+===== 从HTML文件中抽取正文的简单方案 =====
+  * [[python-files:html-body| 从HTML文件中抽取正文的简单方案]]
+  * [[modules:readability]]
+===== 从HTML中得到准确的文章标题 （原创） =====
+ 现在标题 <title> 部分大多含有网站名称, 和子栏目名称。\\
+如果希望得到干净的文章标题可以使用如下方法：
+  * 得到<title> </title>的内容
+  * 将title的与正文就最大交集，得到的就是干净的文章标题
+得到了干净的标题和正文，余下的事情就好做咯^_^

python-files/html.txt · 最后更改: 2011/02/10 13:54 (外部编辑)