部分大多含有网站名称, 和子栏目名称。\\ 如果希望得到干净的文章标题可以使用如下方法： * 得到<title>

====== Python 解析 html 文件 ======
===== 各种HTML Parser比较 =====

http://blog.ianbicking.org/2008/03/30/python-html-parser-performance/

===== HTMLParser  =====
HTMLParser是Python自带的模块，能够很容易实现HTML文件的处理 \\
[[python-files:htmlparser|使用HTMLParser解析HTML文件]]
 

===== BeautifulSoup =====
看了一下介绍，觉得功能很强劲，还没又时间去研究。

[[modules:beautifulsoup:start|BeautifulSoup简单文档]]有空我会去完善的。

===== pyQuery =====

用过jQuery的都知道，JavaScript处理html文本的方便好用了。现在有了pyQuery，python中也可以像JavaScript一样来处理jQuery了。

[[modules:pyquery]]


===== 从HTML文件中抽取正文的简单方案 =====

  * [[python-files:html-body| 从HTML文件中抽取正文的简单方案]]
  * [[modules:readability]]
===== 从HTML中得到准确的文章标题 （原创） =====
 现在标题 <title> 部分大多含有网站名称, 和子栏目名称。\\
如果希望得到干净的文章标题可以使用如下方法：
  * 得到<title> </title>的内容
  * 将title的与正文就最大交集，得到的就是干净的文章标题

得到了干净的标题和正文，余下的事情就好做咯^_^