用户工具

站点工具


modules:readability

差别

这里会显示出您选择的修订版和当前版本之间的差别。

到此差别页面的链接

modules:readability [2011/02/10 14:05] (当前版本)
行 1: 行 1:
 +====== Python Readability ======
  
 +Readability是用[[html:​JavaScript:​start]]写的程序,能够自动识别HTML页面中的正文内容,将导航、菜单、广告、页脚等非正文内容剔除掉,从而留下一个HTML页面最有用的信息。
 +
 +Readability有Python、php、ruby等语言的实现,这里就给大家介绍一下Readability的Python实现。
 +
 +Python Readability 是基于[[modules:​beautifulsoup:​start|BeautifulSoup]]的,所以可移植性很好,可以在GAE上面直接使用,但是速度会稍微慢一些。
 +
 +===== 参考 =====
 +
 +  * Python Readability https://​github.com/​gfxmonk/​python-readability
 +  * Readability ​ https://​www.readability.com/​
 +  * decruft http://​www.minvolai.com/​blog/​decruft-arc90s-readability-in-python/​
modules/readability.txt · 最后更改: 2011/02/10 14:05 (外部编辑)