Python Readability

Readability是用JavaScript 技术写的程序,能够自动识别HTML页面中的正文内容,将导航、菜单、广告、页脚等非正文内容剔除掉,从而留下一个HTML页面最有用的信息。

Readability有Python、php、ruby等语言的实现,这里就给大家介绍一下Readability的Python实现。

Python Readability 是基于BeautifulSoup的,所以可移植性很好,可以在GAE上面直接使用,但是速度会稍微慢一些。

参考

modules/readability.txt · 最后更改: 2011/02/10 22:05 由 admin
2007~2011 Copyright @ http://www.pythonclub.org