这里会显示出您选择的修订版和当前版本之间的差别。
— |
modules:readability [2011/02/10 14:05] (当前版本) |
||
---|---|---|---|
行 1: | 行 1: | ||
+ | ====== Python Readability ====== | ||
+ | Readability是用[[html:JavaScript:start]]写的程序,能够自动识别HTML页面中的正文内容,将导航、菜单、广告、页脚等非正文内容剔除掉,从而留下一个HTML页面最有用的信息。 | ||
+ | |||
+ | Readability有Python、php、ruby等语言的实现,这里就给大家介绍一下Readability的Python实现。 | ||
+ | |||
+ | Python Readability 是基于[[modules:beautifulsoup:start|BeautifulSoup]]的,所以可移植性很好,可以在GAE上面直接使用,但是速度会稍微慢一些。 | ||
+ | |||
+ | ===== 参考 ===== | ||
+ | |||
+ | * Python Readability https://github.com/gfxmonk/python-readability | ||
+ | * Readability https://www.readability.com/ | ||
+ | * decruft http://www.minvolai.com/blog/decruft-arc90s-readability-in-python/ |