#1 - 2011-2-12 13:26
足兆叉虫 (安心点格子。。。)
其实做全文烧录其实有很多了,有根据readable生成的,也有yahoo pipes这种高级货。。。
但是对于网页来说,最有效的内容匹配方式我觉得还是CSS选择器。。。
虽然我后来发现http://fivefilters.org/content-only/这货也能够基于CSS选择器,而且开放了源码。嘛,还是需要个php主机。。。
  
于是基于Google App Engin做了一个烧录器。请帮忙测试
  
特点:
1、使用CSS选择器匹配内容
2、支持广告过滤
3、实时抓取
4、尽量抓取策略,无条目数限制
  
地址:http://cssfulltext.appspot.com/
示例:http://cssfulltext.appspot.com/s/all/?q=
#2 - 2011-2-12 13:32
(VIP已到期,请尽快续费)
不知道是干什么用的……
#3 - 2011-2-12 13:56
(灯光太昏暗 遍寻不着蓝色的小格子)
报告,blog.sina.com.cn/rss/1189591617.xml无法抓取
这个我用まるごと和feedex都搞不定,yahoo pipes高级货不会用……
#3-1 - 2011-2-12 14:12
足兆叉虫
http://cssfulltext.appspot.com/e/?id=5001

没实现自动匹配readable内容,而且很多时候就是因为自动的不好使才做的这个东西的。。
#4 - 2011-2-13 17:43
(男達よマダオであれ)
有办法抓取 http://msdn.microsoft.com/zh-cn/magazine/rss/default.aspx 这货吗,M$把link里放了个跳转地址,然后通过请求里的accpet-langage返回不同语言的页面。FeedEx什么的只能抓回英文全文
#4-1 - 2011-2-13 20:44
足兆叉虫
好吧,加了一个header重载的配置项
简介里面加上一行
#header[Accept-Language]=zh-CN,zh;q=0.8
就可以了

不过msdn的页面挺复杂的,可能要多写几个内容匹配的选择器
#4-2 - 2011-2-14 11:25
J
足兆叉虫 说: 好吧,加了一个header重载的配置项
简介里面加上一行
#header[Accept-Language]=zh-CN,zh;q=0.8
就可以了

不过msdn的页面挺复杂的,可能要多写几个内容匹配...
万分感谢
#4-3 - 2011-2-14 11:54
J
足兆叉虫 说: 好吧,加了一个header重载的配置项
简介里面加上一行
#header[Accept-Language]=zh-CN,zh;q=0.8
就可以了

不过msdn的页面挺复杂的,可能要多写几个内容匹配...
编辑保存的时候报500错
#4-4 - 2011-2-14 13:10
足兆叉虫
J 说: 编辑保存的时候报500错
fixed
#4-5 - 2011-2-14 13:26
足兆叉虫
J 说: 万分感谢
不过msdn全文实在太大了。。甚至都超过google fetch的限额了。。
不太靠谱
#4-6 - 2011-2-14 13:30
J
足兆叉虫 说: 不过msdn全文实在太大了。。甚至都超过google fetch的限额了。。
不太靠谱
嗯,那个是全部归档的,我做了一个本期的,那个可以删掉了
#5 - 2011-2-13 20:52
(Ruby ❤ Sapphire)
嘛,CSS全文神马的,好像不太感兴趣。yahoo pipes已经能满足我了。(bgm124)拖来拖去很方便的说。。。

倒是对douban2bangumi很感兴趣。。。之前没注意过。。。现在才知道。。。
#5-1 - 2011-2-13 22:45
足兆叉虫
那个也是今年刚做的,而且因为需要一个个确认,而且没有想到好的交互模型,用起来还是不是那么方便。
仅仅相当于将自己用的脚本网络化罢了
#6 - 2011-2-20 22:48
(啊!又拖延了!)
听上去不错,有机会试试,偶的Yahoo Pipes怎么分配的自己都忘了,正打算重炼呢