Server-side
You will need a dedicated web hosting account (i.e. a VDS) or access to a physical server running LAMP stack.
Everything else, including, but not limited to, shared hosting accounts, windows and other alternative OSes, NAS boxes, PaaS services of any kind, is not supported. Not supported in this case meaning: it may work in your particular case but if you have problems you are on your own.
不了解的东西还是不乱说了
最早是Google Reader,都凉了好多年了。
更新..突然发现RSS跟我想的不太一样
我这里说的RSS抓取器是阅读器, 比如inoreader
假设一个RSS源每小时有10条新信息, RSS里只固定包含最近20条信息. 也就是某时间源里是第1~20条信息, 过了一个小时以后是第10~30条信息, 过了两个小时以后是20~40条信息.
如果RSS阅读器间隔超过2小时才去访问一次RSS源的话, 就会永远错过两个小时以前的消息了. 比如第一次访问拿到了第1~20条信息, 三个小时后再去访问, 拿到的是第30~50条信息. 第20~30条信息错过了
现在也没多少优质的订阅源,我感觉免费的就够用了,也懒得折腾Tiny Tiny RSS。
刚开始用RSS那时候,订阅最多的是各种私人博客。
自从微信公众号流行起来后,越来越多人不继续更新私人博客了,转移到微信公众号上面去了。
不管是用托管的服务还是自己搭的, 没有人能保证100%可用, 即使RSS阅读器保证100%了, 要抓的RSS源或者之间的链路也无法保证什么时候不会出问题一下, 就担心会丢信息.
要是觉得别人的RSS源不靠谱,自己写爬虫建立RSS源咯。
写爬虫的过程按下不表,运行爬虫又需要额外的服务器资源开销。
RSS只是用来获取信息的渠道之一,何必一棵树上吊死。
甚至源站还有可能挂掉呢(
这相对简单得多,而且需要同步的频率没那么高(一个订阅源一天不会有几十个更新)。
而Tiny Tiny RSS这种RSS服务是需要高同步率,这需要机器24小时不间断运行(首选服务器),
而且需要存储文本、图片等信息(信息存档),还有一些别的定制化操作。
两者的定位就不一样。
漏消息不难受吗... 万一挺重要呢.. 就让我感觉这协议不可靠..
我刚刚说的缺陷是指服务挂掉这种情况
你说的这个做法不同的rss服务端和客户端有不同的行为, 本身rss协议是没规定这个的.
比如说服务端也可以一直抓取, 直到出现了上一次抓取过的id, 表示没遗漏消息
把每个用户视作一个消息源, 关注了他们的timeline就是消息聚合了..
以楼主发的这个为例子, 服务端(rsshub)从数据源(bangumi)具体爬多少数据是写程序的楼主决定的, 只要最终返回来的数据格式符合rss的格式就可以了.
规范没有规定意味着可以不实现, 不代表不能实现
你说的是feedly这类rss服务吧...,他们的服务端会根据数据源的更新频率设置不同的抓取频率, 来尽量保证不漏消息, 而你用对应的客户端看的时候会像推特一样, 从你最后看的消息开始
一般rss会有对应的冗余的, 如果每天会产生20条消息的话rss整个数据源不会只返回20条消息
当然,如果某个rss源某天的信息量暴涨,的确是没有一个办法在理论上完全避免遗漏消息的
其实如今RSS更多是提醒功能..想要获得完整信息 还是需要自己去源站点看吧..比如用楼主提供的链接里那种RSS获取B站视频更新的话 还是要进B站观看视频呀..所以我还以为RSS都是很轻量级的..像qbit一样 打开就能用..
我就一台小笔记本电脑..也不可能24小时开着..有没有什么简单的方法使用Tiny Tiny RSS呢? 用自己的笔记本建个给自己用的服务器 然后想看RSS的时候才启动? 可是用别人的服务又感觉限制太多..
自建rss服务有一个目的是获取一个全文rss,所以要保存图片之类的。
然后京东618的时候有一折活动…不过今年已经过了…
不是还有rsshub吗(
之所以要做信息存储,就是为了直接在RSS阅读器里阅读,过滤掉多余的信息,
同时也能避免遗漏某些信息吧,比如被删掉了的帖子什么的。
虽然RSS本身是设计来做信息聚合的,但是也可以作为信息提醒。
但是我看了下也可以用树莓派这类基于Linux的微型主机。
考虑rss的话, 只能在生成rss的时候尽量多存一段时间至少不小于1小时的保证阅读器能抓到(似乎阅读器大多能1小时刷一次), 或者用 WebSub做推送. 然而这个推送我还是觉得不科学, 比如一样的掉线一段时间怎么办, 以及要求客户端有 web 接口来做推送.
大概只有造个新轮子才行了
为什么会提RSSHub 那个不是生成RSS源用的么? 不是阅读器吧
这两个之间就是我#7-12说的, 如果rss源返回数据有一定的冗余量的话不会遗漏消息, 如果设计的不好的话就会遗漏了...
冗余本身就不科学,比如我一小时抓一次,结果每次都返回最近100小时的内容,那每次都有99%的信息没用白费资源。如果是类似Twitter的,都可以做到很久才抓一次也不会漏
冗余本身虽然会造成一些浪费,但是为了避免丢失信息这个角度上没啥不科学的…浪费一些流量节约(可能是双方的)开发时间也没啥不好…