#1 - 2018-1-17 12:37
狂犬榨汁姬艾莉丝 (いつでも微笑みを)
有时候看到精彩的帖子又很可能被删的那种就有保存的必要了。
尤其是有很多楼那种,楼中楼几百楼的那种。
导出为什么格式不要求,但最好能保留所有格式,包括字体、音乐、视频等。(实在不行纯文字也行,关键的楼中楼问题和分页问题)
你说打印为PDF吧,几十页要打个几十页的PDF?而且多页的楼中楼也保存不了。
保存为mht吧,同样也只能保存多页楼中楼的第一页,几十页的帖子加上每楼几十页的楼中楼不知道要保存多少个mht。
保存到onenote吧,存在和打印为PDF一样的问题。
推而广之,其他社区的帖子又该怎么保存呢?(好像没有麻烦的楼中楼问题,贴吧解决了别的社区应该也可以。)
#2 - 2018-1-17 13:00
(虾说)
一个网页涉及到太多脚本和样式,很难完美保存,据说有网页下载器,不过我没试过(bgm40)
我一般都是截个图或者打印为PDF。至于贴吧,我已经放弃了(bgm38)楼中楼无解,除非写个爬虫去一楼一楼地爬数据。
#3 - 2018-1-17 13:33
(いいんです)
不看贴吧就没有这个烦恼了
#4 - 2018-1-17 14:00
(advaita)
印象笔记及其互联网插件?
#4-1 - 2018-1-17 15:03
狂犬榨汁姬艾莉丝
印象笔记没用过,不过这些笔记类插件都是两种原理吧:1、截图;2、截取文字。截取文字没法截楼中楼,也没法合并页啊。
#5 - 2018-1-17 14:04
(BGMのTrinitas<=>婊冈妈<=>补冈妈<=>拜冈妈 三位一体 ...)
找个自动展开的脚本然后截图?
#5-1 - 2018-1-17 15:00
狂犬榨汁姬艾莉丝
楼中楼还是无解啊
#6 - 2018-1-17 14:05
(~わたしは珺~)
啥帖子这么厉害的...
#7 - 2018-1-17 14:57
我之前想一次性看1000多页的帖子,因此自己写了一个爬虫,包括了所有楼中楼、图片和表情,视频我不知道能不能奏效:
https://github.com/hjhee/tiebaSpider
#7-1 - 2018-1-17 15:02
狂犬榨汁姬艾莉丝
好的,我去试一试~
#7-2 - 2018-1-17 15:05
狂犬榨汁姬艾莉丝
稍后再试,还要下Go安装包(bgm38)
#7-3 - 2018-1-17 15:08
hjhee
九重凛 说: 稍后再试,还要下Go安装包
https://github.com/hjhee/tiebaSpider/releases
上面有v0.1.0版本的程序可以直接用
#7-4 - 2018-1-17 15:28
狂犬榨汁姬艾莉丝
hjhee(id: hjhee) 说: https://github.com/hjhee/tiebaSpider/releases
上面有v0.1.0版本的程序可以直接用
error fetching file:///example/test0.json?tid=3922635509, pause for 3s: Error reading file path from /example/test0.json: open /example/test0.json: The system cannot find the path specified.
咋整?
#7-5 - 2018-1-17 15:43
hjhee
九重凛 说: error fetching file:///example/test0.json?tid=3922635509, pause for 3s: Error reading file path from...
不用管错误,在url.txt里面只保留你想爬取帖子的URL列表即可,每行一条URL。
我又发布了v0.1.1版,用那个就好。

原因:
这个错误是说在程序所在的盘符上(如D:)没有找到/example/test0.json文件(如D:\example\test0.json)。
url.txt里面写了程序爬取帖子的入口,支持url和json文件两种格式,其中url是指贴吧的URL,如https://tieba.baidu.com/p/3922635509,json主要用来离线测试。
test0.json是之前测试用的json,在你的电脑上并没有这个文件,所以程序无法获取数据而报错。
#7-6 - 2018-1-17 15:48
狂犬榨汁姬艾莉丝
hjhee(id: hjhee) 说: 不用管错误,在url.txt里面只保留你想爬取帖子的URL列表即可,每行一条URL。
我又发布了v0.1.1版,用那个就好。

原因:
这个错误是说在程序所在的盘符上(如D:)没有找到/example...
仍然用0.1.0版本测试发现楼中楼只能扒1页啊(bgm38)
#7-7 - 2018-1-17 15:53
hjhee
九重凛 说: 仍然用0.1.0版本测试发现楼中楼只能扒1楼啊
你可以在github上开个issue讨论,并附上获取有问题的url
我猜测要么是帖子发帖时间久远,v0.1.0不能正确解析,那用v0.1.1版尝试一下。
要么是帖子获取楼中楼的时候出现网络错误,那么隔一段时间比如一分钟再重新运行程序就能解决问题。
#7-8 - 2018-1-17 15:54
狂犬榨汁姬艾莉丝
hjhee(id: hjhee) 说: 你可以在github上开个issue讨论,并附上获取有问题的url
我猜测要么是帖子发帖时间久远,v0.1.0不能正确解析,那用v0.1.1版尝试一下。
要么是帖子获取楼中楼的时候出现网络错误,那么隔...
好的,我再试一下~
#7-9 - 2018-1-17 16:23
狂犬榨汁姬艾莉丝
hjhee(id: hjhee) 说: 你可以在github上开个issue讨论,并附上获取有问题的url
我猜测要么是帖子发帖时间久远,v0.1.0不能正确解析,那用v0.1.1版尝试一下。
要么是帖子获取楼中楼的时候出现网络错误,那么隔...
试了几次,还是这样。(bgm38) 已在github发issue。
#7-10 - 2022-5-23 04:58
Rango
大佬帮大忙了 很好用
#8 - 2018-1-17 15:35
我當初用 node 寫過一個爬蟲專門爬貼吧裏的漫畫(bgm38),搞不懂漢化組為啥要在貼吧首發漫畫。
#8-1 - 2018-1-17 15:35
狂犬榨汁姬艾莉丝
还不是因为人流量大(bgm38)
#9 - 2018-1-20 12:59
(虾说)
借楼问一下,有没有那种中文互联网备份的项目,和国外的internet archive一样(bgm38)

internet archive好像没有备份贴吧具体内容(bgm38)
#9-1 - 2018-1-20 13:00
狂犬榨汁姬艾莉丝
具体内容?帖子吗?
#9-2 - 2018-1-20 18:59
酒瓶里的虾
九重凛 说: 具体内容?帖子吗?
对啊,internet archive上找不到贴吧帖子的备份
#9-3 - 2018-1-20 20:51
狂犬榨汁姬艾莉丝
爱咸鱼(id: 202676) 说: 对啊,internet archive上找不到贴吧帖子的备份
有,废物一个,54zz,站如其名,还不如archive
#10 - 2022-5-29 03:15
我用Offline Explorer Enterprise抓
IDM经常一抓抓不到头。。。
#11 - 2024-1-15 00:04
正需要,mark
#12 - 2024-1-15 15:34
(都是异端!)
科技帮您留下赛博案底(bgm38)
#13 - 2024-1-16 03:26
(心脏要逃走了。)
SingleFile

还有一个忘了ID睡醒找找。

这么老的帖子谁又给顶上来了。
#13-1 - 2024-1-16 21:42
狂犬榨汁姬艾莉丝
singlefile只能一页一页保存,对大几十几百页的帖子很难办的,而且还是不能保存楼中楼
#13-2 - 2024-1-16 22:01
Sora
狂犬榨汁姬艾莉丝 说: singlefile只能一页一页保存,对大几十几百页的帖子很难办的,而且还是不能保存楼中楼
搭配无缝翻页也做不到吗?况且精品内容有几百楼这么多有点夸张了吧
比较多的话还是推荐笔记管理

楼中楼测试了一下确实不行。
#13-3 - 2024-1-16 23:26
狂犬榨汁姬艾莉丝
Sora 说: 搭配无缝翻页也做不到吗?况且精品内容有几百楼这么多有点夸张了吧
比较多的话还是推荐笔记管理

楼中楼测试了一下确实不行。
几百楼的帖子还是很多的
很多时候有意思的不是主楼,而是讨论
#13-4 - 2024-1-16 23:27
狂犬榨汁姬艾莉丝
Sora 说: 搭配无缝翻页也做不到吗?况且精品内容有几百楼这么多有点夸张了吧
比较多的话还是推荐笔记管理

楼中楼测试了一下确实不行。
singlefile截长图的时候还很容易出bug,拼接重复或者缺失啥的
我现在是用上面提到的tiebaSpider,挺好的
#14 - 2024-1-16 11:45
(この世のすべては、あなたを追いつめる为にある)
我记得有人写过一个仅看搂住的抓贴工具 还有人需要的话我可以找找

不过我自己可能会选择写个脚本发送到服务器爬虽然说这个爬虫难度好像挺高的
#15 - 2024-1-16 11:47
上电报找李艳红电话
#16 - 2024-1-16 23:56
(风把我不想知道的事情告诉我,)
mark
#17 - 2024-1-17 01:09
(如果是无法证明的事情,我会…选择浪漫的一方 ...)
之前存了个相关讨论的书签:还能浏览十几年前的旧网站吗?保存网页的困难
贴吧楼中楼要靠爬虫,但是保存别的社区应该足够了(bgm25)
#18 - 2024-1-17 02:13
cubox
#19 - 2024-1-17 03:02
(nobody cares.)
#19-1 - 2024-1-17 17:04
Elmo
可惜网站时光机在墙外,墙内有什么好用的吗?(bgm38)
#19-2 - 2024-1-17 17:37
已注销
𝕰𝖑𝖒𝖔 说: 可惜网站时光机在墙外,墙内有什么好用的吗?
用印象笔记国际版自带的裁剪功能,自带同步,应该没墙。或者SingleFile直接保存HTML,放进zotero然后坚果云同步。
#20 - 2024-1-17 08:11
(Hello darkness my old friend)
我也写过一个转markdown的简单爬虫,专用只看楼主看文的
https://github.com/hibikilogy/spiders
B站NGA虎扑S1啥的也能爬,但是是四年前写的现在不一定能用

哇哦,是坟帖……好吧,那我这个还算新(bgm38)
#21 - 2024-1-17 09:20
(今日无事,勾栏听曲)
mark
#22 - 2024-1-17 13:48
mark
#23 - 2024-1-17 16:02