论坛在web.archive.org上的备份

我们组织的五位同志熬夜把论坛上我们认为有价值的帖子备份到了 web.archive.org
但目前有个问题,根据url论坛的帖子在1000以上。我们只备份了有分类的帖子,而这只占全部帖子的一小部分,有什么原因吗。

只有四个同志的备份,剩下一个同志要备份的最多,要明天才有。这是备份索引mlmmlmbackups.md (19.4 KB)

1 个赞

事实上备份这事只需要输入一行代码。而且是全论坛备份。

善用信息技术可成倍提高生产力。

1.站长已经做过那种备份,就不重复工作了。
2.备份在 archive.org 上更容易访问和分享,想看的人不需要到处问谁备份了
3.以站长的方式备份下来的文件适合重建网站,但不适合浏览帖子或分享

要有Fediverse的精神才行。重複工作(似文件P2P複製)就是隨想Resilio的工作原理,人家現在人雖然進去了,但是文件全都在,還可下載。


Screenshot from 2021-10-22 00-49-03

1 个赞

十分感谢。
事实上discourse的系统会自动生成备份,可以完成网站的迁移,但是包含了账户的信息所以不能分享给你们。
关于用web.archive.org我记得有人做过脚本,但不知道这个网站有没有频率限制,脚本我还没有实际使用过。
web.archive.org可以备份文字,似乎附加文件没办法备份,但是wget可以。而且wget备份的文件也可以作为静态网站的。
但是有一个问题必须加-E才能把每个页面的第一页备份下来,否则跟文件夹重名,无法创建文件。
wget --wait=0.3 -rkp -E -e robots=off https://mlmmlm.icu
但是加了-E选项会带来一个问题,选项 --convert-links无法起作用,给离线的浏览带来困难。

2 个赞

這邊沒有離線瀏覽問題,反而是那個帖子的第一行代碼有。

你用什么代码备份离线浏览没问题。

1 个赞

我改了描述,我不擅長表達,誠然,selenium gecko driver的備份肯定是最好的,這可以為所有這類網站的傳播加快速度。

但是似乎–convert-links无法起作用,点击备份文件的超链接会自动转跳到因特网的链接。
而且CSS完全没法用。

1 个赞

for better experience,in case --convert-links not working:

import os

base_path = r'/xxxx/xxxx/mlmmlm-icu-bcakup-master'


def find_all_file(base):
    for root, ds, fs in os.walk(base):
        for f in fs:
            if f.endswith('.html'):
                fullname = os.path.join(root, f)
                yield fullname


def main():
    base = base_path
    for i in find_all_file(base):
        try:
            print(i)
            fin = open(i, "rt", encoding="utf-8")
            data = fin.read()
            data = data.replace('https://mlmmlm.icu', r"file:///" + base_path)
            data = data.replace('/stylesheets/', r"file:///" + base_path + "/stylesheets/")

            fin.close()
            fin = open(i, "wt", encoding="utf-8")
            fin.write(data)
            fin.close()
        except Exception:
            print("Error :" + i)


if __name__ == '__main__':
    main()

1 个赞

我想说的是或许有一些自动化的手段来帮助我们去完成备份这件事:joy:没有看轻你们工作成果的意思

1 个赞