论坛在web.archive.org上的备份

midnight · 2021 年10 月 21 日 15:22

我们组织的五位同志熬夜把论坛上我们认为有价值的帖子备份到了 web.archive.org。
但目前有个问题，根据url论坛的帖子在1000以上。我们只备份了有分类的帖子，而这只占全部帖子的一小部分，有什么原因吗。

只有四个同志的备份，剩下一个同志要备份的最多，要明天才有。这是备份索引mlmmlmbackups.md (19.4 KB)

news_porter · 2021 年10 月 22 日 01:20

事实上备份这事只需要输入一行代码。而且是全论坛备份。

善用信息技术可成倍提高生产力。

midnight · 2021 年10 月 22 日 04:04

1.站长已经做过那种备份，就不重复工作了。
2.备份在 archive.org 上更容易访问和分享，想看的人不需要到处问谁备份了
3.以站长的方式备份下来的文件适合重建网站，但不适合浏览帖子或分享

Xuan_JunHe · 2021 年10 月 22 日 04:41

要有Fediverse的精神才行。重複工作（似文件P2P複製）就是隨想Resilio的工作原理，人家現在人雖然進去了，但是文件全都在，還可下載。

mlmmlm_admin · 2021 年10 月 22 日 04:52

十分感谢。
事实上discourse的系统会自动生成备份，可以完成网站的迁移，但是包含了账户的信息所以不能分享给你们。
关于用web.archive.org我记得有人做过脚本，但不知道这个网站有没有频率限制，脚本我还没有实际使用过。
web.archive.org可以备份文字，似乎附加文件没办法备份，但是wget可以。而且wget备份的文件也可以作为静态网站的。
但是有一个问题必须加-E才能把每个页面的第一页备份下来，否则跟文件夹重名，无法创建文件。
wget --wait=0.3 -rkp -E -e robots=off https://mlmmlm.icu
但是加了-E选项会带来一个问题，选项 --convert-links无法起作用，给离线的浏览带来困难。

Xuan_JunHe · 2021 年10 月 22 日 04:55

這邊沒有離線瀏覽問題，反而是那個帖子的第一行代碼有。

mlmmlm_admin · 2021 年10 月 22 日 05:04

你用什么代码备份离线浏览没问题。

Xuan_JunHe · 2021 年10 月 22 日 05:05

我改了描述，我不擅長表達，誠然，selenium gecko driver的備份肯定是最好的，這可以為所有這類網站的傳播加快速度。

mlmmlm_admin · 2021 年10 月 22 日 05:08

但是似乎–convert-links无法起作用，点击备份文件的超链接会自动转跳到因特网的链接。
而且CSS完全没法用。

mlmmlm_admin · 2021 年10 月 22 日 06:03

for better experience,in case --convert-links not working:

import os

base_path = r'/xxxx/xxxx/mlmmlm-icu-bcakup-master'


def find_all_file(base):
    for root, ds, fs in os.walk(base):
        for f in fs:
            if f.endswith('.html'):
                fullname = os.path.join(root, f)
                yield fullname


def main():
    base = base_path
    for i in find_all_file(base):
        try:
            print(i)
            fin = open(i, "rt", encoding="utf-8")
            data = fin.read()
            data = data.replace('https://mlmmlm.icu', r"file:///" + base_path)
            data = data.replace('/stylesheets/', r"file:///" + base_path + "/stylesheets/")

            fin.close()
            fin = open(i, "wt", encoding="utf-8")
            fin.write(data)
            fin.close()
        except Exception:
            print("Error :" + i)


if __name__ == '__main__':
    main()

news_porter · 2021 年10 月 22 日 08:28

我想说的是或许有一些自动化的手段来帮助我们去完成备份这件事没有看轻你们工作成果的意思