我们组织的五位同志熬夜把论坛上我们认为有价值的帖子备份到了 web.archive.org。
但目前有个问题,根据url论坛的帖子在1000以上。我们只备份了有分类的帖子,而这只占全部帖子的一小部分,有什么原因吗。
只有四个同志的备份,剩下一个同志要备份的最多,要明天才有。这是备份索引mlmmlmbackups.md (19.4 KB)
我们组织的五位同志熬夜把论坛上我们认为有价值的帖子备份到了 web.archive.org。
但目前有个问题,根据url论坛的帖子在1000以上。我们只备份了有分类的帖子,而这只占全部帖子的一小部分,有什么原因吗。
只有四个同志的备份,剩下一个同志要备份的最多,要明天才有。这是备份索引mlmmlmbackups.md (19.4 KB)
事实上备份这事只需要输入一行代码。而且是全论坛备份。
善用信息技术可成倍提高生产力。
十分感谢。
事实上discourse的系统会自动生成备份,可以完成网站的迁移,但是包含了账户的信息所以不能分享给你们。
关于用web.archive.org我记得有人做过脚本,但不知道这个网站有没有频率限制,脚本我还没有实际使用过。
web.archive.org可以备份文字,似乎附加文件没办法备份,但是wget可以。而且wget备份的文件也可以作为静态网站的。
但是有一个问题必须加-E才能把每个页面的第一页备份下来,否则跟文件夹重名,无法创建文件。
wget --wait=0.3 -rkp -E -e robots=off https://mlmmlm.icu
但是加了-E选项会带来一个问题,选项 --convert-links无法起作用,给离线的浏览带来困难。
你用什么代码备份离线浏览没问题。
我改了描述,我不擅長表達,誠然,selenium gecko driver的備份肯定是最好的,這可以為所有這類網站的傳播加快速度。
但是似乎–convert-links无法起作用,点击备份文件的超链接会自动转跳到因特网的链接。
而且CSS完全没法用。
for better experience,in case --convert-links not working:
import os
base_path = r'/xxxx/xxxx/mlmmlm-icu-bcakup-master'
def find_all_file(base):
for root, ds, fs in os.walk(base):
for f in fs:
if f.endswith('.html'):
fullname = os.path.join(root, f)
yield fullname
def main():
base = base_path
for i in find_all_file(base):
try:
print(i)
fin = open(i, "rt", encoding="utf-8")
data = fin.read()
data = data.replace('https://mlmmlm.icu', r"file:///" + base_path)
data = data.replace('/stylesheets/', r"file:///" + base_path + "/stylesheets/")
fin.close()
fin = open(i, "wt", encoding="utf-8")
fin.write(data)
fin.close()
except Exception:
print("Error :" + i)
if __name__ == '__main__':
main()
我想说的是或许有一些自动化的手段来帮助我们去完成备份这件事没有看轻你们工作成果的意思