自己写的一些小程序

python

一些小东西。此库内全部程序用Python编写。
Some little things. All in this repository are written in Python.

本库所有程序全部以CC0协议投放至公有领域

初学Python爬虫,写点小东西,提升自己技术也能为各位同志带来便利,欢迎各位同志找Bug。

已安装全部环境(Python和上面全部第三方库)的可以下载源码,在命令行python get.py运行,没有安装的去release下载对应压缩包。

https://github.com/MLMist/python

2021.2.12

GitHub账号已注销,准备使用更安全的分发方式。

1 个赞

Spider of Chinese CR Database

中国文化大革命文库爬虫,网站首页:https://ccradb.appspot.com

请在可以访问外网的网络环境下使用该程序,可以爬取全库文章或单作者文章,爬取完成后文件处在程序同级目录下。

端口值默认10809,如果报错,填写自己设备的端口值。

第三方库:requests、BeautifulSoup

1 个赞

我记得这个资料库已经被爬过一遍了。github上已经有了全部的文章。

@mlmmlm_admin 练习技术而已,爬取不是目的,接下来要做的就是OCR那些照片。

1 个赞

是的。。

Spider of Selected Works of Mao Tse-Tung

《毛泽东选集》1-5卷爬虫,CHM文件见压缩包。

第三方库:BeautifulSoup、cn2an

Spider of MZDBL

毛博网图片爬虫,可爬取毛泽东画集和毛泽东像集中分类里的图片。

注意,毛博网没有开启HTTPS,这意味着访问者与该网站的数据交流仍是明文传输。

第三方库:requests、BeautifulSoup

Spider of Long Live Mao Zedong Thought

六八年汉版《毛泽东思想万岁》1-5卷爬虫,CHM文件见压缩包。

少数文章标题的日期有点问题,需要手动修改。

第三方库:BeautifulSoup、cn2an

chm文件可以转换为html文件(用在线转换器)。chm文件格式已被弃用。

@mlmmlm_admin 为何CHM文件已被弃用呢,是存在什么安全问题吗?

在windows平台上,允许CHM调用COM控件,可以使用这个特性进行钓鱼。( https://citrusice.github.io/posts/chm-phishing/ ) 此外感觉一般CHM也比较少见了,作为终端阅读不如各种电子书格式,网页传播一般还是html。

@cxgz05dq3 本世纪初老左们整理了许多文件,它们大多都是CHM格式的,我的文本爬取就是基于这些文件。(比如六八年汉版《毛泽东思想万岁》)

既然同志们都说这个格式不好我下次就把CHM格式反编译成HTML文件再发出来。