最近一直在做倪海厦老师官网的翻译工作,做这个的初衷是为了自己阅读查阅的,但是想着倪师官网可能在不久就会看不到了,所以还是想自己备份保留一下,自己也把他的繁体网站已经做了备份,简体刚开始也想手动搬到自己的纪录网站上面,前期为了高质量搬运,发现效率极其的慢,一天100篇已经很不错了,这样下去,天天肝10小时,一个月才能肝3篇文章。

        为了提高效率后面想过各种方法 ,和尝试,最后还是自学了python,scrapy进行爬取,经过3天的学习和调试,同时用了Chatgpt以及百度文心,协助写代码,总共写了几十行代码就完成了这些工作,没想到光主页:时时评论这一个小栏目就占了全站的2/3,数据太量大了,由于网站简陋,全是table表格做的,其中还有掺杂了许多层级和不同样式的标签,标准化爬取起来还是有困难,还是边调试,边优化改进一页一页的爬终于把时事评论这一栏给采集完了,但是内容格式上还有很多对于阅读不太友好的格式,后期自己在慢慢阅读的时候会不断优化样式,以增加可读性。

image.png