服务器之家

服务器之家 > 正文

用python写个博客迁移工具

时间:2021-09-27 00:19     来源/作者:Cookieboty

前言

最近不少写博客的朋友跟我反馈博客园的一些文章下架了,这让我联想到去年简书一样,我之前写的博客都被下架不可见了。

我最开始接触的博客网址是 csdn、思否、简书还有博客园等,但是后期发现,单论博客的生态感觉做的越来越不行,干货虽然很多,但是垃圾、标题党很严重,我自己也有一些博文被莫名的搬走直接标为原创。

虽然搜问题在上面还是能搜到很多解决方案,但写作的欲望降低了很多。

综上我从去年入驻掘金,并以掘金作为博客的主平台。个人感觉掘金团队对个人原创的保护是非常好的,同时也在不断的听取用户的建议而去改进。有问题与建议能随时与掘金的同学讨论、沟通,非常方便。

掘金的成长

最开始的时候,掘金也是面试、标题党满天飞,但是掘金的运营大佬逐步整顿起来之后,文章的质量有了显著的提高,并且也不断推出有利于新手作者、高质量博文的各种活动,鼓励新人创作、老人分享。

同样在我入驻掘金之后,作为一个长期用户,新人作者,也是见证了这段时间以来掘金为了社区活跃,博客质量而做的种种努力。

而最开始使用掘金的 markdown,能吐槽的地方还是很多,但掘金的研发也非常给力,吸纳了用户的建议后,最新升级的 markdown 编辑器也是广受好评,使用过你就知道真相定律是什么了。

掘金在使用的时候,一直有种特殊的感觉,是一种很纯粹的 coding 情怀。并不仅仅只是一个单纯的博客平台,而是一直致力于社区共建、开源项目、掘金翻译计划等等的建设,为技术社区打造一片纯粹干净的后花园。

搬家命令行工具

那么作为程序员,手动搬文章显然是略 low 的

所以写了一个简单的 python 脚本,有兴趣的同学可以使用它将 cnblogs 上面已有或者创作中的草稿转移到掘金来。

如果有兴趣可以试试改造的更完美点,但不建议泄露自己的隐私信息

环境配置

脚本跑起来需要 python3 环境,所以先安装一下 python 环境

请在 cookie.json 中补充博客园与掘金的 cookie

使用 python3 main.py -h 查看使用说明

作为程序员应该都了解 cookie 是啥,也知道从哪里捞出来吧

使用方法

用python写个博客迁移工具

还是上个获取 cookie 的图吧,哈哈

请先在 cookie.json 中替换 cookie_cnblogs 与 cookie_juejin 为自己在对应站点上的 cookie

  1. 请自行替换user_nameblog_id
  2. // 下载单篇文章到默认目录'./cnblogs' 并输出日志到'./log'
  3. python3 main.py -m download -a https://www.cnblogs.com/{{user_name}}/p/{{blog_id}}.html --enable_log
  4.  
  5. // 下载用户所有文章到目录'/Users/cnblogs_t'
  6. python3 main.py -m download -u https://www.cnblogs.com/{{username}} -p /Users/cnblogs_t
  7.  
  8. // 上传单篇文章到掘金草稿箱
  9. python3 main.py -m upload -f ./cnblogs/{{blog_id}}.html
  10.  
  11. // 上传'./test_blogs'下所有的html文件到掘金草稿箱
  12. python3 main.py -m upload -d ./test_blogs

main.py

新建 main.py 文件,将下述 python 代码复制进去

  1. # coding=utf-8
  2. import requests
  3. import os
  4. import argparse
  5. import sys
  6. import json
  7. from lxml import etree
  8. from urllib.parse import urlparse
  9. import logging
  10. reload(sys)
  11. sys.setdefaultencoding('utf-8')
  12.  
  13. parser = argparse.ArgumentParser()
  14. args_dict = {}
  15. list_url_tpl = 'https://www.cnblogs.com/%s/default.html?page=%d'
  16. draft_url = 'https://api.juejin.cn/content_api/v1/article_draft/create_offline'
  17. jj_draft_url_tpl = 'https://juejin.cn/editor/drafts/%s'
  18. cnblog_headers = {}
  19. log_path = './log'
  20.  
  21. def myget(d, k, v):
  22. if d.get(k) is None:
  23. return v
  24. return d.get(k)
  25.  
  26. def init_parser():
  27. parser.description = 'blog move for cnblogs'
  28. parser.add_argument('-m', '--method', type=str, dest='method', help='使用方式: download下载 upload上传到草稿箱', choices=['upload', 'download'])
  29. parser.add_argument('-p', '--path', type=str, dest='path', help='博客html下载的路径')
  30. parser.add_argument('-d', '--dir', type=str, dest='rec_dir', help='制定要上传的博客所在文件夹')
  31. parser.add_argument('-f', '--file', type=str, dest='file', help='指定上传的博客html')
  32. parser.add_argument('-u', '--url', type=str, dest='url', help='个人主页地址')
  33. parser.add_argument('-a', '--article', type=str, dest='article_url', help='单篇文章地址')
  34. parser.add_argument('--enable_log', dest='enable_log', help='是否输出日志到./log', action='store_true')
  35. parser.set_defaults(enable_log=False)
  36.  
  37. def init_log():
  38. root_logger = logging.getLogger()
  39. log_formatter = logging.Formatter('%(asctime)s [%(levelname)s] %(pathname)s:%(lineno)s %(message)s')
  40. console_handler = logging.StreamHandler(sys.stdout)
  41. console_handler.setFormatter(log_formatter)
  42. root_logger.addHandler(console_handler)
  43. if myget(args_dict, 'enable_log', False):
  44. if not os.path.exists(log_path):
  45. os.mkdir(log_path)
  46. file_handler = logging.FileHandler('./log/debug.log')
  47. file_handler.setFormatter(log_formatter)
  48. root_logger.addHandler(file_handler)
  49. root_logger.setLevel(logging.INFO)
  50.  
  51. def download():
  52. cookies = json.load(open('cookie.json'))
  53. headers = {'cookie': cookies.get('cookie_cnblogs', '')}
  54.  
  55. dir_path = myget(args_dict, 'path', './cnblogs')
  56. if dir_path[len(dir_path)-1] == '/':
  57. dir_path = dir_path[:len(dir_path)-1]
  58. if not os.path.exists(dir_path):
  59. os.mkdir(dir_path)
  60.  
  61. article_url = myget(args_dict, 'article_url', '-1')
  62. if article_url != '-1':
  63. logging.info('article_url=%s', article_url)
  64. try:
  65. resp = requests.get(article_url, headers=headers)
  66. if resp.status_code != 200:
  67. logging.error('fail to get blog \'%s\', resp=%s', article_url, resp)
  68. return
  69. tmp_list = article_url.split('/')
  70. blog_id_str = tmp_list[len(tmp_list)-1]
  71. with open(dir_path+'/'+blog_id_str, 'w') as f:
  72. f.write(resp.text)
  73. logging.info('get blog \'%s\' success.', article_url)
  74. except Exception as e:
  75. logging.error('exception raised, fail to get blog \'%s\', exception=%s.', list_url, e)
  76. finally:
  77. return
  78.  
  79. raw_url = args_dict.get('url')
  80. rurl = urlparse(raw_url)
  81. username = (rurl.path.split("/", 1))[1]
  82. page_no = 1
  83. while True:
  84. list_url = list_url_tpl%(username, page_no)
  85. logging.info('list_url = %s', list_url)
  86. try:
  87. resp = requests.get(list_url, headers=headers)
  88. if resp.status_code != 200:
  89. break
  90. except Exception as e:
  91. logging.error('exception raised, fail to get list \'%s\', exception=%s.', list_url, e)
  92. return
  93. html = etree.HTML(resp.text)
  94. blog_list = html.xpath('//div[@class=\'postTitle\']/a/@href')
  95. if len(blog_list) == 0:
  96. break
  97. for blog_url in blog_list:
  98. tmp_list = blog_url.split('/')
  99. blog_id_str = tmp_list[len(tmp_list)-1]
  100. blog_resp = requests.get(blog_url, headers=headers)
  101. if resp.status_code != 200:
  102. logging.error('fail to get blog \'%s\', resp=%s, skip.', blog_url, resp)
  103. continue
  104. with open(dir_path+'/'+blog_id_str, 'w') as f:
  105. f.write(blog_resp.text)
  106. logging.info('get blog \'%s\' success.', blog_url)
  107. page_no += 1
  108.  
  109. def upload_request(headers, content, filename):
  110. body = {
  111. "edit_type": 0,
  112. "origin_type": 2,
  113. "content": content
  114. }
  115. data = json.dumps(body)
  116. try:
  117. resp = requests.post(draft_url, data=data, headers=headers)
  118. if resp.status_code != 200:
  119. logging.error('fail to upload blog, filename=%s, resp=%s', filename, resp)
  120. return
  121. ret = resp.json()
  122. draft_id = ret.get('data', {}).get('draft_id', '-1')
  123. logging.info('upload success, filename=%s, jj_draft_id=%s, jj_draft_url=%s', filename, draft_id, jj_draft_url_tpl%draft_id)
  124. except Exception as e:
  125. logging.error('exception raised, fail to upload blog, filename=%s, exception=%s', filename, e)
  126. return
  127.  
  128. def upload():
  129. cookies = json.load(open('cookie.json'))
  130. headers = {
  131. 'cookie': cookies.get('cookie_juejin', ''),
  132. 'content-type': 'application/json'
  133. }
  134. filename = myget(args_dict, 'file', '-1')
  135. if filename != '-1':
  136. logging.info('upload_filename=%s', filename)
  137. try:
  138. with open(filename, 'r') as f:
  139. content = f.read()
  140. upload_request(headers, content, filename)
  141. return
  142. except Exception as e:
  143. logging.error('exception raised, exception=%s', e)
  144.  
  145. rec_dir = myget(args_dict, 'rec_dir', '-1')
  146. if rec_dir != '-1':
  147. logging.info('upload_dir=%s', filename)
  148. try:
  149. g = os.walk(rec_dir)
  150. for path, dir_list, file_list in g:
  151. for filename in file_list:
  152. if filename.endswith('.html'):
  153. filename = os.path.join(path, filename)
  154. with open(filename, 'r') as f:
  155. content = f.read()
  156. upload_request(headers, content, filename)
  157. except Exception as e:
  158. logging.error('exception raised, exception=%s', e)
  159. return
  160.  
  161. if __name__ == '__main__':
  162. init_parser()
  163. args = parser.parse_args()
  164. args_dict = args.__dict__
  165. init_log()
  166.  
  167. empty_flag = True
  168. for k, v in args_dict.items():
  169. if k != 'enable_log' and v is not None:
  170. empty_flag = False
  171. if empty_flag:
  172. parser.print_help()
  173. exit(0)
  174.  
  175. if args_dict.get('method') == 'upload':
  176. upload()
  177. else:
  178. download()
  179. pass

cookie.json

本地新建 cookie.json 文件,与 main.py 同级

  1. {
  2. "cookie_cnblogs": "请替换为博客园cookie",
  3. "cookie_juejin": "请替换为掘金cookie"
  4. }

github 地址

最后附上 github 地址,里面除了 demo 的 源码之外也有录制好的一个视频,有兴趣的同学可以下载使用或者研究研究,脚本有问题或者写的不好改进的地方也可以互相探讨下。有意见也可以随时留言反馈

以上就是用python写个博客迁移工具的详细内容,更多关于python 博客迁移的资料请关注服务器之家其它相关文章!

原文链接:https://juejin.cn/post/6942882189277298696

标签:

相关文章

热门资讯

yue是什么意思 网络流行语yue了是什么梗
yue是什么意思 网络流行语yue了是什么梗 2020-10-11
2020微信伤感网名听哭了 让对方看到心疼的伤感网名大全
2020微信伤感网名听哭了 让对方看到心疼的伤感网名大全 2019-12-26
背刺什么意思 网络词语背刺是什么梗
背刺什么意思 网络词语背刺是什么梗 2020-05-22
苹果12mini价格表官网报价 iPhone12mini全版本价格汇总
苹果12mini价格表官网报价 iPhone12mini全版本价格汇总 2020-11-13
2021年耽改剧名单 2021要播出的59部耽改剧列表
2021年耽改剧名单 2021要播出的59部耽改剧列表 2021-03-05
返回顶部