扫码阅读
手机扫码阅读
如何获取指定CSDN博主的全部文章信息
![](/theme/default/default/images/main/eye-open.png)
本文介绍了如何爬取CSDN上的作者文章,以开源社(username为kaiyuanshe)为例。
1. 创作历程
使用特定API获取开源社每年每月发布的文章数量和查看链接。例如:https://blog.csdn.net/community/home-api/v1/get-place-on-file?username=kaiyuanshe
。通过这个接口可以获得JSON数据,包含了年份、月份、文章数量和对应链接。
2. 文章列表
文章列表默认按最后发布时间排序。通过调整API请求,如下所示:
- 最后发布时间:
https://blog.csdn.net/community/home-api/v1/get-business-list?page=1&size=20&businessType=blog&orderby=&noMore=false&year=&month=&username=kaiyuanshe
- 按访问量排序:
https://blog.csdn.net/community/home-api/v1/get-business-list?page=1&size=20&businessType=blog&orderby=ViewCount&noMore=false&year=&month=&username=kaiyuanshe&filterType=&blogType=ViewCount
- 创作历程排序:
https://blog.csdn.net/community/home-api/v1/get-business-list?page=1&size=20&businessType=blog&orderby=&noMore=false&year=2023&month=06&username=kaiyuanshe&filterType=&blogType=ViewCount
通过调整API的参数,可以获取不同排序和时间范围的文章列表。返回的JSON数据中包含了文章的基础信息,如文章ID、标题、描述、详情URL、原创标识、置顶标识、浏览量、评论数、发布时间、封面图等。
获取文章详情则通过访问文章对应的URL来爬取HTML内容。
总结以上,通过CSDN提供的API可以实现对作者文章的有效爬取,从而获取所需的文章数据。
想要了解更多,点击
查看原文
鲁飞的其他文章
![](/theme/default/default/images/main/icon-fire.png)
在 GitHub 或者 Gitee 等其他地方“白嫖“存储难免会遇到无法访问的时候,例如前段时间 jsDelivr 就因为被 DNS 污染导致无法访问、Gitee 公开仓库私有...
![](/theme/default/default/images/main/icon-fire.png)
think-swoole 的文档极少,官方文档中也只是说了如何启动、热更新、连接池等配置
![](/theme/default/default/images/main/icon-fire.png)
常见的 SDK 都会将所有功能都集成在一个代码库中,本文以腾讯云开发者工具套件(SDK)3.0 为例。
![](/theme/default/default/images/main/icon-fire.png)
使工作流程可重复使用,而不是从一个工作流程复制并粘贴到另一个工作流程。 自己和有权访问可重用工作流程的任何人都可以从另一个工作流程调用可重用工作流程。
![](/theme/default/default/images/main/icon-fire.png)
前段时间新注册了一个域名,没有在微信测试访问,等用到的时候发现居然被微信拦截了...
加入社区微信群
与行业大咖零距离交流学习
![](https://cdn.easycorp.cn/rongpm/upload/202312/f_39217d624bb2b42ce8f6322ebd7e573a.png)
![](https://cdn.easycorp.cn/rongpm/upload/202312/f_39217d624bb2b42ce8f6322ebd7e573a.png)
软件研发质量管理体系建设
白皮书上线