如何获取指定CSDN博主的全部文章信息
版权声明
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
鲁飞
扫码关注公众号
扫码阅读
手机扫码阅读
本文介绍了如何爬取CSDN上的作者文章,以开源社(username为kaiyuanshe)为例。
1. 创作历程
使用特定API获取开源社每年每月发布的文章数量和查看链接。例如:https://blog.csdn.net/community/home-api/v1/get-place-on-file?username=kaiyuanshe。通过这个接口可以获得JSON数据,包含了年份、月份、文章数量和对应链接。
2. 文章列表
文章列表默认按最后发布时间排序。通过调整API请求,如下所示:
- 最后发布时间:
https://blog.csdn.net/community/home-api/v1/get-business-list?page=1&size=20&businessType=blog&orderby=&noMore=false&year=&month=&username=kaiyuanshe - 按访问量排序:
https://blog.csdn.net/community/home-api/v1/get-business-list?page=1&size=20&businessType=blog&orderby=ViewCount&noMore=false&year=&month=&username=kaiyuanshe&filterType=&blogType=ViewCount - 创作历程排序:
https://blog.csdn.net/community/home-api/v1/get-business-list?page=1&size=20&businessType=blog&orderby=&noMore=false&year=2023&month=06&username=kaiyuanshe&filterType=&blogType=ViewCount
通过调整API的参数,可以获取不同排序和时间范围的文章列表。返回的JSON数据中包含了文章的基础信息,如文章ID、标题、描述、详情URL、原创标识、置顶标识、浏览量、评论数、发布时间、封面图等。
获取文章详情则通过访问文章对应的URL来爬取HTML内容。
总结以上,通过CSDN提供的API可以实现对作者文章的有效爬取,从而获取所需的文章数据。
鲁飞
鲁飞
扫码关注公众号
还在用多套工具管项目?
一个平台搞定产品、项目、质量与效能,告别整合之苦,实现全流程闭环。
查看方案
鲁飞的其他文章
HMAC 签名编码的坑:Go 和 PHP 的不同处理方式
本文将以 Go 和 PHP 为例,探讨为什么直接对 HMAC 签名进行 Base64 编码与先转换为 16 进制字符串再编码的结果不同。
MacOS 等机器配置 Docker 启用 Remote API
Docker 不仅可以通过本地命令行docker命令进行调用,还可以通过开启远程控制 API,使用 HTTP
JavaScript 如何实现在搜索中忽略变音符号
变音符号是指添加在字母上面的符号,以更改字母的发音或者以区分拼写相似词语。
simps/mqtt v1.1.1 版本发布,支持 MQTT5 中的大部分 Property
在 MQTT 5.0 协议中增加了很多属性。不同的报文类型之间,属性也会不同,一共有 27 种属性。
使用 GitHub Actions 自动同步 Docker 镜像到 CNB
通过 GitHub Actions + skopeo + CNB 服务,构建一个可复用、自动化、支持多镜像同步的工具链,显著提升了镜像的可用性与部署效率。
加入社区微信群
与行业大咖零距离交流学习
PMO实践白皮书
白皮书上线
白皮书上线