扫码阅读
手机扫码阅读

如何获取指定CSDN博主的全部文章信息

292 2024-01-25

本文介绍了如何爬取CSDN上的作者文章,以开源社(username为kaiyuanshe)为例。

1. 创作历程

使用特定API获取开源社每年每月发布的文章数量和查看链接。例如:https://blog.csdn.net/community/home-api/v1/get-place-on-file?username=kaiyuanshe。通过这个接口可以获得JSON数据,包含了年份、月份、文章数量和对应链接。

2. 文章列表

文章列表默认按最后发布时间排序。通过调整API请求,如下所示:

  • 最后发布时间:https://blog.csdn.net/community/home-api/v1/get-business-list?page=1&size=20&businessType=blog&orderby=&noMore=false&year=&month=&username=kaiyuanshe
  • 按访问量排序:https://blog.csdn.net/community/home-api/v1/get-business-list?page=1&size=20&businessType=blog&orderby=ViewCount&noMore=false&year=&month=&username=kaiyuanshe&filterType=&blogType=ViewCount
  • 创作历程排序:https://blog.csdn.net/community/home-api/v1/get-business-list?page=1&size=20&businessType=blog&orderby=&noMore=false&year=2023&month=06&username=kaiyuanshe&filterType=&blogType=ViewCount

通过调整API的参数,可以获取不同排序和时间范围的文章列表。返回的JSON数据中包含了文章的基础信息,如文章ID、标题、描述、详情URL、原创标识、置顶标识、浏览量、评论数、发布时间、封面图等。

获取文章详情则通过访问文章对应的URL来爬取HTML内容。

总结以上,通过CSDN提供的API可以实现对作者文章的有效爬取,从而获取所需的文章数据。

想要了解更多,点击 查看原文

鲁飞(沈唁)的个人公众号,不定时分享和PHP相关的技术资源、开源项目、技术总结等内容。

32 篇文章
浏览 8965
加入社区微信群
与行业大咖零距离交流学习
软件研发质量管理体系建设 白皮书上线