github公开项目爬取
import requests def search_github_repositories(keyword, token=None, language=None, max_results=1000): """ 通过 GitHub API 搜索仓库,支持分页获取所有结果(最多 1000 条) :param keyword: 搜索关键词 :param token: GitHub Token(可选,但建议使用以提高速率限制) :param language: 过滤语言 :param max_results: 最大结果数(GitHub 允许最多 1000 条) :return: 仓库列表 """ url = "https://api.github.com/search/repositories" headers = {"Accept": "application/vnd.github.v3+json"} if token: headers["Authorization"] = f"Bearer {token}" query = keyword if language: query += f" language:{language}" repositories = [] page = 1 per_page = 100 # GitHub 单页最大允许 100 条 while len(repositories) = max_results: break page += 1 # GitHub 最多允许 10 页(即 10 * 100=1000 条) if page > 10: break except requests.exceptions.RequestException as e: print(f"请求失败: {e}") break return repositories def save_to_txt(results, filename="github_results.txt"): """ 将结果保存到文本文件 :param results: 仓库列表 :param filename: 保存文件名 """ with open(filename, "w", encoding="utf-8") as f: for repo in results: # 格式化单行文本(用 | 分隔关键信息) line = ( f"仓库: {repo['owner']}/{repo['name']} | " f"URL: {repo['url']} | " f"语言: {repo['language']} | " f"星数: {repo['stars']} | " f"克隆地址: {repo['clone_url']}\n" ) f.write(line) print(f"结果已保存至 {filename}") # 示例用法 if __name__ == "__main__": keyword = "Aerospace Control" language = "Python" token = "********" # 强烈建议使用 Token # 获取最多 1000 条结果(实际数量取决于搜索匹配的总数) results = search_github_repositories(keyword, token, language=language, max_results=1000) if results: print(f"找到 {len(results)} 个 {language} 相关仓库:") for idx, repo in enumerate(results, 1): print(f"\n{idx}. {repo['owner']}/{repo['name']}") print(f" URL: {repo['url']}") print(f" 语言: {repo['language']}") # 显示语言 print(f" 克隆地址: {repo['clone_url']}") else: print("未找到结果") if results: save_to_txt(results) print(f"实际获取 {len(results)} 条结果") else: print("未找到结果")
免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理! 图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库和百度,360,搜狗等多加搜索引擎自动关键词搜索配图,如有侵权的图片,请第一时间联系我们。