github公开项目爬取

06-02 1423阅读

import requests
def search_github_repositories(keyword, token=None, language=None, max_results=1000):
    """
    通过 GitHub API 搜索仓库，支持分页获取所有结果（最多 1000 条）
    :param keyword: 搜索关键词
    :param token: GitHub Token（可选，但建议使用以提高速率限制）
    :param language: 过滤语言
    :param max_results: 最大结果数（GitHub 允许最多 1000 条）
    :return: 仓库列表
    """
    url = "https://api.github.com/search/repositories"
    headers = {"Accept": "application/vnd.github.v3+json"}
    if token:
        headers["Authorization"] = f"Bearer {token}"
    query = keyword
    if language:
        query += f" language:{language}"
    repositories = []
    page = 1
    per_page = 100  # GitHub 单页最大允许 100 条
    while len(repositories) = max_results:
                    break
            page += 1
            # GitHub 最多允许 10 页（即 10 * 100=1000 条）
            if page > 10:
                break
        except requests.exceptions.RequestException as e:
            print(f"请求失败: {e}")
            break
    return repositories
def save_to_txt(results, filename="github_results.txt"):
    """
       将结果保存到文本文件
       :param results: 仓库列表
       :param filename: 保存文件名
       """
    with open(filename, "w", encoding="utf-8") as f:
        for repo in results:
            # 格式化单行文本（用 | 分隔关键信息）
            line = (
                f"仓库: {repo['owner']}/{repo['name']} | "
                f"URL: {repo['url']} | "
                f"语言: {repo['language']} | "
                f"星数: {repo['stars']} | "
                f"克隆地址: {repo['clone_url']}\n"
            )
            f.write(line)
    print(f"结果已保存至 {filename}")
# 示例用法
if __name__ == "__main__":
    keyword = "Aerospace Control"
    language = "Python"
    token = "********"  # 强烈建议使用 Token
    # 获取最多 1000 条结果（实际数量取决于搜索匹配的总数）
    results = search_github_repositories(keyword, token, language=language, max_results=1000)
    if results:
        print(f"找到 {len(results)} 个 {language} 相关仓库:")
        for idx, repo in enumerate(results, 1):
            print(f"\n{idx}. {repo['owner']}/{repo['name']}")
            print(f"   URL: {repo['url']}")
            print(f"   语言: {repo['language']}")  # 显示语言
            print(f"   克隆地址: {repo['clone_url']}")
    else:
        print("未找到结果")
    if results:
        save_to_txt(results)
        print(f"实际获取 {len(results)} 条结果")
    else:
        print("未找到结果")

免责声明：我们致力于保护作者版权，注重分享，被刊用文章因无法核实真实出处，未能及时与作者取得联系，或有版权异议的，请联系管理员，我们会立即处理! 部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理! 图片声明：本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库和百度，360，搜狗等多加搜索引擎自动关键词搜索配图，如有侵权的图片，请第一时间联系我们。

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

github公开项目爬取

相关阅读

美国服务器CDN加速，全球网络体验的核心引擎？美国服务器CDN加速，全球网络体验的核心引擎？美国服务器CDN加速，真的那么重要吗？

香港云主机推荐，精选高性能云服务助力企业拓展业务？香港云主机哪家强？香港云主机究竟哪家值得选？

美国服务器成本控制，策略、挑战与最佳实践？如何有效降低美国服务器成本？如何有效降低美国服务器成本？

国内信创服务器，自主创新的基石与数字时代的引擎？国产信创服务器，能否撑起数字未来？国产信创服务器能撑起数字未来吗？

目录[+]