Linux环境下如何高效合并多个XLS文件？怎样快速合并多个XLS文件？如何快速合并多个XLS文件？

06-01 1858阅读

在Linux环境下高效合并多个XLS文件，可通过以下方法实现：，1. **使用Python脚本**：借助pandas和openpyxl库，编写脚本批量读取并合并XLS文件，适合处理大量数据且支持灵活的数据清洗。，2. **LibreOffice命令行工具**：通过soffice将XLS转为CSV，再用cat或awk合并文本文件，最后转换回XLS格式，适合简单场景。，3. **专用工具（如xlsxmerge）**：安装第三方工具快速合并，操作简便但需额外配置。，**快速合并技巧**：确保文件结构一致，提前备份数据，并优先使用Python脚本实现自动化处理，若需保留格式，可结合xlrd和xlwt库操作，终端命令如ssconvert（Gnumeric工具）也能辅助转换格式。，根据需求选择编程或工具方案，Python脚本兼顾效率与灵活性，适合复杂任务；命令行工具适合轻量级合并。

为什么需要在Linux下合并XLS文件？
准备工作
方法1：使用Python + Pandas合并XLS文件
方法2：使用LibreOffice命令行工具
方法3：使用ssconvert（Gnumeric工具）
方法4：使用csvkit工具
方法5：使用xlsxwriter和openpyxl
自动化脚本：定时合并XLS文件
常见问题及解决方案
总结与最佳实践

在日常办公和数据处理中,Excel（.xls或.xlsx）文件是最常用的数据存储格式之一，当我们需要处理大量分散的Excel文件时，手动合并数据不仅耗时耗力，还容易出错，在Linux环境下，虽然没有像Windows那样内置的Excel工具，但我们可以借助强大的命令行工具和脚本实现高效的文件合并操作，本文将详细介绍在Linux系统中合并多个XLS文件的五种实用方法，并提供详细的代码示例和最佳实践建议。

为什么需要在Linux下合并XLS文件？

在数据分析、报表生成或日志处理过程中，数据往往分散在多个Excel文件中，以下是几个典型场景：

数据汇总：每日销售数据存储在单独的XLS文件中，需要按月或按季度进行汇总分析
报表整合：多个部门提交的报表格式相同但内容不同，需要合并成一个总表
日志处理：服务器日志以Excel格式存储，需要统一合并后进行大数据分析
数据迁移：从多个系统导出的Excel数据需要合并后导入新系统

在Linux服务器环境下,通常没有图形界面，因此需要依赖命令行工具进行高效操作，自动化合并不仅能节省时间，还能减少人为错误，确保数据一致性。

准备工作

安装必要的工具

在开始合并操作前,请确保系统已安装以下工具：

# 更新软件包列表
sudo apt update
# 安装Python和pip（如果尚未安装）
sudo apt install python3 python3-pip
# 安装LibreOffice（用于转换文件）
sudo apt install libreoffice
# 安装Gnumeric（提供ssconvert工具）
sudo apt install gnumeric
# 安装csvkit（用于CSV操作）
pip install csvkit
# 安装Python数据处理库
pip install pandas openpyxl xlrd xlsxwriter

数据文件检查

合并前请确保：

所有XLS文件结构一致（列名相同），否则合并时可能出现数据错位
检查文件编码,特别是包含中文等非ASCII字符时
确认文件没有损坏,可以正常打开
备份原始文件,以防操作失误导致数据丢失

方法1：使用Python + Pandas合并XLS文件

Pandas是Python中最强大的数据处理库之一,支持Excel文件的读取和写入，特别适合复杂的数据合并操作。

安装Pandas和依赖库

pip install pandas openpyxl xlrd

基础合并脚本

以下脚本可以合并目录下所有XLS/XLSX文件：

import pandas as pd
import glob
import os
# 获取当前目录下所有Excel文件
all_files = glob.glob("*.xls") + glob.glob("*.xlsx")
# 检查是否找到文件
if not all_files:
    print("未找到任何Excel文件！")
    exit()
# 读取并合并
df_list = []
for file in all_files:
    try:
        # 读取Excel文件，sheet_name=None可读取所有工作表
        df = pd.read_excel(file, sheet_name=0)  # 只读取第一个工作表
        df['来源文件'] = os.path.basename(file)  # 添加来源文件列
        df_list.append(df)
    except Exception as e:
        print(f"读取文件 {file} 时出错: {str(e)}")
if df_list:
    # 合并所有DataFrame
    merged_df = pd.concat(df_list, ignore_index=True)
    # 保存为新的Excel文件
    output_file = "merged_output.xlsx"
    merged_df.to_excel(output_file, index=False)
    print(f"合并完成！共合并 {len(df_list)} 个文件，输出文件：{output_file}")
else:
    print("没有有效数据可合并！")

高级功能扩展

处理多个工作表：

# 读取文件中的所有工作表
xls = pd.ExcelFile(file)
for sheet_name in xls.sheet_names:
    df = pd.read_excel(xls, sheet_name=sheet_name)

数据清洗：

# 删除空行
merged_df.dropna(how='all', inplace=True)
# 统一日期格式
merged_df['日期列'] = pd.to_datetime(merged_df['日期列'], errors='coerce')

性能优化：

# 分批读取大文件
chunksize = 10000
for chunk in pd.read_excel(file, chunksize=chunksize):
    process(chunk)

方法2：使用LibreOffice命令行工具

如果不方便使用Python,可以使用LibreOffice的unoconv工具将XLS转换为CSV，再进行合并。

安装unoconv

sudo apt install unoconv

批量转换XLS到CSV

# 转换单个文件
unoconv -f csv input.xls
# 批量转换当前目录下所有Excel文件
for file in *.xls *.xlsx; do
    unoconv -f csv "$file"
    echo "已转换: $file → ${file%.*}.csv"
done

合并CSV文件

# 简单合并（不处理表头）
echo "合并CSV文件..."
head -1 *.csv | head -1 > merged_output.csv  # 获取第一个文件的表头
tail -n +2 *.csv >> merged_output.csv       # 追加所有文件内容（跳过表头）
# 使用csvkit更安全的合并方式
csvstack *.csv > merged_output.csv

方法3：使用ssconvert（Gnumeric工具）

ssconvert是Gnumeric电子表格软件提供的命令行工具，可以高效转换Excel格式。

转换XLS到CSV

# 转换单个文件
ssconvert input.xls output.csv
# 批量转换
for file in *.xls *.xlsx; do
    ssconvert "$file" "${file%.*}.csv"
done

合并CSV文件

# 使用csvkit合并
csvstack *.csv > final_merged.csv
# 或者使用awk处理
awk 'FNR==1 && NR!=1{next;}{print}' *.csv > combined.csv

方法4：使用csvkit工具

csvkit是一套专门处理CSV文件的命令行工具集，功能强大。

安装csvkit

pip install csvkit

合并多个CSV文件

# 基本合并
csvstack *.csv > merged.csv
# 添加来源标识
csvstack --filenames *.csv > merged_with_source.csv
# 仅合并指定列
csvcut -c 1,2,3 *.csv | csvstack > merged_columns.csv

数据清洗

# 去除重复行
csvclean merged.csv | csvsort -u > deduplicated.csv
# 数据筛选
csvgrep -c "status" -m "completed" input.csv > filtered.csv

方法5：使用xlsxwriter和openpyxl

当需要对合并后的Excel进行复杂格式调整时,可以使用这些专业库。

合并并保留格式示例

from openpyxl import load_workbook
import glob
output_file = "formatted_merge.xlsx"
master_wb = load_workbook(filename=glob.glob("*.xlsx")[0])  # 以第一个文件为模板
for file in glob.glob("*.xlsx")[1:]:  # 处理剩余文件
    wb = load_workbook(filename=file)
    for sheetname in wb.sheetnames:
        if sheetname in master_wb.sheetnames:
            source_sheet = wb[sheetname]
            target_sheet = master_wb[sheetname]
            # 追加数据
            for row in source_sheet.iter_rows(values_only=True):
                target_sheet.append(row)
master_wb.save(output_file)

添加图表和公式

import xlsxwriter
# 创建新工作簿
workbook = xlsxwriter.Workbook('chart_merged.xlsx')
worksheet = workbook.add_worksheet()
# 添加数据格式
bold = workbook.add_format({'bold': True})
money_format = workbook.add_format({'num_format': '$#,##0'})
# 写入数据和格式
worksheet.write('A1', 'Item', bold)
worksheet.write('B1', 'Cost', bold)
# ...写入数据...
# 添加图表
chart = workbook.add_chart({'type': 'column'})
chart.add_series({'values': '=Sheet1!$B$2:$B$7'})
worksheet.insert_chart('D2', chart)
workbook.close()

自动化脚本：定时合并XLS文件

使用cron定时任务可以自动执行合并操作：

创建合并脚本

#!/bin/bash
# merge_xls.sh
# 进入工作目录
cd /path/to/your/files
# 执行Python合并脚本
python3 /path/to/merge_script.py
# 移动原始文件到备份目录
mkdir -p archive/$(date +%Y%m%d)
mv *.xls *.xlsx archive/$(date +%Y%m%d)/
# 发送通知
echo "Excel文件已自动合并于 $(date)" | mail -s "合并完成通知" admin@example.com

设置cron任务

# 每天凌晨2点运行合并脚本
0 2 * * * /bin/bash /path/to/merge_xls.sh >> /var/log/xls_merge.log 2>&1
# 每周一早上5点运行
0 5 * * 1 /bin/bash /path/to/merge_xls.sh

日志轮转配置

在/etc/logrotate.d/下创建配置文件：

/var/log/xls_merge.log {
    weekly
    missingok
    rotate 12
    compress
    delaycompress
    notifempty
    create 0640 root adm
}

常见问题及解决方案

问题现象	可能原因	解决方案
编码错误	文件使用非UTF-8编码	使用`iconv`转换：`iconv -f GBK -t UTF-8 file.csv > newfile.csv`
列名不一致	各文件列顺序或名称不同	在Pandas中统一列名：`pd.read_excel(file, names=["标准列1", "标准列2"])`
内存不足	文件过大或太多	使用分块读取：`pd.read_excel(file, chunksize=5000)`
日期格式混乱	不同文件的日期格式不同	统一转换为datetime：`df['日期'] = pd.to_datetime(df['日期'], format='%Y-%m-%d')`
合并后数据错位	工作表结构不一致	合并前先验证结构：`len(df.columns)`和`df.columns.tolist()`
性能低下	大文件处理方式不当	使用更高效的库如`modin.pandas`或`dask.dataframe`

总结与最佳实践

在Linux环境下合并Excel文件有多种方法可选,以下是各方法的适用场景：

Python + Pandas：最适合复杂数据处理，支持各种数据清洗和转换
LibreOffice + unoconv：适合简单转换，不依赖Python环境
ssconvert + csvkit：命令行解决方案，适合自动化处理
xlsxwriter/openpyxl：需要保留格式或添加高级功能时使用

最佳实践建议

预处理检查
- 验证所有文件结构是否一致
- 检查数据质量（空值、格式等）
- 备份原始文件
性能优化
- 对于特大文件,考虑分块处理
- 使用dask等库处理超大数据集
- 关闭不需要的日志输出提高速度
错误处理
- 添加完善的异常捕获
- 实现重试机制
- 记录详细的处理日志
自动化部署
- 使用Docker容器封装依赖环境
- 配置监控告警
- 实现结果验证机制

通过本文介绍的方法,您可以在Linux环境下高效地处理各种Excel文件合并需求，根据具体场景选择最适合的工具组合，可以显著提高数据处理效率和可靠性。

免责声明：我们致力于保护作者版权，注重分享，被刊用文章因无法核实真实出处，未能及时与作者取得联系，或有版权异议的，请联系管理员，我们会立即处理! 部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理! 图片声明：本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库和百度，360，搜狗等多加搜索引擎自动关键词搜索配图，如有侵权的图片，请第一时间联系我们。

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Linux环境下如何高效合并多个XLS文件？怎样快速合并多个XLS文件？如何快速合并多个XLS文件？

目录

为什么需要在Linux下合并XLS文件？

准备工作

安装必要的工具

数据文件检查

方法1：使用Python + Pandas合并XLS文件

安装Pandas和依赖库

基础合并脚本

高级功能扩展

方法2：使用LibreOffice命令行工具

安装unoconv

批量转换XLS到CSV

合并CSV文件

方法3：使用ssconvert（Gnumeric工具）

转换XLS到CSV

合并CSV文件

方法4：使用csvkit工具

安装csvkit

合并多个CSV文件

数据清洗

方法5：使用xlsxwriter和openpyxl

合并并保留格式示例

添加图表和公式

自动化脚本：定时合并XLS文件

创建合并脚本

设置cron任务

日志轮转配置

常见问题及解决方案

总结与最佳实践

最佳实践建议

相关阅读

Linux Shell异常处理，常见问题与解决方案？Shell脚本报错怎么解决？Shell脚本报错如何快速解决？

Linux中高效复制多级目录与文件的技巧与方法？如何快速复制Linux多级目录？Linux多级目录如何快速复制？

IDA Pro监听Linux进程，逆向工程中的动态调试技术？IDA如何动态调试Linux进程？IDA如何逆向调试Linux进程？

Linux下按pip安装与管理Python包指南？Linux如何用pip管理Python包？Linux下pip怎么管理Python包？

目录[+]