Tesseract OCR 安装与中文+英文识别实现

06-01 1221阅读

一、下载

https://digi.bib.uni-mannheim.de/tesseract/

下载，尽量选择时间靠前的（识别更好些）。符合你的运行机（我的是windows64）

持续点击下一步安装，安装你认可的路径即可，没必要配置环境变量（后续在代码里指定即可）。

二、下载语言包

https://github.com/tesseract-ocr/tessdata/blob/main/chi_sim.traineddata

（这是中文的。有了它，后续的识别会更精准）

下载到的语言包放到安装目录的 Tesseract-OCR\tessdata 目录下

三、代码实现和图片优化

注意：图片的优化很重要，这会极大的提高识别。

【图片越大、像素越清晰，识别的准确度越高。

如果是小图片，需要额外做放大、锐化、对比度等处理。本文章不做这方面的优化。

各位可以截大图和小图对比一下结果就知道了。】

下面以python实现为例：

程序：替换你的安装路径和图片地址，运行即可测试。

import pytesseract
from PIL import Image
# 设置Tesseract路径（根据实际安装路径修改）
pytesseract.pytesseract.tesseract_cmd = r'C:\soft_install\Tesseract-OCR\tesseract.exe'
def ocr_scan(image_path):
    """
    对指定图片文件进行OCR识别
    :param image_path: 图片文件路径（支持PNG/JPG等格式）
    """
    try:
        # 加载图片文件
        image = Image.open(image_path)
        # 识别文字（中英文混合）
        text = pytesseract.image_to_string(image, lang='chi_sim+eng')
        print("识别结果：\n", text.strip())
    except FileNotFoundError:
        print(f"错误：文件 '{image_path}' 不存在")
    except Exception as e:
        print(f"发生错误：{str(e)}")
if __name__ == "__main__":
    # 直接指定图片路径（示例路径）
    image_path = "processed_latest.png"  # 修改为你的图片路径
    ocr_scan(image_path)

图片实例如下：

（图1 未经过放大和二值化阈值等处理。会存在识别失真）

（图2 经过放大和二值化阈值处理。上面的程序可以正确识别）

免责声明：我们致力于保护作者版权，注重分享，被刊用文章因无法核实真实出处，未能及时与作者取得联系，或有版权异议的，请联系管理员，我们会立即处理! 部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理! 图片声明：本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库和百度，360，搜狗等多加搜索引擎自动关键词搜索配图，如有侵权的图片，请第一时间联系我们。

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Tesseract OCR 安装与中文+英文识别实现

一、下载

二、下载语言包

三、代码实现和图片优化

相关阅读

美国物理服务器租用，全面解析与实用指南？租美国物理服务器靠谱吗？美国物理服务器值得租吗？

香港服务器快照功能，数据保护的终极解决方案？香港快照真能护数据周全？香港快照真能护数据周全？

美国服务器对象存储，高效、安全的数据管理解决方案？美国服务器存储真的安全高效吗？美国云存储真靠谱吗？

国内函数计算，云原生时代的新一代计算范式？函数计算能颠覆传统云计算吗？函数计算能否取代传统云计算？

目录[+]