23、Swift框架微调实战（3）-Qwen2.5-VL-7B LORA微调OCR数据集

06-01 1329阅读

一、模型介绍

Qwen2.5-VL 是阿里通义千问团队开源的视觉语言模型，具有3B、7B和72B三种不同规模，能够识别常见物体、分析图像中的文本、图表等元素，并具备作为视觉Agent的能力。

Qwen2.5-VL 具备作为视觉Agent的能力，可以推理并动态使用工具，初步操作电脑和手机。在视频处理上，Qwen2.5-VL 能够理解超过1小时的长视频，精准定位相关片段捕捉事件。模型还支持发票、表单等数据的结构化输出。

Qwen2.5-VL 在多个性能测试中表现优异，在文档和图表理解方面优势明显，7B模型在多项任务中超越了GPT-4o-mini。模型的推出为开发者提供了强大的工具，能够在多种应用场景中发挥重要作用。

1.1 Qwen2.5-VL 的主要功能

视觉理解：能识别常见物体，如花、鸟、鱼和昆虫，能分析图像中的文本、图表、图标、图形和布局。
视觉Agent能力：可以直接作为一个视觉Agent，推理并动态地使用工具，初步具备使用电脑和使用手机的能力。
理解长视频和捕捉事件：能理解超过1小时的视频，精准定位相关视频片段来捕捉事件。
视觉定位：可以通过生成bounding boxes或者points来准确定位图像中的物体，能为坐标和属性提供稳定的JSON输出。

免责声明：我们致力于保护作者版权，注重分享，被刊用文章因无法核实真实出处，未能及时与作者取得联系，或有版权异议的，请联系管理员，我们会立即处理! 部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理! 图片声明：本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库和百度，360，搜狗等多加搜索引擎自动关键词搜索配图，如有侵权的图片，请第一时间联系我们。

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

23、Swift框架微调实战（3）-Qwen2.5-VL-7B LORA微调OCR数据集

一、模型介绍

1.1 Qwen2.5-VL 的主要功能

相关阅读

目录[+]