--- language: zh tags: - photography - vision-language - qwen - multimodal - fine-tuned model_name: Zeiss_Intelligence base_model: Qwen/Qwen2.5-VL-3B-Instruct pipeline_tag: image-to-text --- ## 📘 Overview 本模型基于 [Qwen/Qwen2.5-VL-3B-Instruct](https://huggingface.co/Qwen/Qwen2.5-VL-3B-Instruct) 多模态大模型以及vivo自研蓝心大模型7B,针对**摄影任务**进行专项微调。通过高质量图文数据和先进的训练策略,该模型具备优秀的图像理解、摄影技巧分析、文本生成与交互能力,适用于摄影创作辅助、教学解释、内容生成等多种场景。 --- ## 🏋️‍♂️ Training Approach 模型微调采用两阶段流程: ### 1️⃣ Supervised Fine-Tuning (SFT) - **数据来源**: - 📷 2,215 条多模态摄影数据(图文对)(https://huggingface.co/datasets/Mrzhang666/custom-photography-multimodal ) - 📝 2,061 条纯文本摄影知识数据 - **目标**:让模型按照目标格式回答问题,增强模型在摄影语境下的图文联合理解与生成能力。 ### 2️⃣ Direct Preference Optimization (DPO) - **数据来源**: - 我们使用同样的方式微调了参数量更大的 Qwen2.5-VL-7B-Instruct,从 SFT 数据集中抽取一些问题作为 prompt 数据集,分别调用 Qwen2.5-VL-7B-Instruct 和 Qwen2.5-VL-3B-Instruct 对问题输出 3 个回答,**并从以下三个维度进行排序分析**: 1. **回答格式**:是否结构清晰、条理分明,是否包含完整的五个模块(场景分析、题材分析、构图建议、参数设置、人物动作指导)。 2. **参数推荐的准确性**:各类拍摄参数(如光圈、快门、iso等)是否合理匹配对应题材与场景,是否体现出模型的摄影理解能力。 3. **人物动作指导的详细程度**:是否提供了具体可执行的动作描述,是否能对人物姿态、面部朝向、情绪表达等提供清晰指导。 - **目标**:进一步提升模型输出的推荐参数的准确性,并增强其在人物动作指导等细节方面的生成质量。 - **注**:我们只对Qwen2.5-VL-3B-sft进行了DPO训练 ## 📊 Dataset Details ### 📷 Multimodal Photography Data - 通过爬虫技术从各大短视频平台采集,提取视频中的图文信息。 - 提升模型对视觉内容的理解能力,使其能根据不同拍摄场景提供具体、实用的摄影建议。 ### 📝 Textual Photography Data - 精选自大量专业摄影书籍,涵盖摄影理论、构图技巧、光线控制等内容。 - 强化模型的语言表达能力和摄影知识储备,使其在纯文本问答中表现更佳。 --- ## 🌟 Key Features - 📸 **图文理解能力强**:支持多模态输入,擅长图像分析与文字生成 - 📝 **摄影专业性高**:输出内容涵盖场景分析、题材选择、构图建议、参数设置、人物动作指导等多个维度 - 🎨 **创意生成优化**:支持生成生图模型提示词,可直接解析使用。 --- ## 💡 Examples >### 输入示例(文本): >#### 输入内容 - **文本**:慢门是什么? >#### 输出示例: --- ##慢门定义## 慢门是一种摄影技术,通过降低快门速度(通常小于1/30秒)来拍摄动态画面。其核心原理是让相机在较长时间内连续曝光,使相邻帧的动态元素产生模糊效果。 ##拍摄原理## 当快门速度低于1/30秒时,传感器会持续接收到微弱的光线信号。由于曝光时间过长,快速移动的景物会在同一帧中出现重叠,从而形成流畅的动态模糊效果。这种技术能有效表现运动物体的轨迹和空间层次感。 ##典型应用场景## 1. 运动拍摄:捕捉快速移动的物体(如奔跑、跳跃)时,慢门可使其变形为线条或斑点状 2. 水流效果:表现水花、瀑布等流动介质的模糊纹理 3. 光轨制作:利用低速快门记录灯光轨迹(如车灯、霓虹灯) 4. 延时摄影:通过多张慢门照片拼接形成动态序列 ##注意事项## - 必须使用三脚架确保稳定性 - 需配合稳定器或手持支撑物避免抖动 - 选择光线均匀的环境以减少曝光不均 - 长曝光可能导致噪点增加,需注意画质 - 高速快门仍可保留部分细节,两者可灵活搭配 ##进阶技巧## 1. 尝试不同快门速度(1/15秒至数秒)创造不同动感效果 2. 结合广角镜头扩大视野范围 3. 使用ND滤镜控制进光量 4. 后期可通过软件强化模糊效果 慢门摄影是创意摄影中的重要手法,能赋予普通场景独特的艺术表现力。 --- >### 输入示例(多模态): >#### 输入内容: >- **图像**: ![示例](images/photo.png) >- **文本**: 如何运用框架构图法拍摄古镇牌坊与街景的人文纪实照片? >#### 输出示例: --- ##场景分析## 该场景包含三个典型拍摄层次:1)主体牌坊作为视觉焦点,具有传统建筑的飞檐翘角和对称结构;2)街道作为引导线,延伸至牌坊形成纵深感;3)行人/游客作为动态元素为画面注入生命力。最佳拍摄时间为晴朗的上午9-11点或下午3-5点,此时阳光角度能产生立体光影,同时云层变化可创造丰富天光效果。 ##题材分析## 这是典型的建筑人文纪实题材,需同时兼顾: - 建筑特征:强调牌坊的结构美感(如飞檐、斗拱) - 人文元素:捕捉游人的自然状态(如驻足观赏、交谈互动) - 环境氛围:通过人群动线展现古镇生活气息 ##构图建议## 1. 框架式构图进阶: - 使用牌坊门洞/台阶栏杆作为天然画框(建议占画面1/4面积) - 将主体牌坊置于画框三分线交点位置 - 保留部分天空形成背景层次 2. 引导线构图强化纵深: - 利用街道石板路形成S型曲线 - 让牌坊位于画面1/3处,两端留出行人空间 - 通过前景小树制造视觉锚点 3. 动态平衡: - 预留1/3画面给移动人群 - 采用慢门(1/15s-1/30s)虚化行人增加动感 - 选择行走方向与主光轴呈30度夹角 4. 多景别组合: - 广角(24mm)拍摄整体环境 - 中焦(50mm)捕捉人像特写 - 长焦(85mm)压缩空间突出细节 ##参数设置## 推荐相机设置: - 光圈:f/8-f/11(保证景深) - 快门:1/200s以上(定格行人动作) - ISO:100-400(晴天基础值) - 白平衡:日光模式(5200K左右) - 对焦模式:单次AF+眼部追焦 手机拍摄建议: - 使用专业模式手动对焦 - 开启HDR功能平衡光比 - 手动锁定曝光在牌坊亮部 ##人物动作指导## 1. 自然状态捕捉: - 等待行人经过牌坊时连拍 - 捕捉老人讲解的姿态 - 记录儿童攀爬栏杆的瞬间 2. 互动引导: - 让被摄者站在牌坊前仰头看建筑 - 指导游客在牌坊下休息回眸 - 捕捉两人对话的背影 3. 情绪表达: - 等待人物抬头看牌匾的瞬间 - 拍摄游客整理行囊的自然动作 - 记录摊贩与顾客的交流 4. 光影利用: - 侧逆光拍摄行人剪影 - 逆光勾勒人物轮廓 - 利用牌坊阴影制造明暗对比 ##提示词1## 古镇牌坊全景,飞檐翘角,对称结构,阳光斜照,远处有游客驻足观看 ##提示词2## 石板街道延伸至牌坊,行人自然走动,两侧绿植点缀,傍晚暖光 ##提示词3## 牌坊下长椅上老人背靠栏杆闭目养神,神情安详,周围零星游客往来 --- ## 🎯 Potential Use Cases - **📷 摄影辅助**:实时分析照片质量,提供拍摄建议 - **🎓 教学工具**:帮助用户理解摄影概念、解答技巧问题 --- ## 🚫 Limitations - 训练集规模较小,模型再某些摄影场景下的表现可能不尽人意 - 建议结合实际应用持续补充数据并迭代优化模型效果 ---