DeepSeek发布DeepSeek-OCR2让AI学会“人类视觉逻辑”

1月27日，DeepSeek发布全新DeepSeek-OCR 2模型，采用创新的DeepEncoder V2方法，让AI能够根据图像的含义动态重排图像的各个部分，而不再只是机械地从左到右扫描。这种方式模拟了人类在观看场景时所遵循的逻辑流程。最终，该模型在处理布局复杂的图片时，表现优于传统的视觉-语言模型，实现了更智能、更具因果推理能力的视觉理解。传统的视觉语言模型通常采用光栅扫描顺序，即从左上到右下机械地处理图像 Patch。这种方式在处理复杂排版时，往往难以捕捉内容之间真实的逻辑关系。根据DeepSeek公布的技术报告，DeepSeek-OCR 2在多项关键指标上展现出显著优势。在OmniDocBench v1.5基准测试中，该模型取得了91.09%的成绩，相较于前代DeepSeek-OCR提升了3.73%。该模型在保持极高精度的同时，严格控制了计算成本，其视觉Token数量被限制在256至1120之间，这一上限与Google的Gemini-3 Pro保持一致。在实际生产环境中，该模型在处理在线用户日志和PDF预训练数据时的重复率分别下降了2.08%和0.81%，显示出极高的实用成熟度。 DeepSeek-OCR 2的发布不仅是一次OCR性能的升级，更具有深远的架构探索意义。 DeepEncoder V2初步验证了使用语言模型架构作为视觉编码器的潜力。这种架构天然继承了LLM社区在基础设施优化方面的成果，如混合专家(MoE)架构和高效注意力机制。「新服网」新开传私网站好服_新开传服奇服网站热门主题 x
DeepSeek发布DeepSeek-OCR2让AI学会“人类视觉逻辑”