1月27日,DeepSeek发布全新DeepSeek-OCR 2模型,采用创新的DeepEncoder V2方法,让AI能够根据图像的含义动态重排图像的各个部分,而不再只是机械地从左到右扫描。
这种方式模拟了人类在观看场景时所遵循的逻辑流程。
最终,该模型在处理布局复杂的图片时,表现优于传统的视觉-语言模型,实现了更智能、更具因果推理能力的视觉理解。
传统的视觉语言模型通常采用光栅扫描顺序,即从左上到右下机械地处理图像 Patch。
这种方式在处理复杂排版时,往往难以捕捉内容之间真实的逻辑关系。
根据DeepSeek公布的技术报告,DeepSeek-OCR 2在多项关键指标上展现出显著优势。
在OmniDocBench v1.5基准测试中,该模型取得了91.09%的成绩,相较于前代DeepSeek-OCR提升了3.73%。
该模型在保持极高精度的同时,严格控制了计算成本,其视觉Token数量被限制在256至1120之间,这一上限与Google的Gemini-3 Pro保持一致。
在实际生产环境中,该模型在处理在线用户日志和PDF预训练数据时的重复率分别下降了2.08%和0.81%,显示出极高的实用成熟度。
DeepSeek-OCR 2的发布不仅是一次OCR性能的升级,更具有深远的架构探索意义。
DeepEncoder V2初步验证了使用语言模型架构作为视觉编码器的潜力。
这种架构天然继承了LLM社区在基础设施优化方面的成果,如混合专家(MoE)架构和高效注意力机制。
「新服网」新开传私网站好服_新开传服奇服网站热门主题 x