DeepSeek发布DeepSeek-OCR2让AI学会“人类视觉逻辑”

作者:本站编辑 发布时间:2026-02-02 栏目:科技

1月27日,DeepSeek发布全新DeepSeek-OCR 2模型,采用创新的DeepEncoder V2方法,让AI能够根据图像的含义动态重排图像的各个部分,而不再只是机械地从左到右扫描。 这种方式模拟了人类在观看场景时所遵循的逻辑流程。 最终,该模型在处理布局复杂的图片时,表现优于传统的视觉-语言模型,实现了更智能、更具因果推理能力的视觉理解。 传统的视觉语言模型通常采用光栅扫描顺序,即从左上到右下机械地处理图像 Patch。 这种方式在处理复杂排版时,往往难以捕捉内容之间真实的逻辑关系。 根据DeepSeek公布的技术报告,DeepSeek-OCR 2在多项关键指标上展现出显著优势。 在OmniDocBench v1.5基准测试中,该模型取得了91.09%的成绩,相较于前代DeepSeek-OCR提升了3.73%。 该模型在保持极高精度的同时,严格控制了计算成本,其视觉Token数量被限制在256至1120之间,这一上限与Google的Gemini-3 Pro保持一致。 在实际生产环境中,该模型在处理在线用户日志和PDF预训练数据时的重复率分别下降了2.08%和0.81%,显示出极高的实用成熟度。 DeepSeek-OCR 2的发布不仅是一次OCR性能的升级,更具有深远的架构探索意义。 DeepEncoder V2初步验证了使用语言模型架构作为视觉编码器的潜力。 这种架构天然继承了LLM社区在基础设施优化方面的成果,如混合专家(MoE)架构和高效注意力机制。 「新服网」新开传私网站好服_新开传服奇服网站热门主题 x
DeepSeek发布DeepSeek-OCR2让AI学会“人类视觉逻辑”