AI视觉 - 股票复盘网

2025年02月10日，豆包大模型团队发布视频生成实验模型“VideoWorld”最新成果，可仅靠视觉认知世界。

题材最新消息

2025年02月10日，豆包大模型团队发布视频生成实验模型“VideoWorld”最新成果，可仅靠视觉认知世界。不同于 Sora 、DALL-E 、Midjourney 等主流多模态模型，VideoWorld 在业界首次实现无需依赖语言模型。

题材相关介绍

一、“VideoWorld”新突破

视频生成实验模型“VideoWorld”由豆包大模型团队与北京交通大学、中国科学技术大学联合提出。不同于 Sora 、DALL-E 、Midjourney 等主流多模态模型，VideoWorld 在业界首次实现无需依赖语言模型，即可认知世界。 VideoWorld 仅通过 “视觉信息”，即浏览视频数据，就能让机器掌握推理、规划和决策等复杂能力。团队实验发现，仅 300M 参数量下，VideoWorld 已取得可观的模型表现。

现有模型大多依赖语言或标签数据学习知识，很少涉及纯视觉信号的学习。然而，语言并不能捕捉真实世界中的所有知识。例如，折纸、打领结等复杂任务，难以通过语言清晰表达。

作为一种通用视频生成实验模型，VideoWorld 去掉语言模型，实现了统一执行理解和推理任务。同时，它基于一种潜在动态模型，可高效压缩视频帧间的变化信息，显著提升知识学习效率和效果。

在不依赖任何强化学习搜索或奖励函数机制前提下，VideoWorld 达到了专业 5 段 9x9 围棋水平，并能够在多种环境中，执行机器人任务。

团队认为，尽管面向真实世界的视频生成和泛化仍存在很大挑战，视频生成依然可以成为一种通用的知识学习方法，并在现实世界充当思考和行动的“人工大脑”。

二、视觉技术--ISP技术

1、什么是ISP技术

ISP技术即图像信号处理(lmage Signal Processing)技术，在视觉方面起着至关重要的作用。ISP技术主要用于处理图像传感器捕获的原始数据，将其转化为高质量的、适合显示或存储的图像数据。从图像传感器获取的原始图像数据往往包含大量噪声、颜色偏差、亮度不均匀等问题，ISP技术就是通过一系列算法和处理流程，对这些原始数据进行优化和校正，以提升图像的质量和视觉效果。

2、ISP技术功能介绍

降噪:图像传感器在捕捉图像时，由于各种因素会引入噪声，如电子元件的热噪声、光线不足等。。隆噪篁法可以分析图像的噪声特征，采用滤波等方法去除噪声，提高图像的清晰度和纯净争度。例如在低光环境下拍摄的照片，通过ISP的降噪处理，可减少画面中的噪点，使图像更加干净

色彩校正:不同的光源具有不同的色温，会导致图像出现色彩偏差。色彩校正算法可以根据光源的特性和图像的色彩信息，调整图像的颜色，使颜色更加准确、鲜艳和自然，确保图像中的物体颜色与实际场景相符

白平衡调整:使图像在不同的光照条件下，白色物体都能呈现出真正的白色，从而消除色偏，让整个图像的色彩基调更加准确。比如在室内灯光下和户外阳光下拍摄的同一场景，通过白平衡调整，都能让白色的物体看起来是白色

自动对焦:通过特定的算法和技术，自动调整镜头的焦距，使拍摄的主体清晰成像。在视觉应用中，无论是拍摄静止的物体还是运动的物体，自动对焦功能都能确保图像的主体始终保持清晰

对比度增强:通过调整图像的亮度分布，增强图像中不同区域之间的对比度，使图像的细节更加明显，视觉效果更加突出。比如在风景摄影中，增强对比度可以让天空更湛蓝，大地的色彩更浓郁，层次感更强。HDR处理:高动态范围(HDR)处理技术可以在同一幅图像中同时保留亮部和暗部的细节，避免因为曝光不足或过度曝光导致的细节丢失。在强光和阴影共存的复杂光线环境下，HDR技术能够有效平衡光线，使图像看起来更加自然和真实