Method and System for Processing Video

Link Copied.

Opportunity

The increasing demand for high-quality video content, especially in high-resolution and high-frame-rate applications, has highlighted significant challenges in video compression and quality control. Traditional video encoding standards, such as HEVC (High Efficiency Video Coding), struggle to maintain consistent perceptual quality while optimizing bitrate usage. Existing rate-control algorithms often fail to account for human visual perception, leading to suboptimal quality fluctuations. For instance, fixed quantization parameters (QP) or simplistic rate-distortion (R-D) models may degrade visual quality in complex scenes or during rapid motion. The lack of adaptive quality control mechanisms tailored to perceptual metrics (e.g., structural and texture similarity) further exacerbates inefficiencies in bitrate allocation. This patent addresses these gaps by introducing a data-driven, perception-aware quality control framework for Versatile Video Coding (VVC), ensuring optimal trade-offs between bitrate and perceptual fidelity.

Technology

The patent proposes a novel computer-implemented method for video processing, leveraging a DISTS-based perceptual quality metric (a machine-learning-driven measure of image similarity) to dynamically optimize encoding parameters. Key innovations include:
1. DISTS-Quantization (D-Q) Model: A mathematical framework correlating quantization steps (Q) with perceptual quality (DISTS values), enabling precise prediction of quality degradation at different compression levels.
2. Rate-Quantization (R-Q) Model: A linear model linking bitrate (R) to quantization steps, facilitating adaptive bit allocation.
3. Hierarchical Quality Allocation: A multi-tiered approach allocates target quality at the sequence, GOP (Group of Pictures), and frame levels. The GOP-level optimization minimizes R-D cost using Lagrangian multipliers derived from the D-Q and R-Q models.
4. Parameter Adaptation: Real-time updates to model parameters (e.g., via gradient descent) based on encoded output, ensuring continuous refinement.

The method is implemented in the VVC open-source encoder (VVenc 1.6.0), integrating DISTS computation via LibTorch for GPU/CPU efficiency.

Advantages

Perceptual Quality Preservation: Prioritizes human-visual-system-aligned metrics (DISTS) over traditional error-based measures like PSNR or SSIM.
Bitrate Efficiency: Achieves 2.78% BD-Rate savings compared to existing methods (e.g., Zhou et al.) at equivalent perceptual quality.
Adaptability: Dynamically adjusts to video content (e.g., high-motion scenes) via real-time model updates.
Computational Feasibility: Optimized for VVC with minimal overhead, leveraging GPU acceleration for DISTS calculations.

Applications

Streaming Services: Enhances quality consistency for platforms like Netflix or YouTube under bandwidth constraints.
Telemedicine: Ensures high-fidelity video transmission for diagnostic imaging.
Autonomous Vehicles: Improves real-time video compression for perception systems.
Video Surveillance: Balances storage efficiency and detail retention in long-duration recordings.

Remarks

IDF： 1480

IP Status

Patent filed

Technology Readiness Level (TRL)