Filter optimisations and cleanup part 1
[melted] / src / modules / gtk2 / pixops.c
index 9fe02b0..5956b6e 100644 (file)
@@ -92,27 +92,22 @@ pixops_scale_nearest ( guchar *dest_buf,
                        double scale_x,
                        double scale_y )
 {
-       int i, j;
-       int x;
-       int x_step = ( 1 << SCALE_SHIFT ) / scale_x;
-       int y_step = ( 1 << SCALE_SHIFT ) / scale_y;
+       register int i, j;
+       register int x_step = ( 1 << SCALE_SHIFT ) / scale_x;
+       register int y_step = ( 1 << SCALE_SHIFT ) / scale_y;
+       register int x, x_scaled;
 
        for ( i = 0; i < ( render_y1 - render_y0 ); i++ )
        {
-               const guchar *src = src_buf + ( ( ( i + render_y0 ) * y_step + y_step / 2 ) >> SCALE_SHIFT ) * src_rowstride;
+               const guchar *src = src_buf + ( ( ( i + render_y0 ) * y_step + ( y_step >> 1 ) ) >> SCALE_SHIFT ) * src_rowstride;
                guchar *dest = dest_buf + i * dest_rowstride;
-
-               x = render_x0 * x_step + x_step / 2;
-
+               x = render_x0 * x_step + ( x_step >> 1 );
+               
                for ( j = 0; j < ( render_x1 - render_x0 ); j++ )
                {
-                       const guchar *p = src + ( x >> SCALE_SHIFT ) * 4;
-                       guint32 *p32;
-
-                       p32 = ( guint32 * ) dest;
-                       *p32 = *( ( guint32 * ) p );
-
-                       dest += 4;
+                       x_scaled = x >> SCALE_SHIFT;
+                       *dest++ = src[ x_scaled << 1 ];
+                       *dest++ = src[ ( ( x_scaled >> 1 ) << 2 ) + ( ( j & 1 ) << 1 ) + 1 ];
                        x += x_step;
                }
        }
@@ -125,43 +120,37 @@ scale_line ( int *weights, int n_x, int n_y,
              guchar **src,
              int x_init, int x_step, int src_width )
 {
-       int x = x_init;
-       int i, j;
+       register int x = x_init;
+       register int i, j, x_scaled, y_index, uv_index;
 
        while ( dest < dest_end )
        {
-               int x_scaled = x >> SCALE_SHIFT;
-               int *pixel_weights;
-
-               pixel_weights = weights + ( ( x >> ( SCALE_SHIFT - SUBSAMPLE_BITS ) ) & SUBSAMPLE_MASK ) * n_x * n_y;
+               unsigned int y = 0, uv = 0;
+               int *pixel_weights = weights + ( ( x >> ( SCALE_SHIFT - SUBSAMPLE_BITS ) ) & SUBSAMPLE_MASK ) * n_x * n_y;
 
-               unsigned int y1 = 0, cb = 0, y2 = 0, cr = 0;
+               x_scaled = x >> SCALE_SHIFT;
+               y_index = x_scaled << 1;
+               uv_index = ( ( x_scaled >> 1 ) << 2 ) + ( ( dest_x & 1 ) << 1 ) + 1;
+               
                for ( i = 0; i < n_y; i++ )
                {
-                       guchar *q = src[ i ] + x_scaled * 4;
                        int *line_weights = pixel_weights + n_x * i;
+                       guchar *q = src[ i ];
 
-                       for ( j = 0; j < n_x; j++ )
+                       for ( j = 0; j < n_x; j ++ )
                        {
                                unsigned int ta = line_weights[ j ];
 
-                               y1 += ta * q[ 0 ];
-                               cb += ta * q[ 1 ];
-                               y2 += ta * q[ 2 ];
-                               cr += ta * q[ 3 ];
-
-                               q += 4;
+                               y  += ta * q[ y_index ];
+                               uv += ta * q[ uv_index ];
                        }
                }
 
-               dest[ 0 ] = ( y1 + 0xffff ) >> 16;
-               dest[ 1 ] = ( cb + 0xffff ) >> 16;
-               dest[ 2 ] = ( y2 + 0xffff ) >> 16;
-               dest[ 3 ] = ( cr + 0xffff ) >> 16;
-
-               dest += 4;
+               *dest++ = ( y  + 0xffff ) >> SCALE_SHIFT;
+               *dest++ = ( uv + 0xffff ) >> SCALE_SHIFT;
 
                x += x_step;
+               dest_x++;
        }
 
        return dest;
@@ -199,55 +188,47 @@ scale_line_22_33 ( int *weights, int n_x, int n_y,
                    guchar **src,
                    int x_init, int x_step, int src_width )
 {
-       int x = x_init;
-       guchar *src0 = src[ 0 ];
-       guchar *src1 = src[ 1 ];
+       register int x = x_init;
+       register guchar *src0 = src[ 0 ];
+       register guchar *src1 = src[ 1 ];
+       register unsigned int p;
+       register guchar *q0, *q1;
+       register int w1, w2, w3, w4;
+       register int x_scaled, x_aligned, uv_index;
 
        while ( dest < dest_end )
        {
-               unsigned int y1, cb, y2, cr;
-               int x_scaled = x >> SCALE_SHIFT;
-               int *pixel_weights;
-               guchar *q0, *q1;
-               int w1, w2, w3, w4;
-
-               q0 = src0 + x_scaled * 4;
-               q1 = src1 + x_scaled * 4;
-
-               pixel_weights = weights + ( ( x >> ( SCALE_SHIFT - SUBSAMPLE_BITS ) ) & SUBSAMPLE_MASK ) * 4;
+               int *pixel_weights = weights + ( ( x >> ( SCALE_SHIFT - SUBSAMPLE_BITS ) ) & SUBSAMPLE_MASK ) * 4;
+               
+               x_scaled = x >> SCALE_SHIFT;
 
                w1 = pixel_weights[ 0 ];
                w2 = pixel_weights[ 1 ];
                w3 = pixel_weights[ 2 ];
                w4 = pixel_weights[ 3 ];
 
-               y1 = w1 * q0[ 0 ];
-               cb = w1 * q0[ 1 ];
-               y2 = w1 * q0[ 2 ];
-               cr = w1 * q0[ 3 ];
-
-               y1 += w2 * q0[ 4 ];
-               cb += w2 * q0[ 5 ];
-               y2 += w2 * q0[ 6 ];
-               cr += w2 * q0[ 7 ];
-
-               y1 += w3 * q1[ 0 ];
-               cb += w3 * q1[ 1 ];
-               y2 += w3 * q1[ 2 ];
-               cr += w3 * q1[ 3 ];
+               /* process Y */
+               q0 = src0 + ( x_scaled << 1 );
+               q1 = src1 + ( x_scaled << 1 );
+               p  = w1 * q0[ 0 ];
+               p += w2 * q0[ 2 ];
+               p += w3 * q1[ 0 ];
+               p += w4 * q1[ 2 ];
+               *dest++ = ( p + 0x8000 ) >> SCALE_SHIFT;
+
+               /* process U/V */
+               x_aligned = ( ( x_scaled >> 1 ) << 2 );
+               q0 = src0 + x_aligned;
+               q1 = src1 + x_aligned;
+               uv_index = ( ( dest_x & 1 ) << 1 ) + 1;
+               p  = w1 * q0[ uv_index ];
+               p += w2 * q0[ uv_index ];
+               p += w3 * q1[ uv_index ];
+               p += w4 * q1[ uv_index ];
+               *dest++ = ( p + 0x8000 ) >> SCALE_SHIFT;
 
-               y1 += w4 * q1[ 4 ];
-               cb += w4 * q1[ 5 ];
-               y2 += w4 * q1[ 6 ];
-               cr += w4 * q1[ 7 ];
-
-               dest[ 0 ] = ( y1 + 0x8000 ) >> 16;
-               dest[ 1 ] = ( cb + 0x8000 ) >> 16;
-               dest[ 2 ] = ( y2 + 0x8000 ) >> 16;
-               dest[ 3 ] = ( cr + 0x8000 ) >> 16;
-
-               dest += 4;
                x += x_step;
+               dest_x++;
        }
 
        return dest;
@@ -260,8 +241,9 @@ process_pixel ( int *weights, int n_x, int n_y,
                 guchar **src, int src_channels,
                 int x_start, int src_width )
 {
-       unsigned int y1 = 0, cb = 0, y2 = 0, cr = 0;
-       int i, j;
+       register unsigned int y = 0, uv = 0;
+       register int i, j;
+       int uv_index = ( ( dest_x & 1 ) << 1 ) + 1;
 
        for ( i = 0; i < n_y; i++ )
        {
@@ -269,29 +251,28 @@ process_pixel ( int *weights, int n_x, int n_y,
 
                for ( j = 0; j < n_x; j++ )
                {
-                       unsigned int ta;
-                       guchar *q;
+                       unsigned int ta = 0xff * line_weights[ j ];
 
                        if ( x_start + j < 0 )
-                               q = src[ i ];
+                       {
+                               y  += ta * src[ i ][ 0 ];
+                               uv += ta * src[ i ][ uv_index ];
+                       }
                        else if ( x_start + j < src_width )
-                               q = src[ i ] + ( x_start + j ) * src_channels;
+                       {
+                               y  += ta * src[ i ][ ( x_start + j ) << 1 ];
+                               uv += ta * src[ i ][ ( ( ( x_start + j ) >> 1 ) << 2) + uv_index ];
+                       }
                        else
-                               q = src[ i ] + ( src_width - 1 ) * src_channels;
-
-                       ta = 0xff * line_weights[ j ];
-
-                       y1 += ta * q[ 0 ];
-                       cb += ta * q[ 1 ];
-                       y2 += ta * q[ 2 ];
-                       cr += ta * q[ 3 ];
+                       {
+                               y  += ta * src[ i ][ ( src_width - 1 ) << 1 ];
+                               uv += ta * src[ i ][ ( ( ( src_width - 1 ) >> 1 ) << 2) + uv_index ];
+                       }
                }
        }
 
-       dest[ 0 ] = ( y1 + 0xffffff ) >> 24;
-       dest[ 1 ] = ( cb + 0xffffff ) >> 24;
-       dest[ 2 ] = ( y2 + 0xffffff ) >> 24;
-       dest[ 3 ] = ( cr + 0xffffff ) >> 24;
+       *dest++ = ( y  + 0xffffff ) >> 24;
+       *dest++ = ( uv + 0xffffff ) >> 24;
 }
 
 
@@ -749,13 +730,12 @@ yuv422_scale ( guchar *dest_buf,
                                       dest_rowstride,
                                       src_buf, src_width, src_height, src_rowstride,
                                       scale_x, scale_y );
-               return ;
+               return;
        }
 
        filter.overall_alpha = 1.0;
        make_weights ( &filter, interp_type, scale_x, scale_y );
 
-fprintf( stderr, "RESCALE: %d %d\n", filter.x.n, filter.y.n );
        if ( filter.x.n == 2 && filter.y.n == 2 )
        {
 #ifdef USE_MMX