ref: 68041990735f3d731d41e94eb1142bd257cd5cf8
parent: 1d0db7134ed4b00c97009edda01b74e6fa062e8f
parent: 305be4e4179214c58796de91e86badadbca29451
author: John Koleszar <jkoleszar@google.com>
date: Mon Sep 27 20:05:05 EDT 2010
Merge remote branch 'internal/upstream' into HEAD
--- a/build/make/configure.sh
+++ b/build/make/configure.sh
@@ -567,13 +567,13 @@
# Handle darwin variants
case ${toolchain} in
- *-darwin8-gcc)
+ *-darwin8-*)
add_cflags "-isysroot /Developer/SDKs/MacOSX10.4u.sdk"
add_cflags "-mmacosx-version-min=10.4"
add_ldflags "-isysroot /Developer/SDKs/MacOSX10.4u.sdk"
add_ldflags "-mmacosx-version-min=10.4"
;;
- *-darwin9-gcc)
+ *-darwin9-*)
add_cflags "-isysroot /Developer/SDKs/MacOSX10.5.sdk"
add_cflags "-mmacosx-version-min=10.5"
add_ldflags "-isysroot /Developer/SDKs/MacOSX10.5.sdk"
--- a/vp8/common/arm/armv6/sixtappredict8x4_v6.asm
+++ b/vp8/common/arm/armv6/sixtappredict8x4_v6.asm
@@ -25,10 +25,10 @@
;and the result is stored in transpose.
|vp8_sixtap_predict8x4_armv6| PROC
stmdb sp!, {r4 - r11, lr}
- sub sp, sp, #184 ;reserve space on stack for temporary storage: 20x(8+1) +4
+ str r3, [sp, #-184]! ;reserve space on stack for temporary storage, store yoffset
cmp r2, #0 ;skip first_pass filter if xoffset=0
- str r3, [sp], #4 ;store yoffset
+ add lr, sp, #4 ;point to temporary buffer
beq skip_firstpass_filter
;first-pass filter
@@ -45,7 +45,6 @@
mov r2, #0x90000 ; height=9 is top part of counter
sub r1, r1, #8
- mov lr, #20
|first_pass_hloop_v6|
ldrb r6, [r0, #-5] ; load source data
@@ -83,10 +82,10 @@
tst r2, #0xff ; test loop counter
usat r11, #8, r11, asr #7
add r12, r12, #0x40
- strh r11, [sp], lr ; result is transposed and stored, which
+ strh r11, [lr], #20 ; result is transposed and stored, which
usat r12, #8, r12, asr #7
- strh r12, [sp], lr
+ strh r12, [lr], #20
movne r11, r6
movne r12, r7
@@ -107,8 +106,7 @@
subs r2, r2, #0x10000
- mov r6, #158
- sub sp, sp, r6
+ sub lr, lr, #158
add r0, r0, r1 ; move to next input line
@@ -116,10 +114,7 @@
;second pass filter
secondpass_filter
- mov r1, #18
- sub sp, sp, r1 ; 18+4
-
- ldr r3, [sp, #-4] ; load back yoffset
+ ldr r3, [sp], #4 ; load back yoffset
ldr r0, [sp, #216] ; load dst address from stack 180+36
ldr r1, [sp, #220] ; load dst stride from stack 180+40
@@ -192,30 +187,28 @@
sub r0, r0, r1, lsl #1
sub r1, r1, #8
mov r2, #9
- mov r3, #20
skip_firstpass_hloop
ldrb r4, [r0], #1 ; load data
subs r2, r2, #1
ldrb r5, [r0], #1
- strh r4, [sp], r3 ; store it to immediate buffer
+ strh r4, [lr], #20 ; store it to immediate buffer
ldrb r6, [r0], #1 ; load data
- strh r5, [sp], r3
+ strh r5, [lr], #20
ldrb r7, [r0], #1
- strh r6, [sp], r3
+ strh r6, [lr], #20
ldrb r8, [r0], #1
- strh r7, [sp], r3
+ strh r7, [lr], #20
ldrb r9, [r0], #1
- strh r8, [sp], r3
+ strh r8, [lr], #20
ldrb r10, [r0], #1
- strh r9, [sp], r3
+ strh r9, [lr], #20
ldrb r11, [r0], #1
- strh r10, [sp], r3
+ strh r10, [lr], #20
add r0, r0, r1 ; move to next input line
- strh r11, [sp], r3
+ strh r11, [lr], #20
- mov r4, #158
- sub sp, sp, r4 ; move over to next column
+ sub lr, lr, #158 ; move over to next column
bne skip_firstpass_hloop
b secondpass_filter
--- a/vp8/common/arm/neon/loopfilterhorizontaledge_uv_neon.asm
+++ b/vp8/common/arm/neon/loopfilterhorizontaledge_uv_neon.asm
@@ -55,8 +55,7 @@
vld1.s8 {d4[], d5[]}, [r12] ; thresh
ldr r12, _lfhuv_coeff_
- ;vp8_filter_mask() function
- ;vp8_hevmask() function
+ ; vp8_filter_mask
vabd.u8 q11, q3, q4 ; abs(p3 - p2)
vabd.u8 q12, q4, q5 ; abs(p2 - p1)
vabd.u8 q13, q5, q6 ; abs(p1 - p0)
@@ -65,23 +64,20 @@
vabd.u8 q4, q10, q9 ; abs(q3 - q2)
vabd.u8 q9, q6, q7 ; abs(p0 - q0)
- vcge.u8 q15, q1, q11 ; (abs(p3 - p2) > limit)*-1
- vcge.u8 q12, q1, q12 ; (abs(p2 - p1) > limit)*-1
- vcge.u8 q10, q1, q13 ; (abs(p1 - p0) > limit)*-1
- vcge.u8 q11, q1, q14 ; (abs(q1 - q0) > limit)*-1
+ vmax.u8 q11, q11, q12
+ vmax.u8 q12, q13, q14
+ vmax.u8 q3, q3, q4
+ vmax.u8 q15, q11, q12
+ ; vp8_hevmask
vcgt.u8 q13, q13, q2 ; (abs(p1 - p0) > thresh)*-1
vcgt.u8 q14, q14, q2 ; (abs(q1 - q0) > thresh)*-1
+ vmax.u8 q15, q15, q3
- vcge.u8 q3, q1, q3 ; (abs(q2 - q1) > limit)*-1
- vcge.u8 q4, q1, q4 ; (abs(q3 - q2) > limit)*-1
vadd.u8 q0, q0, q0 ; flimit * 2
vadd.u8 q0, q0, q1 ; flimit * 2 + limit
+ vcge.u8 q15, q1, q15 ; (max > limit) * -1
- vand q15, q15, q12
- vand q10, q10, q11
- vand q3, q3, q4
-
vabd.u8 q2, q5, q8 ; abs(p1 - q1)
vqadd.u8 q9, q9, q9 ; abs(p0 - q0) * 2
vshr.u8 q2, q2, #1 ; abs(p1 - q1) / 2
@@ -90,8 +86,6 @@
vld1.u8 {q0}, [r12]!
- vand q15, q15, q10
-
;vp8_filter() function
veor q7, q7, q0 ; qs0: q0 offset to convert to a signed value
veor q6, q6, q0 ; ps0: p0 offset to convert to a signed value
@@ -100,26 +94,20 @@
;;;;;;;;;;;;;;
vld1.u8 {q10}, [r12]!
- ;vqsub.s8 q2, q7, q6 ; ( qs0 - ps0)
vsubl.s8 q2, d14, d12 ; ( qs0 - ps0)
vsubl.s8 q11, d15, d13
- vand q3, q3, q9
vmovl.u8 q4, d20
vqsub.s8 q1, q5, q8 ; vp8_filter = vp8_signed_char_clamp(ps1-qs1)
vorr q14, q13, q14 ; q14: vp8_hevmask
- ;vmul.i8 q2, q2, q10 ; 3 * ( qs0 - ps0)
vmul.i16 q2, q2, q4 ; 3 * ( qs0 - ps0)
vmul.i16 q11, q11, q4
vand q1, q1, q14 ; vp8_filter &= hev
- vand q15, q15, q3 ; q15: vp8_filter_mask
- ;;
- ;vld1.u8 {q4}, [r12]! ;no need 7 any more
+ vand q15, q15, q9 ; vp8_filter_mask
- ;vqadd.s8 q1, q1, q2
vaddw.s8 q2, q2, d2
vaddw.s8 q11, q11, d3
@@ -130,21 +118,6 @@
;;
vand q1, q1, q15 ; vp8_filter &= mask
- ;;
-;;;;;;;;;;;;
-
-;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;Change for VP8 from VP7
-; vand q2, q1, q4 ; s = vp8_filter & 7
-; vqadd.s8 q1, q1, q9 ; vp8_filter = vp8_signed_char_clamp(vp8_filter+4)
- ;;;;
-; vshr.s8 q1, q1, #3 ; vp8_filter >>= 3
-; vceq.i8 q2, q2, q9 ; s = (s==4)*-1
- ;;
-; ;calculate output
-; vqsub.s8 q10, q7, q1 ; u = vp8_signed_char_clamp(qs0 - vp8_filter)
-; vqadd.s8 q11, q2, q1 ; u = vp8_signed_char_clamp(s + vp8_filter)
-;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;
-;; q10=3
vqadd.s8 q2, q1, q10 ; Filter2 = vp8_signed_char_clamp(vp8_filter+3)
vqadd.s8 q1, q1, q9 ; Filter1 = vp8_signed_char_clamp(vp8_filter+4)
vshr.s8 q2, q2, #3 ; Filter2 >>= 3
@@ -168,7 +141,6 @@
;;
vqadd.s8 q13, q5, q1 ; u = vp8_signed_char_clamp(ps1 + vp8_filter)
- ;vqadd.s8 q11, q6, q11 ; u = vp8_signed_char_clamp(ps0 + u)
vqsub.s8 q12, q8, q1 ; u = vp8_signed_char_clamp(qs1 - vp8_filter)
;
--- a/vp8/common/arm/neon/loopfilterhorizontaledge_y_neon.asm
+++ b/vp8/common/arm/neon/loopfilterhorizontaledge_y_neon.asm
@@ -39,8 +39,7 @@
ldr r12, _lfhy_coeff_
vld1.u8 {q7}, [r0], r1 ; q0
- ;vp8_filter_mask() function
- ;vp8_hevmask() function
+ ; vp8_filter_mask
vabd.u8 q11, q3, q4 ; abs(p3 - p2)
vld1.u8 {q8}, [r0], r1 ; q1
vabd.u8 q12, q4, q5 ; abs(p2 - p1)
@@ -52,23 +51,20 @@
vabd.u8 q4, q10, q9 ; abs(q3 - q2)
vabd.u8 q9, q6, q7 ; abs(p0 - q0)
- vcge.u8 q15, q1, q11 ; (abs(p3 - p2) > limit)*-1
- vcge.u8 q12, q1, q12 ; (abs(p2 - p1) > limit)*-1
- vcge.u8 q10, q1, q13 ; (abs(p1 - p0) > limit)*-1
- vcge.u8 q11, q1, q14 ; (abs(q1 - q0) > limit)*-1
+ vmax.u8 q11, q11, q12
+ vmax.u8 q12, q13, q14
+ vmax.u8 q3, q3, q4
+ vmax.u8 q15, q11, q12
+ ; vp8_hevmask
vcgt.u8 q13, q13, q2 ; (abs(p1 - p0) > thresh)*-1
vcgt.u8 q14, q14, q2 ; (abs(q1 - q0) > thresh)*-1
+ vmax.u8 q15, q15, q3
- vcge.u8 q3, q1, q3 ; (abs(q2 - q1) > limit)*-1
- vcge.u8 q4, q1, q4 ; (abs(q3 - q2) > limit)*-1
vadd.u8 q0, q0, q0 ; flimit * 2
vadd.u8 q0, q0, q1 ; flimit * 2 + limit
+ vcge.u8 q15, q1, q15
- vand q15, q15, q12
- vand q10, q10, q11
- vand q3, q3, q4
-
vabd.u8 q2, q5, q8 ; abs(p1 - q1)
vqadd.u8 q9, q9, q9 ; abs(p0 - q0) * 2
vshr.u8 q2, q2, #1 ; abs(p1 - q1) / 2
@@ -77,8 +73,6 @@
vld1.u8 {q0}, [r12]!
- vand q15, q15, q10
-
;vp8_filter() function
veor q7, q7, q0 ; qs0: q0 offset to convert to a signed value
veor q6, q6, q0 ; ps0: p0 offset to convert to a signed value
@@ -87,26 +81,20 @@
;;;;;;;;;;;;;;
vld1.u8 {q10}, [r12]!
- ;vqsub.s8 q2, q7, q6 ; ( qs0 - ps0)
vsubl.s8 q2, d14, d12 ; ( qs0 - ps0)
vsubl.s8 q11, d15, d13
- vand q3, q3, q9
vmovl.u8 q4, d20
vqsub.s8 q1, q5, q8 ; vp8_filter = vp8_signed_char_clamp(ps1-qs1)
vorr q14, q13, q14 ; q14: vp8_hevmask
- ;vmul.i8 q2, q2, q10 ; 3 * ( qs0 - ps0)
vmul.i16 q2, q2, q4 ; 3 * ( qs0 - ps0)
vmul.i16 q11, q11, q4
vand q1, q1, q14 ; vp8_filter &= hev
- vand q15, q15, q3 ; q15: vp8_filter_mask
- ;;
- ;vld1.u8 {q4}, [r12]! ;no need 7 any more
+ vand q15, q15, q9 ; vp8_filter_mask
- ;vqadd.s8 q1, q1, q2
vaddw.s8 q2, q2, d2
vaddw.s8 q11, q11, d3
@@ -117,21 +105,6 @@
;;
vand q1, q1, q15 ; vp8_filter &= mask
- ;;
-;;;;;;;;;;;;
-
-;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;Change for VP8 from VP7
-; vand q2, q1, q4 ; s = vp8_filter & 7
-; vqadd.s8 q1, q1, q9 ; vp8_filter = vp8_signed_char_clamp(vp8_filter+4)
- ;;;;
-; vshr.s8 q1, q1, #3 ; vp8_filter >>= 3
-; vceq.i8 q2, q2, q9 ; s = (s==4)*-1
- ;;
-; ;calculate output
-; vqsub.s8 q10, q7, q1 ; u = vp8_signed_char_clamp(qs0 - vp8_filter)
-; vqadd.s8 q11, q2, q1 ; u = vp8_signed_char_clamp(s + vp8_filter)
-;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;
-;; q10=3
vqadd.s8 q2, q1, q10 ; Filter2 = vp8_signed_char_clamp(vp8_filter+3)
vqadd.s8 q1, q1, q9 ; Filter1 = vp8_signed_char_clamp(vp8_filter+4)
vshr.s8 q2, q2, #3 ; Filter2 >>= 3
@@ -153,7 +126,6 @@
add r2, r1, r0
vqadd.s8 q13, q5, q1 ; u = vp8_signed_char_clamp(ps1 + vp8_filter)
- ;vqadd.s8 q11, q6, q11 ; u = vp8_signed_char_clamp(ps0 + u)
vqsub.s8 q12, q8, q1 ; u = vp8_signed_char_clamp(qs1 - vp8_filter)
add r3, r2, r1
--- a/vp8/common/arm/neon/loopfilterverticaledge_uv_neon.asm
+++ b/vp8/common/arm/neon/loopfilterverticaledge_uv_neon.asm
@@ -71,8 +71,7 @@
vld1.s8 {d4[], d5[]}, [r12] ; thresh
ldr r12, _vlfuv_coeff_
- ;vp8_filter_mask() function
- ;vp8_hevmask() function
+ ; vp8_filter_mask
vabd.u8 q11, q3, q4 ; abs(p3 - p2)
vabd.u8 q12, q4, q5 ; abs(p2 - p1)
vabd.u8 q13, q5, q6 ; abs(p1 - p0)
@@ -81,23 +80,20 @@
vabd.u8 q4, q10, q9 ; abs(q3 - q2)
vabd.u8 q9, q6, q7 ; abs(p0 - q0)
- vcge.u8 q15, q1, q11 ; (abs(p3 - p2) > limit)*-1
- vcge.u8 q12, q1, q12 ; (abs(p2 - p1) > limit)*-1
- vcge.u8 q10, q1, q13 ; (abs(p1 - p0) > limit)*-1
- vcge.u8 q11, q1, q14 ; (abs(q1 - q0) > limit)*-1
+ vmax.u8 q11, q11, q12
+ vmax.u8 q12, q13, q14
+ vmax.u8 q3, q3, q4
+ vmax.u8 q15, q11, q12
+ ; vp8_hevmask
vcgt.u8 q13, q13, q2 ; (abs(p1 - p0) > thresh)*-1
vcgt.u8 q14, q14, q2 ; (abs(q1 - q0) > thresh)*-1
+ vmax.u8 q15, q15, q3
- vcge.u8 q3, q1, q3 ; (abs(q2 - q1) > limit)*-1
- vcge.u8 q4, q1, q4 ; (abs(q3 - q2) > limit)*-1
vadd.u8 q0, q0, q0 ; flimit * 2
vadd.u8 q0, q0, q1 ; flimit * 2 + limit
+ vcge.u8 q15, q1, q15
- vand q15, q15, q12
- vand q10, q10, q11
- vand q3, q3, q4
-
vabd.u8 q2, q5, q8 ; abs(p1 - q1)
vqadd.u8 q9, q9, q9 ; abs(p0 - q0) * 2
vshr.u8 q2, q2, #1 ; abs(p1 - q1) / 2
@@ -106,9 +102,6 @@
vld1.u8 {q0}, [r12]!
- vand q15, q15, q10
-
-
;vp8_filter() function
veor q7, q7, q0 ; qs0: q0 offset to convert to a signed value
veor q6, q6, q0 ; ps0: p0 offset to convert to a signed value
@@ -117,26 +110,20 @@
;;;;;;;;;;;;;;
vld1.u8 {q10}, [r12]!
- ;vqsub.s8 q2, q7, q6 ; ( qs0 - ps0)
vsubl.s8 q2, d14, d12 ; ( qs0 - ps0)
vsubl.s8 q11, d15, d13
- vand q3, q3, q9
vmovl.u8 q4, d20
vqsub.s8 q1, q5, q8 ; vp8_filter = vp8_signed_char_clamp(ps1-qs1)
vorr q14, q13, q14 ; q14: vp8_hevmask
- ;vmul.i8 q2, q2, q10 ; 3 * ( qs0 - ps0)
vmul.i16 q2, q2, q4 ; 3 * ( qs0 - ps0)
vmul.i16 q11, q11, q4
vand q1, q1, q14 ; vp8_filter &= hev
- vand q15, q15, q3 ; q15: vp8_filter_mask
- ;;
- ;vld1.u8 {q4}, [r12]! ;no need 7 any more
+ vand q15, q15, q9 ; vp8_filter_mask
- ;vqadd.s8 q1, q1, q2
vaddw.s8 q2, q2, d2
vaddw.s8 q11, q11, d3
@@ -147,21 +134,6 @@
;;
vand q1, q1, q15 ; vp8_filter &= mask
- ;;
-;;;;;;;;;;;;
-
-;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;Change for VP8 from VP7
-; vand q2, q1, q4 ; s = vp8_filter & 7
-; vqadd.s8 q1, q1, q9 ; vp8_filter = vp8_signed_char_clamp(vp8_filter+4)
- ;;;;
-; vshr.s8 q1, q1, #3 ; vp8_filter >>= 3
-; vceq.i8 q2, q2, q9 ; s = (s==4)*-1
- ;;
-; ;calculate output
-; vqsub.s8 q10, q7, q1 ; u = vp8_signed_char_clamp(qs0 - vp8_filter)
-; vqadd.s8 q11, q2, q1 ; u = vp8_signed_char_clamp(s + vp8_filter)
-;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;
-;; q10=3
vqadd.s8 q2, q1, q10 ; Filter2 = vp8_signed_char_clamp(vp8_filter+3)
vqadd.s8 q1, q1, q9 ; Filter1 = vp8_signed_char_clamp(vp8_filter+4)
vshr.s8 q2, q2, #3 ; Filter2 >>= 3
@@ -182,7 +154,6 @@
add r2, r2, #2
vqadd.s8 q13, q5, q1 ; u = vp8_signed_char_clamp(ps1 + vp8_filter)
- ;vqadd.s8 q11, q6, q11 ; u = vp8_signed_char_clamp(ps0 + u)
vqsub.s8 q12, q8, q1 ; u = vp8_signed_char_clamp(qs1 - vp8_filter)
veor q7, q10, q0 ; *oq0 = u^0x80
--- a/vp8/common/arm/neon/loopfilterverticaledge_y_neon.asm
+++ b/vp8/common/arm/neon/loopfilterverticaledge_y_neon.asm
@@ -67,8 +67,7 @@
vtrn.8 q7, q8
vtrn.8 q9, q10
- ;vp8_filter_mask() function
- ;vp8_hevmask() function
+ ; vp8_filter_mask
vabd.u8 q11, q3, q4 ; abs(p3 - p2)
vabd.u8 q12, q4, q5 ; abs(p2 - p1)
vabd.u8 q13, q5, q6 ; abs(p1 - p0)
@@ -77,23 +76,20 @@
vabd.u8 q4, q10, q9 ; abs(q3 - q2)
vabd.u8 q9, q6, q7 ; abs(p0 - q0)
- vcge.u8 q15, q1, q11 ; (abs(p3 - p2) > limit)*-1
- vcge.u8 q12, q1, q12 ; (abs(p2 - p1) > limit)*-1
- vcge.u8 q10, q1, q13 ; (abs(p1 - p0) > limit)*-1
- vcge.u8 q11, q1, q14 ; (abs(q1 - q0) > limit)*-1
+ vmax.u8 q11, q11, q12
+ vmax.u8 q12, q13, q14
+ vmax.u8 q3, q3, q4
+ vmax.u8 q15, q11, q12
+ ; vp8_hevmask
vcgt.u8 q13, q13, q2 ; (abs(p1 - p0) > thresh)*-1
vcgt.u8 q14, q14, q2 ; (abs(q1 - q0) > thresh)*-1
+ vmax.u8 q15, q15, q3
- vcge.u8 q3, q1, q3 ; (abs(q2 - q1) > limit)*-1
- vcge.u8 q4, q1, q4 ; (abs(q3 - q2) > limit)*-1
vadd.u8 q0, q0, q0 ; flimit * 2
vadd.u8 q0, q0, q1 ; flimit * 2 + limit
+ vcge.u8 q15, q1, q15
- vand q15, q15, q12
- vand q10, q10, q11
- vand q3, q3, q4
-
vabd.u8 q2, q5, q8 ; abs(p1 - q1)
vqadd.u8 q9, q9, q9 ; abs(p0 - q0) * 2
vshr.u8 q2, q2, #1 ; abs(p1 - q1) / 2
@@ -102,9 +98,6 @@
vld1.u8 {q0}, [r12]!
- vand q15, q15, q10
-
-
;vp8_filter() function
veor q7, q7, q0 ; qs0: q0 offset to convert to a signed value
veor q6, q6, q0 ; ps0: p0 offset to convert to a signed value
@@ -113,26 +106,20 @@
;;;;;;;;;;;;;;
vld1.u8 {q10}, [r12]!
- ;vqsub.s8 q2, q7, q6 ; ( qs0 - ps0)
vsubl.s8 q2, d14, d12 ; ( qs0 - ps0)
vsubl.s8 q11, d15, d13
- vand q3, q3, q9
vmovl.u8 q4, d20
vqsub.s8 q1, q5, q8 ; vp8_filter = vp8_signed_char_clamp(ps1-qs1)
vorr q14, q13, q14 ; q14: vp8_hevmask
- ;vmul.i8 q2, q2, q10 ; 3 * ( qs0 - ps0)
vmul.i16 q2, q2, q4 ; 3 * ( qs0 - ps0)
vmul.i16 q11, q11, q4
vand q1, q1, q14 ; vp8_filter &= hev
- vand q15, q15, q3 ; q15: vp8_filter_mask
- ;;
- ;vld1.u8 {q4}, [r12]! ;no need 7 any more
+ vand q15, q15, q9 ; vp8_filter_mask
- ;vqadd.s8 q1, q1, q2
vaddw.s8 q2, q2, d2
vaddw.s8 q11, q11, d3
@@ -143,21 +130,6 @@
;;
vand q1, q1, q15 ; vp8_filter &= mask
- ;;
-;;;;;;;;;;;;
-
-;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;Change for VP8 from VP7
-; vand q2, q1, q4 ; s = vp8_filter & 7
-; vqadd.s8 q1, q1, q9 ; vp8_filter = vp8_signed_char_clamp(vp8_filter+4)
- ;;;;
-; vshr.s8 q1, q1, #3 ; vp8_filter >>= 3
-; vceq.i8 q2, q2, q9 ; s = (s==4)*-1
- ;;
-; ;calculate output
-; vqsub.s8 q10, q7, q1 ; u = vp8_signed_char_clamp(qs0 - vp8_filter)
-; vqadd.s8 q11, q2, q1 ; u = vp8_signed_char_clamp(s + vp8_filter)
-;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;
-;; q10=3
vqadd.s8 q2, q1, q10 ; Filter2 = vp8_signed_char_clamp(vp8_filter+3)
vqadd.s8 q1, q1, q9 ; Filter1 = vp8_signed_char_clamp(vp8_filter+4)
vshr.s8 q2, q2, #3 ; Filter2 >>= 3
@@ -178,7 +150,6 @@
;
vqadd.s8 q13, q5, q1 ; u = vp8_signed_char_clamp(ps1 + vp8_filter)
- ;vqadd.s8 q11, q6, q11 ; u = vp8_signed_char_clamp(ps0 + u)
vqsub.s8 q12, q8, q1 ; u = vp8_signed_char_clamp(qs1 - vp8_filter)
veor q7, q10, q0 ; *oq0 = u^0x80
--- a/vp8/common/arm/neon/mbloopfilterhorizontaledge_uv_neon.asm
+++ b/vp8/common/arm/neon/mbloopfilterhorizontaledge_uv_neon.asm
@@ -52,8 +52,7 @@
ldr r12, _mbhlfuv_coeff_
- ;vp8_filter_mask() function
- ;vp8_hevmask() function
+ ; vp8_filter_mask
vabd.u8 q11, q3, q4 ; abs(p3 - p2)
vabd.u8 q12, q4, q5 ; abs(p2 - p1)
vabd.u8 q13, q5, q6 ; abs(p1 - p0)
@@ -61,29 +60,25 @@
vabd.u8 q3, q9, q8 ; abs(q2 - q1)
vabd.u8 q0, q10, q9 ; abs(q3 - q2)
- vcge.u8 q15, q1, q11 ; (abs(p3 - p2) > limit)*-1
- vcge.u8 q12, q1, q12 ; (abs(p2 - p1) > limit)*-1
- vcge.u8 q10, q1, q13 ; (abs(p1 - p0) > limit)*-1
- vcge.u8 q11, q1, q14 ; (abs(q1 - q0) > limit)*-1
- vcge.u8 q3, q1, q3 ; (abs(q2 - q1) > limit)*-1
- vcge.u8 q0, q1, q0 ; (abs(q3 - q2) > limit)*-1
+ vmax.u8 q11, q11, q12
+ vmax.u8 q12, q13, q14
+ vmax.u8 q3, q3, q0
+ vmax.u8 q15, q11, q12
- vand q15, q15, q12
-
vabd.u8 q12, q6, q7 ; abs(p0 - q0)
+ ; vp8_hevmask
vcgt.u8 q13, q13, q2 ; (abs(p1 - p0) > thresh)*-1
vcgt.u8 q14, q14, q2 ; (abs(q1 - q0) > thresh)*-1
+ vmax.u8 q15, q15, q3
vld1.s8 {d4[], d5[]}, [r2] ; flimit
- vand q10, q10, q11
- vand q3, q3, q0
-
vld1.u8 {q0}, [r12]!
vadd.u8 q2, q2, q2 ; flimit * 2
vadd.u8 q2, q2, q1 ; flimit * 2 + limit
+ vcge.u8 q15, q1, q15
vabd.u8 q1, q5, q8 ; abs(p1 - q1)
vqadd.u8 q12, q12, q12 ; abs(p0 - q0) * 2
@@ -91,8 +86,6 @@
vqadd.u8 q12, q12, q1 ; abs(p0 - q0) * 2 + abs(p1 - q1) / 2
vcge.u8 q12, q2, q12 ; (abs(p0 - q0)*2 + abs(p1 - q1)/2 > flimit*2 + limit)*-1
- vand q15, q15, q10
-
;vp8_filter() function
veor q7, q7, q0 ; qs0: q0 offset to convert to a signed value
veor q6, q6, q0 ; ps0: p0 offset to convert to a signed value
@@ -103,29 +96,23 @@
;;;;;;;;;;;;;
vorr q14, q13, q14 ; q14: vp8_hevmask
- ;vqsub.s8 q2, q7, q6 ; ( qs0 - ps0)
vsubl.s8 q2, d14, d12 ; ( qs0 - ps0)
vsubl.s8 q13, d15, d13
vqsub.s8 q1, q5, q8 ; vp8_filter = vp8_signed_char_clamp(ps1-qs1)
- ;vadd.s8 q10, q2, q2 ; 3 * ( qs0 - ps0)
vadd.s16 q10, q2, q2 ; 3 * ( qs0 - ps0)
vadd.s16 q11, q13, q13
+ vand q15, q15, q12 ; vp8_filter_mask
- vand q3, q3, q12
-
- ;vadd.s8 q2, q2, q10
vadd.s16 q2, q2, q10
vadd.s16 q13, q13, q11
vld1.u8 {q12}, [r12]! ;#3
- ;vqadd.s8 q1, q1, q2 ; vp8_filter + 3 * ( qs0 - ps0)
vaddw.s8 q2, q2, d2 ; vp8_filter + 3 * ( qs0 - ps0)
vaddw.s8 q13, q13, d3
- vand q15, q15, q3 ; q15: vp8_filter_mask
vld1.u8 {q11}, [r12]! ;#4
vqmovn.s16 d2, q2 ; vp8_filter = vp8_signed_char_clamp(vp8_filter + 3 * ( qs0 - ps0))
@@ -139,32 +126,7 @@
vand q13, q1, q14 ; Filter2: q13; Filter2 &= hev
vld1.u8 {d7}, [r12]! ;#9
- ;
-;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;Change for VP8 from VP7
-; vand q2, q13, q12 ; s = Filter2 & 7
-
-; vqadd.s8 q13, q13, q11 ; Filter2 = vp8_signed_char_clamp(Filter2+4)
-; vld1.u8 {d6}, [r12]! ;#18
-
-; sub r0, r0, r1, lsl #3
-; sub r3, r3, r1, lsl #3
-
-; vshr.s8 q13, q13, #3 ; Filter2 >>= 3
-; vceq.i8 q2, q2, q11 ; s = (s==4)*-1
-
-; add r0, r0, r1
-; add r3, r3, r1
-
-; vqsub.s8 q7, q7, q13 ; qs0 = vp8_signed_char_clamp(qs0 - Filter2)
-; vqadd.s8 q11, q2, q13 ; u = vp8_signed_char_clamp(s + Filter2)
-
-; vld1.u8 {d5}, [r12]! ;#27
-; vmov q10, q15
-; vmov q12, q15
-
-; vqadd.s8 q6, q6, q11 ; ps0 = vp8_signed_char_clamp(ps0 + u)
-;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;
vqadd.s8 q2, q13, q11 ; Filter1 = vp8_signed_char_clamp(Filter2+4)
vqadd.s8 q13, q13, q12 ; Filter2 = vp8_signed_char_clamp(Filter2+3)
--- a/vp8/common/arm/neon/mbloopfilterhorizontaledge_y_neon.asm
+++ b/vp8/common/arm/neon/mbloopfilterhorizontaledge_y_neon.asm
@@ -36,8 +36,7 @@
ldr r12, _mbhlfy_coeff_
vld1.u8 {q6}, [r0], r1 ; p0
- ;vp8_filter_mask() function
- ;vp8_hevmask() function
+ ; vp8_filter_mask
vabd.u8 q11, q3, q4 ; abs(p3 - p2)
vld1.u8 {q7}, [r0], r1 ; q0
vabd.u8 q12, q4, q5 ; abs(p2 - p1)
@@ -49,29 +48,25 @@
vabd.u8 q3, q9, q8 ; abs(q2 - q1)
vabd.u8 q0, q10, q9 ; abs(q3 - q2)
- vcge.u8 q15, q1, q11 ; (abs(p3 - p2) > limit)*-1
- vcge.u8 q12, q1, q12 ; (abs(p2 - p1) > limit)*-1
- vcge.u8 q10, q1, q13 ; (abs(p1 - p0) > limit)*-1
- vcge.u8 q11, q1, q14 ; (abs(q1 - q0) > limit)*-1
- vcge.u8 q3, q1, q3 ; (abs(q2 - q1) > limit)*-1
- vcge.u8 q0, q1, q0 ; (abs(q3 - q2) > limit)*-1
+ vmax.u8 q11, q11, q12
+ vmax.u8 q12, q13, q14
+ vmax.u8 q3, q3, q0
+ vmax.u8 q15, q11, q12
- vand q15, q15, q12
-
vabd.u8 q12, q6, q7 ; abs(p0 - q0)
+ ; vp8_hevmask
vcgt.u8 q13, q13, q2 ; (abs(p1 - p0) > thresh)*-1
vcgt.u8 q14, q14, q2 ; (abs(q1 - q0) > thresh)*-1
+ vmax.u8 q15, q15, q3
vld1.s8 {d4[], d5[]}, [r2] ; flimit
- vand q10, q10, q11
- vand q3, q3, q0
-
vld1.u8 {q0}, [r12]!
vadd.u8 q2, q2, q2 ; flimit * 2
vadd.u8 q2, q2, q1 ; flimit * 2 + limit
+ vcge.u8 q15, q1, q15
vabd.u8 q1, q5, q8 ; abs(p1 - q1)
vqadd.u8 q12, q12, q12 ; abs(p0 - q0) * 2
@@ -79,8 +74,6 @@
vqadd.u8 q12, q12, q1 ; abs(p0 - q0) * 2 + abs(p1 - q1) / 2
vcge.u8 q12, q2, q12 ; (abs(p0 - q0)*2 + abs(p1 - q1)/2 > flimit*2 + limit)*-1
- vand q15, q15, q10
-
;vp8_filter() function
veor q7, q7, q0 ; qs0: q0 offset to convert to a signed value
veor q6, q6, q0 ; ps0: p0 offset to convert to a signed value
@@ -91,29 +84,23 @@
;;;;;;;;;;;;;
vorr q14, q13, q14 ; q14: vp8_hevmask
- ;vqsub.s8 q2, q7, q6 ; ( qs0 - ps0)
vsubl.s8 q2, d14, d12 ; ( qs0 - ps0)
vsubl.s8 q13, d15, d13
vqsub.s8 q1, q5, q8 ; vp8_filter = vp8_signed_char_clamp(ps1-qs1)
- ;vadd.s8 q10, q2, q2 ; 3 * ( qs0 - ps0)
vadd.s16 q10, q2, q2 ; 3 * ( qs0 - ps0)
vadd.s16 q11, q13, q13
+ vand q15, q15, q12 ; vp8_filter_mask
- vand q3, q3, q12
-
- ;vadd.s8 q2, q2, q10
vadd.s16 q2, q2, q10
vadd.s16 q13, q13, q11
vld1.u8 {q12}, [r12]! ;#3
- ;vqadd.s8 q1, q1, q2 ; vp8_filter + 3 * ( qs0 - ps0)
vaddw.s8 q2, q2, d2 ; vp8_filter + 3 * ( qs0 - ps0)
vaddw.s8 q13, q13, d3
- vand q15, q15, q3 ; q15: vp8_filter_mask
vld1.u8 {q11}, [r12]! ;#4
vqmovn.s16 d2, q2 ; vp8_filter = vp8_signed_char_clamp(vp8_filter + 3 * ( qs0 - ps0))
@@ -129,29 +116,6 @@
vld1.u8 {d7}, [r12]! ;#9
sub r0, r0, r1, lsl #3
-;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;Change for VP8 from VP7
-; vand q2, q13, q12 ; s = Filter2 & 7
-
-; vqadd.s8 q13, q13, q11 ; Filter2 = vp8_signed_char_clamp(Filter2+4)
-; vld1.u8 {d6}, [r12]! ;#18
-
-; add r0, r0, r1
-; add r2, r0, r1
-
-; vshr.s8 q13, q13, #3 ; Filter2 >>= 3
-; vceq.i8 q2, q2, q11 ; s = (s==4)*-1
-
-; add r3, r2, r1
-
-; vqsub.s8 q7, q7, q13 ; qs0 = vp8_signed_char_clamp(qs0 - Filter2)
-; vqadd.s8 q11, q2, q13 ; u = vp8_signed_char_clamp(s + Filter2)
-
-; vld1.u8 {d5}, [r12]! ;#27
-; vmov q10, q15
-; vmov q12, q15
-
-; vqadd.s8 q6, q6, q11 ; ps0 = vp8_signed_char_clamp(ps0 + u)
-;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;
vqadd.s8 q2, q13, q11 ; Filter1 = vp8_signed_char_clamp(Filter2+4)
vqadd.s8 q13, q13, q12 ; Filter2 = vp8_signed_char_clamp(Filter2+3)
--- a/vp8/common/arm/neon/mbloopfilterverticaledge_uv_neon.asm
+++ b/vp8/common/arm/neon/mbloopfilterverticaledge_uv_neon.asm
@@ -71,8 +71,7 @@
ldr r12, _mbvlfuv_coeff_
vst1.u8 {q10}, [sp]!
- ;vp8_filter_mask() function
- ;vp8_hevmask() function
+ ; vp8_filter_mask
vabd.u8 q11, q3, q4 ; abs(p3 - p2)
vabd.u8 q12, q4, q5 ; abs(p2 - p1)
vabd.u8 q13, q5, q6 ; abs(p1 - p0)
@@ -80,29 +79,25 @@
vabd.u8 q3, q9, q8 ; abs(q2 - q1)
vabd.u8 q0, q10, q9 ; abs(q3 - q2)
- vcge.u8 q15, q1, q11 ; (abs(p3 - p2) > limit)*-1
- vcge.u8 q12, q1, q12 ; (abs(p2 - p1) > limit)*-1
- vcge.u8 q10, q1, q13 ; (abs(p1 - p0) > limit)*-1
- vcge.u8 q11, q1, q14 ; (abs(q1 - q0) > limit)*-1
- vcge.u8 q3, q1, q3 ; (abs(q2 - q1) > limit)*-1
- vcge.u8 q0, q1, q0 ; (abs(q3 - q2) > limit)*-1
+ vmax.u8 q11, q11, q12
+ vmax.u8 q12, q13, q14
+ vmax.u8 q3, q3, q0
+ vmax.u8 q15, q11, q12
- vand q15, q15, q12
-
vabd.u8 q12, q6, q7 ; abs(p0 - q0)
+ ; vp8_hevmask
vcgt.u8 q13, q13, q2 ; (abs(p1 - p0) > thresh)*-1
vcgt.u8 q14, q14, q2 ; (abs(q1 - q0) > thresh)*-1
+ vmax.u8 q15, q15, q3
vld1.s8 {d4[], d5[]}, [r2] ; flimit
- vand q10, q10, q11
- vand q3, q3, q0
-
vld1.u8 {q0}, [r12]!
vadd.u8 q2, q2, q2 ; flimit * 2
vadd.u8 q2, q2, q1 ; flimit * 2 + limit
+ vcge.u8 q15, q1, q15
vabd.u8 q1, q5, q8 ; abs(p1 - q1)
vqadd.u8 q12, q12, q12 ; abs(p0 - q0) * 2
@@ -110,8 +105,6 @@
vqadd.u8 q12, q12, q1 ; abs(p0 - q0) * 2 + abs(p1 - q1) / 2
vcge.u8 q12, q2, q12 ; (abs(p0 - q0)*2 + abs(p1 - q1)/2 > flimit*2 + limit)*-1
- vand q15, q15, q10
-
;vp8_filter() function
veor q7, q7, q0 ; qs0: q0 offset to convert to a signed value
veor q6, q6, q0 ; ps0: p0 offset to convert to a signed value
@@ -122,29 +115,23 @@
;;;;;;;;;;;;;
vorr q14, q13, q14 ; q14: vp8_hevmask
- ;vqsub.s8 q2, q7, q6 ; ( qs0 - ps0)
vsubl.s8 q2, d14, d12 ; ( qs0 - ps0)
vsubl.s8 q13, d15, d13
vqsub.s8 q1, q5, q8 ; vp8_filter = vp8_signed_char_clamp(ps1-qs1)
- ;vadd.s8 q10, q2, q2 ; 3 * ( qs0 - ps0)
vadd.s16 q10, q2, q2 ; 3 * ( qs0 - ps0)
vadd.s16 q11, q13, q13
+ vand q15, q15, q12 ; vp8_filter_mask
- vand q3, q3, q12
-
- ;vadd.s8 q2, q2, q10
vadd.s16 q2, q2, q10
vadd.s16 q13, q13, q11
vld1.u8 {q12}, [r12]! ;#3
- ;vqadd.s8 q1, q1, q2 ; vp8_filter + 3 * ( qs0 - ps0)
vaddw.s8 q2, q2, d2 ; vp8_filter + 3 * ( qs0 - ps0)
vaddw.s8 q13, q13, d3
- vand q15, q15, q3 ; q15: vp8_filter_mask
vld1.u8 {q11}, [r12]! ;#4
vqmovn.s16 d2, q2 ; vp8_filter = vp8_signed_char_clamp(vp8_filter + 3 * ( qs0 - ps0))
@@ -160,28 +147,6 @@
vld1.u8 {d7}, [r12]! ;#9
;
-;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;Change for VP8 from VP7
-; vand q2, q13, q12 ; s = Filter2 & 7
-
-; vqadd.s8 q13, q13, q11 ; Filter2 = vp8_signed_char_clamp(Filter2+4)
-; vld1.u8 {d6}, [r12]! ;#18
-
-; sub r0, r0, r1, lsl #3
-; sub r3, r3, r1, lsl #3
-; sub sp, sp, #32
-
-; vshr.s8 q13, q13, #3 ; Filter2 >>= 3
-; vceq.i8 q2, q2, q11 ; s = (s==4)*-1
-
-; vqsub.s8 q7, q7, q13 ; qs0 = vp8_signed_char_clamp(qs0 - Filter2)
-; vqadd.s8 q11, q2, q13 ; u = vp8_signed_char_clamp(s + Filter2)
-
-; vld1.u8 {d5}, [r12]! ;#27
-; vmov q10, q15
-; vmov q12, q15
-
-; vqadd.s8 q6, q6, q11 ; ps0 = vp8_signed_char_clamp(ps0 + u)
-;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;
vqadd.s8 q2, q13, q11 ; Filter1 = vp8_signed_char_clamp(Filter2+4)
vqadd.s8 q13, q13, q12 ; Filter2 = vp8_signed_char_clamp(Filter2+3)
--- a/vp8/common/arm/neon/mbloopfilterverticaledge_y_neon.asm
+++ b/vp8/common/arm/neon/mbloopfilterverticaledge_y_neon.asm
@@ -69,8 +69,7 @@
ldr r12, _mbvlfy_coeff_
vst1.u8 {q10}, [sp]!
- ;vp8_filter_mask() function
- ;vp8_hevmask() function
+ ; vp8_filter_mask
vabd.u8 q11, q3, q4 ; abs(p3 - p2)
vabd.u8 q12, q4, q5 ; abs(p2 - p1)
vabd.u8 q13, q5, q6 ; abs(p1 - p0)
@@ -78,29 +77,25 @@
vabd.u8 q3, q9, q8 ; abs(q2 - q1)
vabd.u8 q0, q10, q9 ; abs(q3 - q2)
- vcge.u8 q15, q1, q11 ; (abs(p3 - p2) > limit)*-1
- vcge.u8 q12, q1, q12 ; (abs(p2 - p1) > limit)*-1
- vcge.u8 q10, q1, q13 ; (abs(p1 - p0) > limit)*-1
- vcge.u8 q11, q1, q14 ; (abs(q1 - q0) > limit)*-1
- vcge.u8 q3, q1, q3 ; (abs(q2 - q1) > limit)*-1
- vcge.u8 q0, q1, q0 ; (abs(q3 - q2) > limit)*-1
+ vmax.u8 q11, q11, q12
+ vmax.u8 q12, q13, q14
+ vmax.u8 q3, q3, q0
+ vmax.u8 q15, q11, q12
- vand q15, q15, q12
-
vabd.u8 q12, q6, q7 ; abs(p0 - q0)
+ ; vp8_hevmask
vcgt.u8 q13, q13, q2 ; (abs(p1 - p0) > thresh)*-1
vcgt.u8 q14, q14, q2 ; (abs(q1 - q0) > thresh)*-1
+ vmax.u8 q15, q15, q3
vld1.s8 {d4[], d5[]}, [r2] ; flimit
- vand q10, q10, q11
- vand q3, q3, q0
-
vld1.u8 {q0}, [r12]!
vadd.u8 q2, q2, q2 ; flimit * 2
vadd.u8 q2, q2, q1 ; flimit * 2 + limit
+ vcge.u8 q15, q1, q15
vabd.u8 q1, q5, q8 ; abs(p1 - q1)
vqadd.u8 q12, q12, q12 ; abs(p0 - q0) * 2
@@ -108,8 +103,6 @@
vqadd.u8 q12, q12, q1 ; abs(p0 - q0) * 2 + abs(p1 - q1) / 2
vcge.u8 q12, q2, q12 ; (abs(p0 - q0)*2 + abs(p1 - q1)/2 > flimit*2 + limit)*-1
- vand q15, q15, q10
-
;vp8_filter() function
veor q7, q7, q0 ; qs0: q0 offset to convert to a signed value
veor q6, q6, q0 ; ps0: p0 offset to convert to a signed value
@@ -120,29 +113,23 @@
;;;;;;;;;;;;;
vorr q14, q13, q14 ; q14: vp8_hevmask
- ;vqsub.s8 q2, q7, q6 ; ( qs0 - ps0)
vsubl.s8 q2, d14, d12 ; ( qs0 - ps0)
vsubl.s8 q13, d15, d13
vqsub.s8 q1, q5, q8 ; vp8_filter = vp8_signed_char_clamp(ps1-qs1)
- ;vadd.s8 q10, q2, q2 ; 3 * ( qs0 - ps0)
vadd.s16 q10, q2, q2 ; 3 * ( qs0 - ps0)
vadd.s16 q11, q13, q13
+ vand q15, q15, q12 ; vp8_filter_mask
- vand q3, q3, q12
-
- ;vadd.s8 q2, q2, q10
vadd.s16 q2, q2, q10
vadd.s16 q13, q13, q11
vld1.u8 {q12}, [r12]! ;#3
- ;vqadd.s8 q1, q1, q2 ; vp8_filter + 3 * ( qs0 - ps0)
vaddw.s8 q2, q2, d2 ; vp8_filter + 3 * ( qs0 - ps0)
vaddw.s8 q13, q13, d3
- vand q15, q15, q3 ; q15: vp8_filter_mask
vld1.u8 {q11}, [r12]! ;#4
vqmovn.s16 d2, q2 ; vp8_filter = vp8_signed_char_clamp(vp8_filter + 3 * ( qs0 - ps0))
@@ -158,30 +145,6 @@
vld1.u8 {d7}, [r12]! ;#9
;
-;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;Change for VP8 from VP7
-; vand q2, q13, q12 ; s = Filter2 & 7
-
-; vqadd.s8 q13, q13, q11 ; Filter2 = vp8_signed_char_clamp(Filter2+4)
-; vld1.u8 {d6}, [r12]! ;#18
-
-; sub r0, r0, r1, lsl #4
-; sub sp, sp, #32
-; add r2, r0, r1
-
-; vshr.s8 q13, q13, #3 ; Filter2 >>= 3
-; vceq.i8 q2, q2, q11 ; s = (s==4)*-1
-
-; add r3, r2, r1
-
-; vqsub.s8 q7, q7, q13 ; qs0 = vp8_signed_char_clamp(qs0 - Filter2)
-; vqadd.s8 q11, q2, q13 ; u = vp8_signed_char_clamp(s + Filter2)
-
-; vld1.u8 {d5}, [r12]! ;#27
-; vmov q10, q15
-; vmov q12, q15
-
-; vqadd.s8 q6, q6, q11 ; ps0 = vp8_signed_char_clamp(ps0 + u)
-;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;
vqadd.s8 q2, q13, q11 ; Filter1 = vp8_signed_char_clamp(Filter2+4)
vqadd.s8 q13, q13, q12 ; Filter2 = vp8_signed_char_clamp(Filter2+3)
--- a/vp8/common/reconintra_mt.h
+++ /dev/null
@@ -1,26 +1,0 @@
-/*
- * Copyright (c) 2010 The WebM project authors. All Rights Reserved.
- *
- * Use of this source code is governed by a BSD-style license
- * that can be found in the LICENSE file in the root of the source
- * tree. An additional intellectual property rights grant can be found
- * in the file PATENTS. All contributing project authors may
- * be found in the AUTHORS file in the root of the source tree.
- */
-
-
-#ifndef __INC_RECONINTRA_MT_H
-#define __INC_RECONINTRA_MT_H
-
-// reconintra functions used in multi-threaded decoder
-#if CONFIG_MULTITHREAD
-extern void vp8mt_build_intra_predictors_mby(VP8D_COMP *pbi, MACROBLOCKD *x, int mb_row, int mb_col);
-extern void vp8mt_build_intra_predictors_mby_s(VP8D_COMP *pbi, MACROBLOCKD *x, int mb_row, int mb_col);
-extern void vp8mt_build_intra_predictors_mbuv(VP8D_COMP *pbi, MACROBLOCKD *x, int mb_row, int mb_col);
-extern void vp8mt_build_intra_predictors_mbuv_s(VP8D_COMP *pbi, MACROBLOCKD *x, int mb_row, int mb_col);
-
-extern void vp8mt_predict_intra4x4(VP8D_COMP *pbi, MACROBLOCKD *x, int b_mode, unsigned char *predictor, int mb_row, int mb_col, int num);
-extern void vp8mt_intra_prediction_down_copy(VP8D_COMP *pbi, MACROBLOCKD *x, int mb_row, int mb_col);
-#endif
-
-#endif
--- /dev/null
+++ b/vp8/decoder/reconintra_mt.h
@@ -1,0 +1,26 @@
+/*
+ * Copyright (c) 2010 The WebM project authors. All Rights Reserved.
+ *
+ * Use of this source code is governed by a BSD-style license
+ * that can be found in the LICENSE file in the root of the source
+ * tree. An additional intellectual property rights grant can be found
+ * in the file PATENTS. All contributing project authors may
+ * be found in the AUTHORS file in the root of the source tree.
+ */
+
+
+#ifndef __INC_RECONINTRA_MT_H
+#define __INC_RECONINTRA_MT_H
+
+// reconintra functions used in multi-threaded decoder
+#if CONFIG_MULTITHREAD
+extern void vp8mt_build_intra_predictors_mby(VP8D_COMP *pbi, MACROBLOCKD *x, int mb_row, int mb_col);
+extern void vp8mt_build_intra_predictors_mby_s(VP8D_COMP *pbi, MACROBLOCKD *x, int mb_row, int mb_col);
+extern void vp8mt_build_intra_predictors_mbuv(VP8D_COMP *pbi, MACROBLOCKD *x, int mb_row, int mb_col);
+extern void vp8mt_build_intra_predictors_mbuv_s(VP8D_COMP *pbi, MACROBLOCKD *x, int mb_row, int mb_col);
+
+extern void vp8mt_predict_intra4x4(VP8D_COMP *pbi, MACROBLOCKD *x, int b_mode, unsigned char *predictor, int mb_row, int mb_col, int num);
+extern void vp8mt_intra_prediction_down_copy(VP8D_COMP *pbi, MACROBLOCKD *x, int mb_row, int mb_col);
+#endif
+
+#endif
--- a/vp8/encoder/onyx_if.c
+++ b/vp8/encoder/onyx_if.c
@@ -1330,11 +1330,6 @@
cpi->per_frame_bandwidth = (int)(cpi->oxcf.target_bandwidth / cpi->output_frame_rate);
cpi->av_per_frame_bandwidth = (int)(cpi->oxcf.target_bandwidth / cpi->output_frame_rate);
cpi->min_frame_bandwidth = (int)(cpi->av_per_frame_bandwidth * cpi->oxcf.two_pass_vbrmin_section / 100);
- cpi->rolling_target_bits = cpi->av_per_frame_bandwidth;
- cpi->rolling_actual_bits = cpi->av_per_frame_bandwidth;
-
- cpi->long_rolling_target_bits = cpi->av_per_frame_bandwidth;
- cpi->long_rolling_actual_bits = cpi->av_per_frame_bandwidth;
cpi->max_gf_interval = (int)(cpi->output_frame_rate / 2) + 2;
//cpi->max_gf_interval = (int)(cpi->output_frame_rate * 2 / 3) + 1;
@@ -1580,6 +1575,10 @@
cpi->active_best_quality = cpi->oxcf.best_allowed_q;
cpi->buffered_mode = (cpi->oxcf.optimal_buffer_level > 0) ? TRUE : FALSE;
+ cpi->rolling_target_bits = cpi->av_per_frame_bandwidth;
+ cpi->rolling_actual_bits = cpi->av_per_frame_bandwidth;
+ cpi->long_rolling_target_bits = cpi->av_per_frame_bandwidth;
+ cpi->long_rolling_actual_bits = cpi->av_per_frame_bandwidth;
cpi->total_actual_bits = 0;
cpi->total_target_vs_actual = 0;
@@ -1858,6 +1857,10 @@
cpi->active_best_quality = cpi->oxcf.best_allowed_q;
cpi->buffered_mode = (cpi->oxcf.optimal_buffer_level > 0) ? TRUE : FALSE;
+ cpi->rolling_target_bits = cpi->av_per_frame_bandwidth;
+ cpi->rolling_actual_bits = cpi->av_per_frame_bandwidth;
+ cpi->long_rolling_target_bits = cpi->av_per_frame_bandwidth;
+ cpi->long_rolling_actual_bits = cpi->av_per_frame_bandwidth;
cpi->total_actual_bits = 0;
cpi->total_target_vs_actual = 0;
@@ -2676,6 +2679,8 @@
return 0;
}
+
+#if OUTPUT_YUV_SRC
void vp8_write_yuv_frame(const char *name, YV12_BUFFER_CONFIG *s)
{
FILE *yuv_file = fopen(name, "ab");
@@ -2711,7 +2716,9 @@
fclose(yuv_file);
}
+#endif
+
static void scale_and_extend_source(YV12_BUFFER_CONFIG *sd, VP8_COMP *cpi)
{
VP8_COMMON *cm = &cpi->common;
@@ -4355,12 +4362,13 @@
if (cm->frame_type == KEY_FRAME)
cm->refresh_last_frame = 1;
- if (0)
+#if 0
{
FILE *f = fopen("gfactive.stt", "a");
fprintf(f, "%8d %8d %8d %8d %8d\n", cm->current_video_frame, (100 * cpi->gf_active_count) / (cpi->common.mb_rows * cpi->common.mb_cols), cpi->this_iiratio, cpi->next_iiratio, cm->refresh_golden_frame);
fclose(f);
}
+#endif
// For inter frames the current default behaviour is that when cm->refresh_golden_frame is set we copy the old GF over to the ARF buffer
// This is purely an encoder descision at present.
@@ -4604,9 +4612,7 @@
}
}
-#if CONFIG_PSNR
-
- if (0)
+#if 0 && CONFIG_PSNR
{
FILE *f = fopen("tmp.stt", "a");
@@ -4731,7 +4737,7 @@
- if (0)
+#if 0
{
char filename[512];
FILE *recon_file;
@@ -4741,6 +4747,7 @@
cm->yv12_fb[cm->lst_fb_idx].frame_size, 1, recon_file);
fclose(recon_file);
}
+#endif
// DEBUG
//vp8_write_yuv_frame("encoder_recon.yuv", cm->frame_to_show);
@@ -4800,8 +4807,6 @@
}
#if 0
-
- if (0)
{
FILE *f = fopen("gfneeded.stt", "a");
fprintf(f, "%10d %10d %10d %10d %10ld \n",
--
⑨